Repozytorium wiedzy, NLP i reguły wnioskowania – True Knowledge

Artur Machlarz ByArtur Machlarz

Repozytorium wiedzy, NLP i reguły wnioskowania – True Knowledge

True Knowledge to system mający udzielać odpowiedzi na zadawane w języku naturalnym pytania. Bazą stanowiącą repozytorium wiedzy True Knowledge będą dane wprowadzane do systemu. Warunkiem poprawnego działania – odpowiednie rozumienie prostych pytań zadawanych w języku naturalnym i umiejętność przeprowadzania prostych logicznych rozumowań.

True Knowledge działa na pierwszy rzut oka trochę jak Hakia. Użytkownik stawia pytanie i ma uzyskać odpowiedź oraz listę linków do dokumentów w sieci, w których znajdzie się odpowiedź na postawione pytanie lub które są treściowo związane z pytaniem. Hakia jednak przede wszystkim ma być wyszukiwarką internetową, True Knowledge ma być zaś przede wszystkim systemem udzielającym odpowiedzi na stawiane pytania – nie tyle „searchengine” co „answer engine”. Z pewnością nie może zastąpić wyszukiwarki internetowej, ale może ją czasami uzupełnić.

Aktualnie True Knowledge zawiera względnie szeroki zakres danych na temat ludzi oraz miejsc. Wersja Beta nie działa zbyt dobrze – dobór źródeł często wydaje się słabo uzasadniony, linki są relewantne do zapytania ale często wybierane są te mało wartościowe. Ma wygodny interfejs, problemy z interpretacją prostych pytań w języku naturalnym raczej się nie pojawiają.

Naprawdę imponujące wrażenie robi jednak rekonstrukcja procesu rozumowania, które jest przeprowadzone, żeby udzielić odpowiedzi. W True Knowledge zawsze możemy sprawdzić poprawność rozumowania, system pokazuje też możliwe sposoby rozumienia postawionego przez nas pytania. Prześledzić możemy nie tylko procedurę wnioskowania, ale także bazowe fakty. Użytkownik TK może wtedy zdać sobie sprawę z tego, jak wiele szczegółowych – i oczywistych dla nas – danych trzeba wprowadzić do systemu, żeby mógł odpowiedzieć na banalne pytanie: „Is Julius Cesar alive?”:

True Knowledge

Żeby odpowiedzieć na tak proste pytanie, musimy wprowadzić do systemu wiedzę o:

  • chronologicznej kolejności dat;
  • o tym, że prawdziwość zdania „x jest żywy/martwy” jest zależna od daty urodzin i śmierci i ich relacji do aktualnej daty;
  • o tym, że zdanie „x urodził się/zmarł w [data]” jest prawdziwe lub fałszywe niezależnie od aktualnej daty;
  • o tym, że jeśli x urodził się w [data1] i zmarł w [data2] to między tymi datami był żywy;
  • o tym, że jeśli x nie jest żywy, to jest martwy;
  • o tym, że x mógł być żywy tylko w jednym okresie czasu, że może istnieć tylko jedna data urodzin i jedna data śmierci;

Odpowiedź na pytanie o żyjącą osobę jest nieokreślona, ponieważ w systemie brak danych o dacie śmierci. TK nie odpowie zatem na pytanie „Is Chaka Khan alive?”, o ile nie odpowiedział na to pytanie inny użytkownik TK (użytkownicy mają prawo „wzbogacać” wiedzę TK) podając uzasadnienie.

Na marginesie: zgodnie z deklaracjami autorów, TK ma być „kontynuacją Leibnizjańskiego projektu charakterystyki uniwersalnej„. Pojęciom zapisanym w TK przypisane są liczby naturalne – tak jak chciał Leibniz. System przeprowadza rozumowania na reprezentacjach pojęć, mając do dyspozycji cały szereg zdefiniowanych relacji i reguł wnioskowania (wg Leibniza do przeprowadzania rozumowań wystarczyły tylko operacje mnożenia i sprawdzania podzielności liczb reprezentujących pojęcia). Deklaracja wydała mi się trochę zaskakująca, ponieważ nie przywykłem do poszukiwania historycznego lub filozoficznego kontekstu przez autorów nowych projektów internetowych :). Autorzy TK ewidentnie chcieliby, żeby ich system – obejmując wszystkie pojęcia przedmiotów realnego świata – mógł udzielić odpowiedzi na wszystkie możliwe pytania (oczywiście bez możliwości empirycznego sprawdzania prawdziwości zdań 🙂 ). W tym sensie faktycznie „kontynuowaliby projekt Leibniza”, którego charakterystyka uniwersalna miała być narzędziem ułatwiającym sprawdzanie prawdziwości zdań. Leibnizjański projekt miał jednak jeszcze drugą, równie ważną część: charakterystyka uniwersalna miała być nie tylko sztuką sprawdzania prawdziwości sądów, ale także sztuką odkrywania nowych prawd. Takich ambicji twórcy TK – mam nadzieję – chyba nie mają.

Aktualnie wersja Beta nie jest jeszcze ogólnodostępna. Jeśli ktoś chciałby przetestować TK, proszę o kontakt – mam do rozdania kilkanaście zaproszeń.

AM.

Reblog this post [with Zemanta]

O autorze

Artur Machlarz

Artur Machlarz administrator

Od 2005 pracuje jako infobroker, zajmuje się wyszukiwaniem i opracowywaniem informacji. Specjalizuje się w tworzeniu unikalnych baz danych. Jako pracownik naukowy zajmuje się modelami przetwarzania informacji w systemach rozproszonych. Lubi się wspinać i grać na kontrabasie.

2 komentarze

Kuba „qbeu” KołakowskiData wysania10:19 pm - Sty 10, 2009

Najciekawsza jest chyba możliwość „zajrzenia do środka” wyników. Poza tym, w przeciwieństwie choćby do Powerset, udziela odpowiedzi, a nie tylko każe się ich domyślać na podstawie wyników (może i podświetlone, ale to nadal nie to…).
Tak czy owak, projekt wygląda bardzo ciekawie i zapowiada się – jak dla mnie – najlepiej ze wszystkich „semantycznych startupów”. Oby się porządnie rozwijał i nie stał się drugim Cuil :).

Kuba „qbeu” KołakowskiData wysania10:19 pm - Sty 10, 2009

Najciekawsza jest chyba możliwość „zajrzenia do środka” wyników. Poza tym, w przeciwieństwie choćby do Powerset, udziela odpowiedzi, a nie tylko każe się ich domyślać na podstawie wyników (może i podświetlone, ale to nadal nie to…).
Tak czy owak, projekt wygląda bardzo ciekawie i zapowiada się – jak dla mnie – najlepiej ze wszystkich „semantycznych startupów”. Oby się porządnie rozwijał i nie stał się drugim Cuil :).

Odpowiedz

Time limit is exhausted. Please reload the CAPTCHA.