Open Calais, czyli budujemy mosty do Web 3.0.?

Artur Machlarz ByArtur Machlarz

Open Calais, czyli budujemy mosty do Web 3.0.?

Open Calais to serwis internetowy tworzący „na żywo” metaopis treści dowolnego dokumentu w oparciu o ustalone zasady analizy zawartości dokumentu i jego przekładu na RDF. System Calais dokonuje kategoryzacji treści dokumentu: ludzie, technologie, miejsca, zdarzenia są wyodrębniane z tekstu. Pozwala to na dość swobodną nawigację i ocenę zawartości przeglądanego dokumentu.

Na bazie serwisu Open Calais powstał cały szereg aplikacji korzystających z jego rozwiązań: Wandora, LinkedFacts, SemanticProxy, ClearForest Gnosis i inne. Niektóre są bardziej udane, niektóre mniej. Służą bardzo różnym celom: monitorowaniu informacji w mediach, ułatwieniu pracy ze stronami www, dodawaniu metaopisu do stron www itp. Open Calais to platforma przetwarzająca zawartość tekstową dokumentów, zaś aplikacje zbudowane na niej dodają do tego różne funkcjonalności.

Idea działania aplikacji bazujących na Open Calais jest następująca: z treści strony internetowej zapisanej w dowolny sposób, niezależnie od jej struktury, wyodrębniane są znane aplikacji terminy i przyporządkowywane do określonych kategorii. Kategorii jest całkiem dużo, co sprawia wrażenie względnie subtelnej analizy „semantycznej” zawartości dokumentu. Efektywność aplikacji zbudowanej na Open Calais zależy jednak wyłącznie od bogactwa słownika, na którym aplikacja bazuje. Nic innego nie pozwoli odróżnić terminów jako należących do określonych do jakiejkolwiek kategorii niż zdefiniowanie tego w bazowym słowniku. Jeśli dane słowo nie należy do zbioru wartości żadnej kategorii, nie zostanie rozpoznane przez aplikację zbudowaną na Open Calais.

Kierunek jest w tym przypadku zasadniczo odmienny niż w przypadku aplikacji budujących faktycznie semantyczny metaopis: w metaopisie semantycznym wartościowe są relacje w ramach zadeklarowanej ontologii i powiązania różnych plików RDF – w Open Calais nie ma mowy o żadnych powiązaniach między terminami, a już na pewno nie między różnymi dokumentami (w gruncie rzeczy w przypadku Open Calais na pewno nie ma zatem mowy o kroku w stronę „sieci” semantycznej lub Web 3.0.). W aplikacjach do tworzenia semantycznych metaopisów nie deklarujemy też wszystkich możliwych wartości kategorii: deklarujemy odwołanie do ontologii, wskazujemy, które części naszej bazy będą wartościami kategorii ze wskazanej ontologii i metaopis „robi się sam”.

Aplikacje budowane na Open Calais mogłyby być mimo to całkiem wygodnym narzędziem ułatwiającym pracę z dokumentami w sieci. Schematyczne opracowanie dokumentu, wyodrębnienie podstawowych kategorii – w niektórych przypadkach, szczególnie, gdyby użytkownik miał pełną kontrolę nad definiowaniem kategorii, mogłoby być bardzo wygodne. Wyselekcjonowanie znanych aplikacji słów i przyporządkowanie ich do wcześniej zdefiniowanych typów danych to jest jednak za mało, żeby móc powiedzieć o odkryciu przez Open Calais semantyki tekstu. Semantyka dokumentu to dużo więcej niż kategorialna analiza występujących w nim terminów.

AM.

O autorze

Artur Machlarz

Artur Machlarz administrator

Od 2005 pracuje jako infobroker, zajmuje się wyszukiwaniem i opracowywaniem informacji. Specjalizuje się w tworzeniu unikalnych baz danych. Jako pracownik naukowy zajmuje się modelami przetwarzania informacji w systemach rozproszonych. Lubi się wspinać i grać na kontrabasie.

Odpowiedz

Time limit is exhausted. Please reload the CAPTCHA.