PiggyBank, czyli próbka działania semantycznej sieci

Artur Machlarz ByArtur Machlarz

PiggyBank, czyli próbka działania semantycznej sieci

Piggy Bank to jeden z produktów Simile – dodatek do przeglądarki Firefox. Jego funkcją jest pobieranie różnego rodzaju metadanych związanych ze wskazaną stroną www – w szczególności danych zawartych w plikach RDF. Aplikacją rozszerzającą funkcjonalność PiggyBank jest screen-scrapper Solver ułatwiający pobieranie danych ze stron bez dołączonych plików RDF i ich zapisywanie w schemacie RDF.

Piggy Bank przede wszystkim zbiera ze strony www „czyste informacje” reprezentowane w RDF i przedstawia je uporządkowane wg typu danych:

Piggy Bank

Część danych zebranych ze strony głównej niniejszego bloga; dane pochodzą z dołączonego pliku SIOC. Informacje zbierane po prawej stronie to kategorie pojawiające się w pliku .rdf: kategorie, relacje itp. i ich wartości – predykaty i orzeczenia wyrażeń w języku RDF.

Do automatycznie zebranych w ten sposób danych możemy ręcznie dodawać „tagi”. Dane mogą zostać zachowane na dysku: wszystkie zebrane informacje lub ich część.

Zbiór informacji może być filtrowany i przeglądany na wiele sposobów: możemy filtrować zebrane dane względem autora, daty, tematu, rodzaju itd. Zachowane informacje możemy także przeszukiwać po tagach lub typie danych (post, properties, user itd. – są to występujące w dokumencie typy danych występujące jako predykaty w zapisie RDF) i tzw. Starting Points – predefiniowanych kategorii takich jak kontakt, news, web page itp. Dane są przyporządkowane do poszczególnych Starting Points po interpretacji przez Piggy Bank danych jako danych kontaktowych (np. pliki FOAF są zawsze przypisywane do kategorii „kontakt”), strony internetowej, scrappera lub np. newsa. Zawartość naszej Piggy Bank możemy także przeglądać wpisując w okno wyszukiwania termin, który może wystąpić jako wartość dowolnej z pojawiających się w naszych zbiorach kategorii.

Jeśli do strony internetowej, z której chcemy zebrać informacje jest dołączony plik RDF, Piggy Bank zbierze wszystkie informacje, które są w nim zamieszczone. Jeśli do strony nie jest dołączony plik RDF, możemy użyć scrapperów przekształcających zapis w html na RDF. Operację taką wykonać możemy używając udostępnionych online scrapperów lub napisać własny skrypt.

Budując scrappera przy pomocy współpracującego z Piggy Bank programu Solver, wskazujemy interesujące nas elementy w składni danej strony (czyli elementy w określonych znacznikach, np. między <div cośtam> i </div>) a następnie decydujemy o tym, w jaki sposób mają być interpretowane. Musimy założyć, że pewne elementy syntaktyczne jednoznacznie wskazują na zawartość semantyczną, co oczywiście zmniejsza zakres zastosowania naszych scrapperów (najczęściej do jednej strony…). Chyba najbardziej ogólny, bo znajdujący zastosowanie właściwie do wszystkich stron www, screen scrapper, z którego możemy skorzystać, to Generic Web Page Scraper: pobiera metadane z nagłówka stron internetowych (dane autora, słowa kluczowe, tytuł strony, język itp.) i interpretuje je zgodnie z zasadami słownika opisującego zawartość strony www.

Piggy Bank

Piggy Bank

Prosty scrapper zastosowany do strony niniejszego bloga – niezależnie od dołączonego pliku SIOC scrapper pozwala pobrać tytuł i treść postów. Na górnym obrazku, zaznaczamy myszką powtarzalny obszar na stronie www. Następnie definiujemy w prawym oknie elementy, które pojawią się po rozwinięciu znaczników „div”. Na dolnym obrazku, w lewym oknie widzimy wygenerowany kod, w prawym zaś efekt działania scrappera. Efekt można oczywiście zaprezentować w Piggy Bank.

Przy samodzielnym budowaniu scrappera dostaniemy do wyboru 4 podstawowe kategorie, do których możemy przypisywać dane: URI (czyli jednoznacznie identyfikujące źródło danych wyrażenie – np. adres url), tytuł, adres (geograficzny) oraz opis.

Piggy Bank

Inny scrapper dla prostej strony html. W prawym oknie widać błędne przyporządkowanie adresu url do kategorii geograficznej „adres”.

Wykorzystanie możliwości Piggy Bank i scrappera wymaga posiadania pewnej wiedzy odnośnie zasad budowania wyrażeń w RDF. Zaawansowani użytkownicy mogą np. korzystać z możliwości rekonstrukcji treści strony internetowej przy użyciu wskazanych samodzielnie ontologii, nieco subtelniej ręcznie definiować kategorie do których należeć będą wskazane elementy syntaktyczne.

Wadą scrappera jest oczywiście jego ścisły związek z opisem wyglądu strony – to jest oczywiście nie tyle wada scrappera, ile trudność związana z próbą wykorzystania strony internetowej w celu, do którego nie została przez autora przystosowana. Póki jednak metaopis dokumentów w .rdf będzie raczej rzadkością niż standardem, scrappery mogą okazać się całkiem przydatnymi narzędziami zbierania danych.

Gdy nasz zbiór danych się nieco rozrośnie zobaczymy jak bardzo ułatwia pracę z danymi to, że są one zinterpretowane w uznanych modelach intepretacji – np. bardzo łatwo z kolekcji danych FOAF wyselekcjonujemy osoby spełniające określone warunki (np. z tytułem dr, zainteresowane określoną problematyką itp.).

AM

O autorze

Artur Machlarz

Artur Machlarz administrator

Od 2005 pracuje jako infobroker, zajmuje się wyszukiwaniem i opracowywaniem informacji. Specjalizuje się w tworzeniu unikalnych baz danych. Jako pracownik naukowy zajmuje się modelami przetwarzania informacji w systemach rozproszonych. Lubi się wspinać i grać na kontrabasie.

Odpowiedz

Time limit is exhausted. Please reload the CAPTCHA.