Wrapper (eksploracja danych)

Wrapper w eksploracji danych to procedura, która wyodrębnia regularną zawartość podrzędną z nieustrukturyzowanego lub luźno ustrukturyzowanego źródła informacji i tłumaczy ją na formę relacyjną , dzięki czemu można ją przetwarzać jako dane ustrukturyzowane. Indukcja opakowania to problem polegający na automatycznym opracowywaniu procedur ekstrakcji, przy minimalnym poleganiu na ręcznie opracowanych regułach.

Wiele stron internetowych jest generowanych automatycznie na podstawie ustrukturyzowanych danych – książki telefoniczne, katalogi produktów itp. – opakowanych w luźno ustrukturyzowany język prezentacji (zwykle jakiś wariant HTML ) , sformatowany do przeglądania i nawigacji przez ludzi. Dane strukturalne to zazwyczaj opisy obiektów pobierane z podstawowych baz danych i wyświetlane na stronach internetowych według ustalonych szablonów na niskim poziomie, wstrzykiwane na strony, na których struktura wysokiego poziomu może zmieniać się z tygodnia na tydzień, zgodnie z szybko zmieniającą się modą prezentacji witryny . Dokładna linia podziału między płynną skórką wysokiego poziomu a szablonami danych o mniej płynnej strukturze jest rzadko dokumentowana do użytku publicznego, poza zespołem zarządzania treścią w usłudze internetowej. Systemy oprogramowania korzystające z takich zasobów muszą tłumaczyć zawartość HTML na postać relacyjną. Opakowania są powszechnie używane jako takie tłumacze. Formalnie opakowanie jest funkcją ze strony do zbioru krotki .

Generacja wrappera

Istnieją dwa główne podejścia do generowania opakowania: indukcja opakowania i automatyczna ekstrakcja danych . Indukcja opakowująca wykorzystuje uczenie nadzorowane do uczenia się reguł ekstrakcji danych z ręcznie oznaczonych przykładów szkoleniowych. Wady indukcji owijania to

czasochłonny proces ręcznego etykietowania i
trudność konserwacji owijarki.

Ze względu na nakład pracy związanej z ręcznym etykietowaniem trudno jest wyodrębnić dane z dużej liczby witryn, ponieważ każda witryna ma własne szablony i wymaga oddzielnego ręcznego etykietowania w celu uczenia się opakowania. Konserwacja opakowania jest również poważnym problemem, ponieważ za każdym razem, gdy witryna się zmienia, opakowania utworzone dla witryny stają się przestarzałe. Z powodu tych niedociągnięć naukowcy zbadali automatyczne generowanie opakowań przy użyciu eksploracji wzorców bez nadzoru. Automatyczna ekstrakcja jest możliwa, ponieważ większość obiektów danych sieci Web jest zgodna z ustalonymi szablonami. Wykrycie takich szablonów lub wzorców umożliwia systemowi automatyczne przeprowadzenie ekstrakcji.

Generowanie wrapperów w sieci jest ważnym problemem w przypadku szerokiego zakresu aplikacji. Ekstrakcja takich danych umożliwia integrację danych/informacji z wielu witryn internetowych w celu świadczenia usług o wartości dodanej, np. porównywania zakupów, wyszukiwania obiektów i integracji informacji.

Zobacz też

Business Intelligence (sekcja danych częściowo ustrukturyzowanych lub nieustrukturyzowanych )
Skrobanie sieci

Źródła

^ Nicholas Kushmerick, Daniel S. Weld, Robert Doorenbos, Wrapper Induction for Information Extraction Proceedings of the International Joint Conference on Artificial Intelligence, 1997
^ Liu, B. Web Data Mining: Exploring Hyperlinks, Content and Use Data , Springer, 2007.

[1] Nicholas Kushmerick, Daniel S. Weld, Robert Doorenbos, Wrapper Induction for Information Extraction Proceedings of the International Joint Conference on Artificial Intelligence, 1997

[2] Liu, B. Web Data Mining: Exploring Hyperlinks, Content and Use Data , Springer, 2007.