Eksploracja struktur

Eksploracja struktury lub eksploracja danych strukturalnych to proces znajdowania i wydobywania przydatnych informacji z częściowo ustrukturyzowanych zestawów danych. Eksploracja grafów, eksploracja wzorców sekwencyjnych i eksploracja molekuł to szczególne przypadki eksploracji danych strukturalnych ^{[ potrzebne źródło ]} .

Opis

Wzrost wykorzystania częściowo ustrukturyzowanych danych stworzył nowe możliwości eksploracji danych, która tradycyjnie dotyczyła zestawów danych tabelarycznych, odzwierciedlając silne powiązania między eksploracją danych a relacyjnymi bazami danych . Wiele interesujących i możliwych do wydobycia danych na świecie nie daje się łatwo umieścić w relacyjnych bazach danych, chociaż pokolenie inżynierów oprogramowania zostało przeszkolonych w przekonaniu, że jest to jedyny sposób obsługi danych, a algorytmy eksploracji danych zostały na ogół opracowane wyłącznie w celu radzenia sobie z danymi tabelarycznymi .

XML , będący najczęstszym sposobem reprezentacji częściowo ustrukturyzowanych danych, może reprezentować zarówno dane tabelaryczne, jak i dowolne drzewa. Każda konkretna reprezentacja danych, które mają być wymieniane między dwiema aplikacjami w XML, jest zwykle opisana przez schemat często napisany w XSD . Praktyczne przykłady takich schematów, na przykład NewsML , są zwykle bardzo wyrafinowane i zawierają wiele opcjonalnych poddrzew, używanych do reprezentowania danych przypadków specjalnych. Często około 90% schematu dotyczy definicji tych opcjonalnych elementów danych i poddrzew.

Dlatego komunikaty i dane, które są przesyłane lub kodowane przy użyciu XML i które są zgodne z tym samym schematem, mogą zawierać bardzo różne dane w zależności od tego, co jest przesyłane.

Takie dane stwarzają duże problemy dla konwencjonalnej eksploracji danych. Dwa komunikaty zgodne z tym samym schematem mogą mieć niewiele wspólnych danych. Budowanie zbioru uczącego z takich danych oznacza, że gdyby spróbować sformatować go jako dane tabelaryczne do konwencjonalnej eksploracji danych, duże sekcje tabel byłyby lub mogłyby być puste.

Podczas projektowania większości algorytmów eksploracji danych przyjmuje się milczące założenie, że prezentowane dane będą kompletne. Inną koniecznością jest to, że faktycznie stosowane algorytmy wyszukiwania, nadzorowane lub nienadzorowane, muszą być w stanie obsłużyć rzadkie dane. Mianowicie, algorytmy uczenia maszynowego działają źle w przypadku niekompletnych zestawów danych, w przypadku których dostarczana jest tylko część informacji. Na przykład metody oparte na sieciach neuronowych . ^{[ potrzebne źródło ]} lub algorytm ID3 Rossa Quinlana . ^{[ potrzebne źródło ]} są bardzo dokładne z dobrymi i reprezentatywnymi próbkami problemu, ale działają źle z tendencyjnymi danymi. W większości przypadków wystarczy lepsza prezentacja modelu z dokładniejszą i bezstronną reprezentacją danych wejściowych i wyjściowych. Szczególnie istotnym obszarem, w którym kluczową kwestią jest znalezienie odpowiedniej struktury i modelu, jest eksploracja tekstu .

XPath to standardowy mechanizm używany do odwoływania się do węzłów i elementów danych w XML. Ma podobieństwa do standardowych technik poruszania się po hierarchiach katalogów używanych w interfejsach użytkownika systemów operacyjnych. Aby uzyskać dane i ustrukturyzować dane XML w dowolnej formie, wymagane są co najmniej dwa rozszerzenia konwencjonalnej eksploracji danych. Są to możliwość powiązania instrukcji XPath z dowolnym wzorcem danych i podinstrukcjami z każdym węzłem danych we wzorcu danych oraz możliwość eksploracji obecności i liczby dowolnego węzła lub zestawu węzłów w dokumencie.

Na przykład, gdyby ktoś miał reprezentować drzewo genealogiczne w XML, używając tych rozszerzeń, można by utworzyć zestaw danych zawierający wszystkie węzły osób w drzewie, elementy danych, takie jak imię i nazwisko oraz wiek w chwili śmierci, oraz liczbę powiązanych węzłów, takich jak jako liczba dzieci. Bardziej wyrafinowane wyszukiwania mogą wydobywać dane, takie jak długość życia dziadków itp.

Dodanie tych typów danych związanych ze strukturą dokumentu lub wiadomości ułatwia eksplorację struktury.

Zobacz też

Andrew N Edmonds, On data mining tree structured data in XML”, konferencja Data Mining UK, University of Nottingham, sierpień 2003
Gusfield, D., Algorytmy na ciągach, drzewach i sekwencjach: informatyka i biologia obliczeniowa , Cambridge University Press, 1997 . ISBN 0-521-58519-8
RO Duda, PE Hart, DG Bocian, Klasyfikacja wzorców , John Wiley & Sons, 2001 . ISBN 0-471-05669-3
F. Hadzic, H. Tan, TS Dillon, Eksploracja danych o złożonych strukturach, Springer, 2010 . ISBN 978-3-642-17556-5

Linki zewnętrzne

5th International Workshop on Mining and Learning with Graphs, Firenze, 1-3 sierpnia 2007