Pobieranie XMLa

Pobieranie XML lub pobieranie informacji XML to oparte na treści pobieranie dokumentów ustrukturyzowanych za pomocą XML (eXtensible Markup Language). Jako taki jest używany do obliczania przydatności dokumentów XML.

Zapytania

Większość podejść do wyszukiwania XML robi to w oparciu o techniki z obszaru wyszukiwania informacji (IR), np. poprzez obliczanie podobieństwa między zapytaniem składającym się ze słów kluczowych (terminów zapytania) a dokumentem. Jednak w XML-Retrieval zapytanie może również zawierać wskazówki strukturalne . Tak zwane zapytania „treść i struktura” (CAS) umożliwiają użytkownikom określenie, jaką strukturę może lub musi mieć żądana treść.

Wykorzystanie struktury XML

Wykorzystanie samoopisującej się struktury dokumentów XML może znacznie usprawnić wyszukiwanie dokumentów XML. Obejmuje to użycie zapytań CAS, różne wagi różnych elementów XML i ukierunkowane wyszukiwanie dokumentów podrzędnych.

Zaszeregowanie

Ranking w XML-Retrieval może uwzględniać zarówno trafność treści, jak i podobieństwo strukturalne, czyli podobieństwo między strukturą podaną w zapytaniu a strukturą dokumentu. Ponadto jednostki wyszukiwania wynikające z zapytania XML mogą nie zawsze być całymi dokumentami, ale mogą być dowolnymi głęboko zagnieżdżonymi elementami XML, tj. dokumentami dynamicznymi. Celem jest znalezienie najmniejszej jednostki wyszukiwania, która jest bardzo istotna. Istotność można zdefiniować zgodnie z pojęciem specyficzności, czyli stopnia, w jakim jednostka wyszukiwania koncentruje się na temacie żądania.

Istniejące wyszukiwarki XML

Dostępny jest przegląd dwóch potencjalnych podejść. INitiative for the Evaluation of XML-Retrieval ( INEX ) została założona w 2002 roku i zapewnia platformę do oceny takich algorytmów . Trzy różne obszary mają wpływ na pobieranie XML:

Tradycyjne języki zapytań XML

Języki zapytań , takie jak standard W3C XQuery , dostarczają złożonych zapytań, ale szukają tylko dokładnych dopasowań. Dlatego należy je rozszerzyć, aby umożliwić niejasne wyszukiwanie przy użyciu obliczeń relewantności. schematów dokumentów .

Bazy danych

Klasyczne systemy bazodanowe przyjęły możliwość przechowywania danych częściowo ustrukturyzowanych i zaowocowały rozwojem baz danych XML . Często są one bardzo formalne, koncentrują się bardziej na wyszukiwaniu niż na rankingowaniu i są używane przez doświadczonych użytkowników, którzy potrafią formułować złożone zapytania.

Wyszukiwanie informacji

Klasyczne modele wyszukiwania informacji, takie jak model przestrzeni wektorowej, zapewniają ranking trafności, ale nie obejmują struktury dokumentu; obsługiwane są tylko zapytania płaskie. Ponadto stosują statyczną koncepcję dokumentu, więc jednostki wyszukiwania to zwykle całe dokumenty. Można je rozszerzyć, aby uwzględniały informacje strukturalne i dynamiczne wyszukiwanie dokumentów. Dostępne są przykłady podejść rozszerzających modele przestrzeni wektorowej: wykorzystują one poddrzewa dokumentów (terminy indeksowe plus struktura) jako wymiary przestrzeni wektorowej.

Zbiory danych XML zorientowane na dane

W przypadku zestawów danych XML zorientowanych na dane unikalna i wyróżniająca się metoda wyszukiwania słów kluczowych, mianowicie XDMA dla baz danych XML, została zaprojektowana i opracowana w oparciu o podwójne indeksowanie i wzajemne sumowanie.

Zobacz też