Otwarta ekstrakcja informacji

W przetwarzaniu języka naturalnego, otwarta ekstrakcja informacji ( OIE ) polega na wygenerowaniu ustrukturyzowanej, czytelnej maszynowo reprezentacji informacji w tekście, zwykle w postaci trójek lub zdań n-arnych .

Przegląd

Zdanie może być rozumiane jako nośnik prawdy , tekstowe wyrażenie potencjalnego faktu (np. „Dante napisał Boską komedię”), reprezentowane w strukturze nadającej się do komputerów [np. („Dante”, „napisał”, „Boski Komedia")]. Ekstrakcja OIE zwykle składa się z relacji i zestawu argumentów. Na przykład („Dante”, „zmarł w” „Rawennie”) jest zdaniem utworzonym przez relację „zmarł w” i argumentami „Dante” i „Rawenna”. Pierwszy argument jest zwykle określany jako podmiot, podczas gdy drugi jest uważany za przedmiot.

Mówi się, że ekstrakcja jest tekstową reprezentacją potencjalnego faktu, ponieważ jej elementy nie są powiązane z bazą wiedzy . Ponadto faktyczny charakter wniosku nie został jeszcze ustalony. W powyższym przykładzie przekształcenie ekstrakcji w pełnoprawny fakt wymagałoby najpierw powiązania, jeśli to możliwe, relacji i argumentów z bazą wiedzy. Po drugie, należałoby ustalić prawdziwość ekstrakcji. W informatyce przekształcanie ekstrakcji OIE w fakty ontologiczne jest znane jako ekstrakcja relacji .

W rzeczywistości OIE można postrzegać jako pierwszy krok do szerokiego zakresu zadań związanych z głębszym rozumieniem tekstu, takich jak wyodrębnianie relacji, budowanie bazy wiedzy, odpowiadanie na pytania , oznaczanie ról semantycznych . Wyodrębnione propozycje mogą być również bezpośrednio wykorzystane w aplikacjach użytkownika końcowego, takich jak wyszukiwanie strukturalne (np. odzyskanie wszystkich propozycji zawierających „Dante” jako temat).

OIE został po raz pierwszy wprowadzony przez TextRunner opracowany na University of Washington Turing Center kierowany przez Oren Etzioni . Inne metody wprowadzone później, takie jak Reverb, OLLIE, ClausIE czy CSD, pomogły ukształtować zadanie OIE poprzez scharakteryzowanie niektórych jego aspektów. Na wysokim poziomie wszystkie te podejścia wykorzystują zestaw wzorców do generowania ekstrakcji. W zależności od konkretnego podejścia, wzorce te są wytwarzane ręcznie lub wyuczone.

Systemy i składki OIE

Reverb zasugerował konieczność tworzenia znaczących relacji w celu dokładniejszego uchwycenia informacji w tekście wejściowym. Na przykład, biorąc pod uwagę zdanie „Faust zawarł pakt z diabłem”, błędem byłoby po prostu przedstawienie ekstrakcji („Faust”, „zawarł”, „pakt”), ponieważ nie byłoby to odpowiednio pouczające. Dokładniejszą ekstrakcją byłoby („Faust”, „zawarł pakt z”, „diabeł”). Reverb sprzeciwiał się także generowaniu relacji ponadspecyficznych.

OLLIE podkreślił dwa ważne aspekty dla OIE. Po pierwsze, wskazał na brak realności twierdzeń. Na przykład w zdaniu takim jak „Jeśli John będzie się pilnie uczył, zda egzamin”, uznanie („Jan”, „zda”, „egzamin”) za fakt byłoby niewłaściwe. Dodatkowo autorzy wskazali, że system OIE powinien być w stanie wyodrębnić zapośredniczone relacje nieczasownikowe, które odpowiadają za znaczną część informacji wyrażonej w tekście w języku naturalnym. Na przykład w zdaniu „Obama, były prezydent USA, urodził się na Hawajach”, system OIE powinien być w stanie rozpoznać propozycję („Obama”, „jest”, „były prezydent USA”).

ClausIE wprowadził związek między klauzulami gramatycznymi, zdaniami i ekstrakcjami OIE. Autorzy stwierdzili, że ponieważ każda klauzula gramatyczna wyraża zdanie, każde zdanie, w którym pośredniczy czasownik, można zidentyfikować wyłącznie poprzez rozpoznanie zestawu klauzul wyrażonych w każdym zdaniu. Oznacza to, że aby poprawnie rozpoznać zbiór zdań w zdaniu wejściowym, konieczne jest zrozumienie jego struktury gramatycznej. Autorzy zbadali przypadek w języku angielskim, który dopuszcza tylko siedem typów zdań, co oznacza, że ​​identyfikacja każdego zdania wymaga jedynie zdefiniowania siedmiu wzorców gramatycznych.

Odkrycie ustanowiło również rozdział między rozpoznaniem twierdzeń a ich urzeczywistnieniem. Na pierwszym etapie propozycja może zostać zidentyfikowana bez uwzględnienia jej ostatecznej postaci, w sposób niezależny od dziedziny i nienadzorowany, w większości oparty na zasadach lingwistycznych. W drugim etapie informacje mogą być reprezentowane zgodnie z wymaganiami podstawowej aplikacji, bez warunkowania fazy identyfikacji.

Rozważ zdanie „Albert Einstein urodził się w Ulm i zmarł w Princeton”. Pierwszym krokiem będzie rozpoznanie dwóch twierdzeń („Albert Einstein”, „urodził się”, „w Ulm”) i („Albert Einstein”, „zmarł”, „w Princeton”). Gdy informacje zostaną prawidłowo zidentyfikowane, zdania mogą przybrać określoną formę wymaganą przez podstawowe zastosowanie [np. („Albert Einstein”, „urodził się w”, „Ulm”) i („Albert Einstein”, „zmarł w” , „Princeton”)].

CSD wprowadziło ideę minimalizmu w OIE. Uważa, że ​​komputery mogą lepiej wykorzystać ekstrakcje, jeśli są one wyrażane w zwięzły sposób. Jest to szczególnie ważne w zdaniach ze zdaniami podrzędnymi. W takich przypadkach CSD sugeruje generowanie zagnieżdżonych ekstrakcji. Rozważmy na przykład zdanie „Ambasada powiedziała, że ​​w Pakistanie przebywa 6700 Amerykanów”. CSD generuje dwie ekstrakcje [i] („6700 Amerykanów”, „byli”, „w Pakistanie”) i [ii] („Ambasada”, „powiedział”, „że [i]). Jest to zwykle znane jako reifikacja.