Ekstrakcja informacji

Ekstrakcja informacji ( IE ) to zadanie automatycznego wydobywania ustrukturyzowanych informacji z nieustrukturyzowanych i/lub częściowo ustrukturyzowanych dokumentów do odczytu maszynowego oraz innych źródeł reprezentowanych elektronicznie. W większości przypadków czynność ta dotyczy przetwarzania tekstów w języku ludzkim za pomocą przetwarzania języka naturalnego (NLP). Niedawne działania związane z multimedialnych , takie jak automatyczne dodawanie adnotacji i wyodrębnianie treści z obrazów/audio/wideo/dokumentów, można postrzegać jako ekstrakcję informacji

Ze względu na trudność problemu obecne podejście do IE (od 2010 r.) Koncentruje się na wąsko ograniczonych domenach. Przykładem jest wyodrębnienie z newswire doniesień o fuzjach korporacyjnych, takich jak oznaczone formalną relacją:

,

ze zdania z wiadomości online, takiego jak:

„Wczoraj firma Foo Inc. z siedzibą w Nowym Jorku ogłosiła przejęcie Bar Corp.”

Ogólnym celem IE jest umożliwienie wykonywania obliczeń na wcześniej nieustrukturyzowanych danych. Bardziej szczegółowym celem jest umożliwienie logicznemu rozumowaniu wyciągania wniosków na podstawie logicznej zawartości danych wejściowych. Dane strukturalne to semantycznie dobrze zdefiniowane dane z wybranej domeny docelowej, interpretowane z uwzględnieniem kategorii i kontekstu .

Ekstrakcja informacji jest częścią większej układanki, która dotyczy problemu opracowania automatycznych metod zarządzania tekstem, poza jego transmisją, przechowywaniem i wyświetlaniem. Dyscyplina wyszukiwania informacji (IR) rozwinęła automatyczne metody, zazwyczaj o charakterze statystycznym, do indeksowania dużych zbiorów dokumentów i klasyfikowania dokumentów. Innym uzupełniającym podejściem jest przetwarzanie języka naturalnego (NLP), która rozwiązała problem modelowania przetwarzania ludzkiego języka ze znacznym sukcesem, biorąc pod uwagę wielkość zadania. Zarówno pod względem trudności, jak i nacisku, IE zajmuje się zadaniami pomiędzy IR i NLP. Pod względem danych wejściowych IE zakłada istnienie zestawu dokumentów, w których każdy dokument jest zgodny z szablonem, tj. opisuje jeden lub więcej podmiotów lub zdarzeń w sposób podobny do tych w innych dokumentach, ale różniący się szczegółami. Rozważmy na przykład grupę artykułów prasowych na temat terroryzmu w Ameryce Łacińskiej, z których każdy jest przypuszczalnie oparty na jednym lub kilku aktach terrorystycznych. Dla każdego zadania IE definiujemy również szablon, który jest ramką (lub zbiorem) przypadków do przechowywania informacji zawartych w pojedynczym dokumencie. W przypadku terroryzmu szablon zawierałby pola odpowiadające sprawcy, ofierze i broni użytej do aktu terrorystycznego oraz dacie, w której zdarzenie miało miejsce. System IE dla tego problemu jest wymagany do „zrozumienia” atakującego artykułu tylko na tyle, aby znaleźć dane odpowiadające slotom w tym szablonie.

Historia

Ekstrakcja informacji sięga późnych lat 70. XX wieku, wczesnych dni NLP. Wczesnym systemem komercyjnym z połowy lat 80. był JASPER zbudowany dla Reuters przez Carnegie Group Inc w celu dostarczania handlowcom finansowym wiadomości finansowych w czasie rzeczywistym .

Począwszy od 1987 r., IE była wspierana serią Konferencji na temat rozumienia wiadomości . MUC to konferencja oparta na konkursie, która koncentrowała się na następujących domenach:

  • MUC-1 (1987), MUC-3 (1989): Komunikaty z operacji morskich.
  • MUC-3 (1991), MUC-4 (1992): Terroryzm w krajach Ameryki Łacińskiej.
  • MUC-5 (1993): Joint ventures i domena mikroelektroniki.
  • MUC-6 (1995): Artykuły prasowe dotyczące zmian w zarządzaniu.
  • MUC-7 (1998): Raporty z wystrzelenia satelity.

Znaczne wsparcie nadeszła od Agencji Zaawansowanych Projektów Badawczych Obrony Stanów Zjednoczonych ( DARPA ), która chciała zautomatyzować przyziemne zadania wykonywane przez analityków rządowych, takie jak skanowanie gazet w poszukiwaniu możliwych powiązań z terroryzmem. [ potrzebne źródło ]

Obecne znaczenie

Obecne znaczenie IE wiąże się z rosnącą ilością informacji dostępnych w nieustrukturyzowanej formie. Tim Berners-Lee , wynalazca World Wide Web , odnosi się do istniejącego Internetu jako sieci dokumentów i opowiada się za udostępnianiem większej ilości treści jako sieci danych . Dopóki to się nie wydarzy, sieć składa się w dużej mierze z nieustrukturyzowanych dokumentów pozbawionych semantycznych metadanych . Wiedzę zawartą w tych dokumentach można uczynić bardziej dostępną dla obróbki maszynowej poprzez jej przekształcenie postaci relacyjnej lub poprzez oznaczenie za pomocą znaczników XML . Inteligentny agent monitorujący strumień danych z wiadomościami wymaga, aby IE przekształcił nieustrukturyzowane dane w coś, co można uzasadnić. Typowym zastosowaniem IE jest skanowanie zestawu dokumentów napisanych w języku naturalnym i zapełnianie bazy danych wyodrębnionymi informacjami.

Zadania i podzadania

Zastosowanie ekstrakcji informacji do tekstu wiąże się z problemem uproszczenia tekstu w celu stworzenia ustrukturyzowanego widoku informacji zawartych w wolnym tekście. Ogólnym celem jest stworzenie tekstu łatwiejszego do odczytu maszynowego do przetwarzania zdań. Typowe zadania i podzadania IE obejmują:

  • Wypełnienie szablonu: Wyodrębnienie ustalonego zestawu pól z dokumentu, np. wyodrębnienie sprawców, ofiar, czasu itp. z artykułu prasowego o ataku terrorystycznym.
    • Ekstrakcja zdarzeń: biorąc pod uwagę dokument wejściowy, wygeneruj zero lub więcej szablonów zdarzeń. Na przykład artykuł w gazecie może opisywać wiele ataków terrorystycznych.
  • bazy wiedzy : Wypełnij bazę danych faktami na podstawie zestawu dokumentów. Zazwyczaj baza danych ma postać trojaczków (podmiot 1, relacja, podmiot 2), np. ( Barack Obama , Współmałżonek, Michelle Obama )
    • Rozpoznawanie nazwanych jednostek : rozpoznawanie znanych nazw jednostek (dla osób i organizacji), nazw miejsc, wyrażeń czasowych i niektórych typów wyrażeń liczbowych, wykorzystując istniejącą wiedzę o domenie lub informacje wyodrębnione z innych zdań. Zazwyczaj zadanie rozpoznawania obejmuje przypisanie unikatowego identyfikatora wyodrębnionej jednostce. Prostszym zadaniem jest wykrywanie jednostek , które ma na celu wykrywanie jednostek bez posiadania jakiejkolwiek wiedzy o instancjach jednostek. Na przykład podczas przetwarzania zdania „M. Smith lubi łowić ryby” oznaczałoby wykrywanie nazwanej jednostki wykrycie , że wyrażenie „M. Smith” odnosi się do osoby, ale niekoniecznie posiadania (lub używania) jakiejkolwiek wiedzy o pewnym M. Smithie , który jest (lub „może być”) konkretną osobą, o której mówi to zdanie .
    • korelacji : wykrywanie korelacji i powiązań anaforycznych między jednostkami tekstowymi. W zadaniach IE jest to zwykle ograniczone do znajdowania powiązań między wcześniej wyodrębnionymi nazwanymi jednostkami. Na przykład „International Business Machines” i „IBM” odnoszą się do tej samej rzeczywistej jednostki. Jeśli weźmiemy dwa zdania „M. Smith lubi łowić ryby. Ale nie lubi jeździć na rowerze”, korzystne byłoby wykrycie, że „on” odnosi się do wcześniej wykrytej osoby „M. Smith”.
    • Ekstrakcja relacji : identyfikacja relacji między podmiotami, takich jak:
      • OSOBA pracuje dla ORGANIZACJI (wyciąg ze zdania „Bill pracuje dla IBM”).
      • OSOBA znajdująca się w LOCATION (wyciągnięta ze zdania „Bill jest we Francji”)
  • Częściowo ustrukturyzowana ekstrakcja informacji, która może odnosić się do dowolnego IE, który próbuje przywrócić jakąś strukturę informacji utraconą w wyniku publikacji, na przykład:
    • Ekstrakcja tabel: wyszukiwanie i wyodrębnianie tabel z dokumentów.
    • Ekstrakcja informacji z tabeli: wyodrębnianie informacji z tabel w uporządkowany sposób. Jest to bardziej złożone zadanie niż ekstrakcja tabeli, ponieważ ekstrakcja tabeli to tylko pierwszy krok, podczas gdy zrozumienie roli komórek, wierszy, kolumn, powiązanie informacji wewnątrz tabeli i zrozumienie informacji przedstawionych w tabeli to dodatkowe zadania niezbędne do ekstrakcja informacji.
    • Ekstrakcja komentarzy: wyodrębnianie komentarzy z rzeczywistej treści artykułu w celu przywrócenia powiązania między autorami każdego zdania
  • Analiza języka i słownictwa
  • Ekstrakcja audio
    • Ekstrakcja muzyki oparta na szablonach: znajdowanie odpowiednich cech w sygnale audio pobranym z danego repertuaru; na przykład można wyodrębnić indeksy czasowe występowania dźwięków perkusyjnych w celu przedstawienia podstawowego składnika rytmicznego utworu muzycznego.

Należy zauważyć, że ta lista nie jest wyczerpująca i że dokładne znaczenie działań IE nie jest powszechnie akceptowane, a wiele podejść łączy wiele podzadań IE w celu osiągnięcia szerszego celu. W IE często stosuje się uczenie maszynowe, analizę statystyczną i/lub przetwarzanie języka naturalnego.

IE w dokumentach nietekstowych staje się coraz bardziej interesującym tematem [ kiedy? ] w badaniach, a informacje wydobyte z dokumentów multimedialnych można teraz [ kiedy? ] być wyrażone w strukturze wysokiego poziomu, tak jak ma to miejsce w przypadku tekstu. To w naturalny sposób prowadzi do łączenia informacji uzyskanych z wielu rodzajów dokumentów i źródeł.

Aplikacje WWW

IE była głównym tematem konferencji MUC. Rozpowszechnienie sieci Web zwiększyło jednak potrzebę opracowania systemów IE, które pomagają ludziom radzić sobie z ogromną ilością danych dostępnych online. Systemy wykonujące IE z tekstu online powinny spełniać wymagania dotyczące niskiego kosztu, elastyczności w rozwoju i łatwej adaptacji do nowych domen. Systemy MUC nie spełniają tych kryteriów. Ponadto analiza lingwistyczna przeprowadzona dla tekstu nieustrukturyzowanego nie wykorzystuje HTML/ XML znaczniki i formaty układu, które są dostępne w tekstach online. W rezultacie opracowano mniej wymagające pod względem językowym podejścia do IE w Internecie, używając opakowań , które są zestawami bardzo dokładnych reguł wyodrębniających zawartość określonej strony. Ręczne rozwijanie opakowań okazało się zadaniem czasochłonnym i wymagającym wysokiego poziomu wiedzy specjalistycznej. Techniki uczenia maszynowego , nadzorowane lub nienadzorowane , zostały wykorzystane do automatycznego wywołania takich reguł.

Opakowania zwykle obsługują wysoce ustrukturyzowane kolekcje stron internetowych, takie jak katalogi produktów i książki telefoniczne. Zawodzą jednak, gdy typ tekstu jest mniej uporządkowany, co jest również powszechne w sieci. Niedawne wysiłki na rzecz adaptacyjnej ekstrakcji informacji motywują rozwój systemów IE, które mogą obsługiwać różne typy tekstu, od dobrze ustrukturyzowanego do prawie swobodnego tekstu - tam, gdzie zawodzą zwykłe opakowania - w tym typy mieszane. Takie systemy mogą wykorzystywać płytką znajomość języka naturalnego, a zatem mogą być również stosowane do tekstów o mniejszej strukturze.

Niedawne [ kiedy? ] to Ekstrakcja informacji wizualnych, która polega na renderowaniu strony internetowej w przeglądarce i tworzeniu reguł opartych na bliskości regionów renderowanej strony internetowej. Pomaga to w wyodrębnianiu jednostek ze złożonych stron internetowych, które mogą wykazywać wizualny wzorzec, ale nie mają dostrzegalnego wzorca w kodzie źródłowym HTML.

Podchodzi do

Następujące standardowe podejścia są obecnie powszechnie akceptowane:

Istnieje wiele innych podejść do IE, w tym podejścia hybrydowe, które łączą niektóre z wymienionych wcześniej standardowych podejść.

Darmowe lub otwarte oprogramowanie i usługi

Zobacz też

  1. Bibliografia _ „Uczenie maszynowe do ekstrakcji informacji w domenach nieformalnych” (PDF) . 2000 Wydawnictwa naukowe Kluwer. Wydrukowano w Holandii .
  2. Bibliografia    _ Wilks, Yorick (1996). Ekstrakcja informacji (PDF) . P. 3. CiteSeerX 10.1.1.61.6480 . S2CID 10237124 . Zarchiwizowane od oryginału (PDF) w dniu 20.02.2019 r.
  3. ^    Andersen, Peggy M.; Hayes, Philip J.; Huettner, Alison K.; Schmandt, Linda M.; Nirenburg, Irene B.; Weinstein, Steven P. (1992). „Automatyczne wyodrębnianie faktów z komunikatów prasowych w celu generowania wiadomości” . Materiały z trzeciej konferencji Stosowane przetwarzanie języka naturalnego - . s. 170–177. CiteSeerX 10.1.1.14.7943 . doi : 10.3115/974499.974531 . S2CID 14746386 .
  4. ^   Marco Costantino, Paolo Coletti, Ekstrakcja informacji w finansach, Wit Press, 2008. ISBN 978-1-84564-146-7
  5. ^ „Powiązane dane - dotychczasowa historia” (PDF) .
  6. ^ „Tim Berners-Lee w następnej sieci” . Zarchiwizowane od oryginału w dniu 10.04.2011 . Źródło 2010-03-27 .
  7. Bibliografia Linki zewnętrzne _ _ _ _ _ _ s. 33-69.
  8. ^ a b Dat Quoc Nguyen i Karin Verspoor (2019). „Ekstrakcja relacji neuronowych od końca do końca przy użyciu głębokiej uwagi biafinowej”. Materiały z 41. Europejskiej Konferencji na temat Wyszukiwania Informacji (ECIR) . ar Xiv : 1812.11275 . doi : 10.1007/978-3-030-15712-8_47 .
  9. ^   Milosevic N, Gregson C, Hernandez R, Nenadic G (luty 2019). „Ramy do ekstrakcji informacji z tabel w literaturze biomedycznej”. International Journal on Document Analysis and Recognition (IJDAR) . 22 (1): 55–78. ar Xiv : 1902.10031 . Bibcode : 2019arXiv190210031M . doi : 10.1007/s10032-019-00317-0 . S2CID 62880746 .
  10. ^ Miloszević, Nikola (2018). Wielowarstwowe podejście do ekstrakcji informacji z tabel w dokumentach biomedycznych (PDF) (doktorat). Uniwersytet w Manchesterze.
  11. ^   Milosevic N, Gregson C, Hernandez R, Nenadic G (luty 2019). „Ramy do ekstrakcji informacji z tabel w literaturze biomedycznej”. International Journal on Document Analysis and Recognition (IJDAR) . 22 (1): 55–78. ar Xiv : 1902.10031 . Bibcode : 2019arXiv190210031M . doi : 10.1007/s10032-019-00317-0 . S2CID 62880746 .
  12. ^    Milosevic N, Gregson C, Hernandez R, Nenadic G (czerwiec 2016). „Rozplątanie struktury tabel w literaturze naukowej” . 21. Międzynarodowa Konferencja na temat zastosowań języka naturalnego w systemach informacyjnych . Notatki z wykładów z informatyki. 21 : 162–174. doi : 10.1007/978-3-319-41754-7_14 . ISBN 978-3-319-41753-0 . S2CID 19538141 .
  13. ^ Miloszević, Nikola (2018). Wielowarstwowe podejście do ekstrakcji informacji z tabel w dokumentach biomedycznych (PDF) (doktorat). Uniwersytet w Manchesterze.
  14. ^ A.Zils, F.Pachet, O.Delerue i F. Gouyon, Automatyczne wyodrębnianie ścieżek perkusyjnych z polifonicznych sygnałów muzycznych zarchiwizowanych 29.08.2017 w Wayback Machine , Proceedings of WedelMusic, Darmstadt, Niemcy, 2002.
  15. ^ Chenthamarakshan, Vijil; Desphande, Prasad M; Krishnapuram, Raghu; Varadarajan, Ramakrishnan; Stolze, Knut (2015). „WYSIWYE: algebra do wyrażania przestrzennych i tekstowych reguł wydobywania informacji”. arXiv : 1506.08454 [ cs.CL ].
  16. Bibliografia   _ Flesca, Sergio; Gottlob, Georg (2001). „Ekstrakcja wizualnych informacji internetowych za pomocą Lixto”: 119–128. CiteSeerX 10.1.1.21.8236 . {{ cite journal }} : Cite journal wymaga |journal= ( pomoc )
  17. Bibliografia _ McCallum, A. (2006). „Wydobywanie informacji z artykułów naukowych przy użyciu warunkowych pól losowych ☆”. Przetwarzanie i zarządzanie informacjami . 42 (4): 963. doi : 10.1016/j.ipm.2005.09.002 .
  18. Bibliografia _ Hass, Andrew (2006). „Wyodrębnianie reprezentacji wiedzy opartej na ramkach z instrukcji dotyczących trasy” (PDF) . Zarchiwizowane od oryginału (PDF) w dniu 2006-09-01 . Źródło 2010-03-27 .

Linki zewnętrzne