Automatyczne pozyskiwanie korpusów ze znacznikami sensownymi
Wąskie gardło w pozyskiwaniu wiedzy jest prawdopodobnie główną przeszkodą w rozwiązaniu problemu ujednoznaczniania znaczenia słów (WSD). Metody uczenia się bez nadzoru opierają się na wiedzy o znaczeniach słów, która jest ledwie sformułowana w słownikach i leksykalnych bazach danych. Metody nadzorowanego uczenia się w dużej mierze zależą od istnienia ręcznie opatrzonych adnotacjami przykładów dla każdego znaczenia słowa, co jak dotąd można spełnić tylko dla kilku słów do celów testowych, tak jak ma to miejsce w ćwiczeniach Senseval .
Istniejące metody
Dlatego jednym z najbardziej obiecujących trendów w badaniach WSD jest wykorzystanie największego kiedykolwiek dostępnego korpusu, World Wide Web , do automatycznego pozyskiwania informacji leksykalnych. WSD było tradycyjnie rozumiane jako technologia inżynierii języka pośredniego, która może ulepszyć aplikacje, takie jak wyszukiwanie informacji (IR). Jednak w tym przypadku sytuacja jest odwrotna: wyszukiwarki internetowe wdrażają proste i solidne techniki IR, które można z powodzeniem stosować podczas eksploracji sieci w poszukiwaniu informacji do wykorzystania w WSD. Najbardziej bezpośrednim sposobem wykorzystania sieci (i innych korpusów ) do zwiększenia wydajności WSD jest automatyczne pozyskiwanie korpusów ze znacznikami sensu, podstawowego zasobu zasilającego nadzorowane algorytmy WSD. Chociaż nie jest to powszechne w literaturze WSD, zaproponowano już wiele różnych i skutecznych strategii osiągnięcia tego celu. Niektóre z tych strategii to:
- akwizycja poprzez bezpośrednie przeszukiwanie sieci (wyszukiwanie synonimów monosemicznych, hipernimów, hiponimów, przeanalizowanych słów glos itp.),
- Algorytm Yarowskiego (bootstrapping),
- akwizycja za pośrednictwem katalogów internetowych i
- nabywanie za pomocą dowodów znaczeń międzyjęzykowych .
Streszczenie
Optymistyczne wyniki
Automatyczne wyodrębnianie przykładów w celu trenowania algorytmów nadzorowanego uczenia się było jak dotąd najlepiej zbadanym podejściem do eksploracji sieci w celu ujednoznacznienia znaczenia słów. Niektóre wyniki są z pewnością zachęcające:
- W niektórych eksperymentach jakość danych internetowych dla WSD jest równa jakości przykładów oznaczonych przez ludzi. Tak jest w przypadku monosemicznych krewnych plus ładowanie za pomocą techniki nasion Semcor i przykładów zaczerpniętych z katalogów internetowych ODP. Jednak w pierwszym przypadku konieczne są przykładowe nasiona wielkości Semcor (dostępne tylko dla języka angielskiego) i zostały przetestowane tylko z bardzo ograniczonym zestawem rzeczowników; w drugim przypadku zasięg jest dość ograniczony i nie jest jeszcze jasne, czy można go uprawiać bez uszczerbku dla jakości znalezionych przykładów.
- Wykazano, że powszechnie stosowana technika nadzorowanego uczenia się, trenowana wyłącznie z danymi internetowymi, może uzyskać lepsze wyniki niż wszystkie nienadzorowane systemy WSD, które brały udział w Senseval-2.
- Przykłady internetowe wniosły znaczący wkład w najlepszy system wszystkich słów w języku angielskim Senseval-2.
trudności
Istnieje jednak kilka otwartych problemów badawczych związanych z wykorzystaniem przykładów internetowych w WSD:
- Wysoka precyzja w uzyskanych przykładach (tj. poprawne przypisanie sensów do przykładów) niekoniecznie prowadzi do dobrych rezultatów nadzorowanego WSD (tj. przykłady prawdopodobnie nie są przydatne do szkolenia).
- Najbardziej kompletna ocena przykładów internetowych dla nadzorowanego WSD wskazuje, że uczenie się z danymi internetowymi jest lepsze niż w przypadku technik nienadzorowanych, ale wyniki są mimo wszystko dalekie od tych uzyskanych z ręcznie oznakowanymi danymi, a nawet nie przekraczają najczęstszej linii bazowej.
- Wyniki nie zawsze są powtarzalne; te same lub podobne techniki mogą prowadzić do różnych wyników w różnych eksperymentach. Porównaj na przykład Mihalcea (2002) z Agirre i Martínez (2004) lub Agirre i Martínez (2000) z Mihalcea i Moldovan (1999). Wyniki z danymi internetowymi wydają się być bardzo wrażliwe na niewielkie różnice w algorytmie uczenia się, kiedy wyodrębniono korpus (wyszukiwarki zmieniają się w sposób ciągły) oraz na drobne problemy heurystyczne (np. różnice w filtrach odrzucających część wyszukanych przykładów).
- Wyniki są silnie zależne od błędu systematycznego (tj. od względnych częstotliwości przykładów na sens słowa). Nie jest jasne, czy jest to po prostu problem danych sieciowych, czy też nieodłączny problem technik uczenia nadzorowanego, czy też po prostu problem sposobu oceny systemów WSD (w rzeczywistości testowanie z raczej małymi danymi Senseval może nadmiernie podkreślać rozkłady sensowności w porównaniu do rozkładów sensownych otrzymanych z pełnej sieci jako korpusu).
- W każdym razie dane sieciowe mają wewnętrzną stronniczość, ponieważ zapytania kierowane do wyszukiwarek bezpośrednio ograniczają kontekst wyszukiwanych przykładów. Istnieją podejścia, które rozwiązują ten problem, takie jak używanie kilku różnych nasion/zapytań dla każdego sensu lub przypisywanie znaczeń do katalogów internetowych, a następnie skanowanie katalogów w poszukiwaniu przykładów; ale ten problem jest jednak daleki od rozwiązania.
- Po zbudowaniu internetowego korpusu przykładów nie jest do końca jasne, czy jego dystrybucja jest bezpieczna z prawnego punktu widzenia.
Przyszły
Oprócz automatycznego pozyskiwania przykładów z sieci, istnieje kilka innych eksperymentów WSD, które skorzystały z sieci:
- Sieć jako sieć społecznościowa została z powodzeniem wykorzystana do wspólnych adnotacji korpusu (OMWE, projekt Open Mind Word Expert), który został już wykorzystany w trzech zadaniach Senseval-3 (angielski, rumuński i wielojęzyczny).
- Sieć została wykorzystana do wzbogacenia zmysłów WordNet o informacje o domenie: sygnatury tematów i katalogi sieciowe, które z kolei zostały z powodzeniem wykorzystane w WSD.
- Ponadto niektóre badania skorzystały z informacji semantycznych, które Wikipedia przechowuje na swoich stronach ujednoznaczniających.
Jest jasne, [ według kogo? ] jednak większość możliwości badawczych pozostaje w dużej mierze niezbadana. Na przykład niewiele wiadomo o tym, jak wykorzystywać informacje leksykalne wyodrębnione z sieci w systemach WSD opartych na wiedzy; i trudno jest również znaleźć systemy, które wykorzystują równoległe korpusy wydobywane z sieci dla WSD, mimo że istnieją już wydajne algorytmy, które wykorzystują równoległe korpusy w WSD.