Przetwarzanie terminów złożonych

Przetwarzanie terminów złożonych w wyszukiwaniu informacji polega na dopasowywaniu wyników wyszukiwania na podstawie terminów złożonych . Terminy złożone są budowane przez połączenie dwóch lub więcej terminów prostych; na przykład „potrójne” to termin jednowyrazowy, ale „potrójne pomostowanie serca” to termin złożony.

Przetwarzanie terminów złożonych to nowe podejście do starego problemu: w jaki sposób można poprawić trafność wyników wyszukiwania przy zachowaniu łatwości użytkowania? Korzystając z tej techniki, poszukiwanie współczynników przeżycia po potrójnym bypassie serca u osób starszych pozwoli zlokalizować dokumenty na ten temat, nawet jeśli to dokładne wyrażenie nie jest zawarte w żadnym dokumencie. Można to wykonać za pomocą wyszukiwania pojęć , które samo w sobie wykorzystuje przetwarzanie terminów złożonych. Spowoduje to automatyczne wyodrębnienie kluczowych pojęć (w tym przypadku „wskaźniki przeżycia”, „potrójne bypassy serca” i „osoby starsze”) i wykorzystanie tych pojęć do wybrania najbardziej odpowiednich dokumentów.

Techniki

W sierpniu 2003 r. firma Concept Searching Limited przedstawiła pomysł wykorzystania statystycznego przetwarzania terminów złożonych.

CLAMOR to europejski projekt współpracy, którego celem jest znalezienie lepszego sposobu klasyfikowania podczas gromadzenia i rozpowszechniania informacji i statystyk przemysłowych. Wydaje się, że CLAMOR stosuje podejście lingwistyczne, a nie oparte na modelowaniu statystycznym .

Historia

Techniki probabilistycznego ważenia pojedynczych wyrazów sięgają co najmniej 1976 roku w przełomowej publikacji Stephena E. Robertsona i Karen Spärck Jones . Robertson stwierdził, że założenie o niezależności słowa nie jest uzasadnione i istnieje jako kwestia matematycznej wygody. Jego sprzeciw wobec terminu niezależność nie jest nowym pomysłem, sięgającym co najmniej 1964 r., Kiedy HH Williams stwierdził, że „założenie niezależności słów w dokumencie jest zwykle dokonywane ze względów matematycznych”.

W 2004 roku Anna Lynn Patterson złożyła patenty na „wyszukiwanie frazowe w systemie wyszukiwania informacji”, do którego prawa nabyła firma Google .

Zdolność adaptacji

Statystyczne przetwarzanie terminów złożonych jest bardziej elastyczne niż proces opisany przez Pattersona. Jej proces jest ukierunkowany na przeszukiwanie sieci World Wide Web , gdzie obszerna wiedza statystyczna na temat typowych wyszukiwań może być wykorzystana do zidentyfikowania potencjalnych fraz. Statystyczne przetwarzanie terminów złożonych jest bardziej odpowiednie dla aplikacji wyszukiwania korporacyjnego , w których taka wiedza a priori nie jest dostępna.

Statystyczne przetwarzanie terminów złożonych jest również bardziej elastyczne niż podejście lingwistyczne przyjęte w ramach projektu CLAMOR, które musi uwzględniać właściwości składniowe terminów (tj. część mowy, rodzaj, liczba itp.) oraz ich kombinacje. CLAMOR jest wysoce zależny od języka, podczas gdy podejście statystyczne jest niezależne od języka.

Aplikacje

Przetwarzanie terminów złożonych umożliwia aplikacjom do wyszukiwania informacji, takim jak wyszukiwarki , dopasowywanie ich na podstawie pojęć składających się z wielu słów, a nie pojedynczych słów w izolacji, co może być wysoce niejednoznaczne.

Wczesne wyszukiwarki szukały dokumentów zawierających słowa wprowadzone przez użytkownika w polu wyszukiwania. Są one znane jako wyszukiwarki słów kluczowych . Wyszukiwarki boolowskie dodają stopień wyrafinowania, umożliwiając użytkownikowi określenie dodatkowych wymagań. Na przykład „Tiger NEAR Woods AND (golf LUB golf) NOT Volkswagen” używa operatorów „NEAR”, „AND”, „OR” i „NOT”, aby określić, że te słowa muszą spełniać określone wymagania. Wyszukiwanie frazy jest prostsze w użyciu, ale wymaga, aby w wynikach pojawiła się dokładna określona fraza.

Zobacz też