Rozumienie zapytania
Rozumienie zapytania to proces wnioskowania o intencji użytkownika wyszukiwarki poprzez wyodrębnienie znaczenia semantycznego ze słów kluczowych wyszukującego. Metody rozumienia zapytań zwykle mają miejsce, zanim wyszukiwarka pobierze i uszereguje wyniki. Jest to związane z przetwarzaniem języka naturalnego , ale w szczególności koncentruje się na zrozumieniu zapytań wyszukiwania. Rozumienie zapytań leży u podstaw technologii, takich jak Amazon Alexa czy Siri firmy Apple . Asystent Google , Watson firmy IBM i Cortana firmy Microsoft .
Metody
Tokenizacja
Tokenizacja to proces dzielenia ciągu tekstowego na słowa lub inne znaczące elementy zwane tokenami. Zazwyczaj tokenizacja występuje na poziomie słowa. Jednak czasami trudno jest zdefiniować, co należy rozumieć przez „słowo”. Często tokenizer opiera się na prostej heurystyce, takiej jak dzielenie ciągu na znaki interpunkcyjne i spacje . Tokenizacja jest trudniejsza w językach bez spacji między wyrazami, takich jak chiński i japoński . Tokenizacja tekstu w tych językach wymaga użycia algorytmów segmentacji słów .
Korekta pisowni
Korekta pisowni to proces automatycznego wykrywania i poprawiania błędów pisowni w wyszukiwanych hasłach. Większość algorytmów poprawiania pisowni opiera się na modelu języka , który określa a priori prawdopodobieństwo zamierzonego zapytania, oraz modelu błędu (zwykle model kanału z szumami ), który określa prawdopodobieństwo określonego błędu pisowni, biorąc pod uwagę zamierzone zapytanie.
Stemmowanie i lematyzacja
Wiele języków, ale nie wszystkie, odmienia słowa, aby odzwierciedlić ich rolę w wypowiedzi, w której się pojawiają: słowo takie jak *opieka* może pojawić się jako oprócz formy podstawowej. jak *troszczy się*, *opiekuje się*, *troszczy się* i inne. Różnice między różnymi formami wyrazu prawdopodobnie nie będą miały większego znaczenia dla stosunkowo gruboziarnistego modelu znaczenia stosowanego w systemie wyszukiwania i z tego powodu zadanie łączenia różnych form wyrazu jest potencjalnie przydatną techniką do zwiększyć przywołanie systemu wyszukiwania.
Języki świata różnią się pod względem stopnia zmienności morfologicznej, którą wykazują, a dla niektórych języków istnieją proste metody sprowadzenia zapytania do jego lematu , rdzenia lub rdzenia . W przypadku niektórych innych języków ta operacja obejmuje nietrywialne przetwarzanie łańcuchów. Rzeczownik w języku angielskim zazwyczaj występuje w czterech wariantach: *cat* *cat's* *cats* *cats'* lub *child* *child´s* *children* *children's*. Inne języki mają większą różnorodność. Fiński , na przykład, potencjalnie wykazuje około 5000 form rzeczownika, a dla wielu języków formy fleksyjne nie ograniczają się do dołącza , ale zmienia rdzeń samego słowa.
Algorytmy stemmingu, znane również jako stemmery, zwykle wykorzystują zbiór prostych reguł do usuwania przyrostków przeznaczonych do modelowania reguł fleksji języka.
Bardziej zaawansowane metody, metody lematyzacji , grupują odmienne formy słowa za pomocą bardziej złożonych zestawów reguł opartych na części mowy słowa lub jego zapisie w leksykalnej bazie danych , przekształcając odmienione słowo poprzez wyszukiwanie lub serię przekształceń do jego lematu. Przez długi czas uważano, że normalizacja morfologiczna w zasadzie nie pomaga w wydajności wyszukiwania.
Gdy uwaga osób zajmujących się wyszukiwaniem informacji przeniosła się na języki inne niż angielski, stwierdzono, że w przypadku niektórych języków można było znaleźć oczywiste korzyści.
Rozpoznawanie jednostek
Rozpoznawanie jednostek to proces lokalizowania i klasyfikowania jednostek w ciągu tekstowym. Rozpoznawanie nazwanych jednostek koncentruje się w szczególności na nazwanych jednostkach , takich jak nazwiska osób, miejsc i organizacji. Ponadto rozpoznawanie jednostek obejmuje identyfikowanie pojęć w zapytaniach, które mogą być reprezentowane przez wielowyrazowe frazy. Systemy rozpoznawania jednostek zwykle wykorzystują techniki lingwistyczne oparte na gramatyce lub statystyczne modele uczenia maszynowego .
Przepisywanie zapytania
Przepisywanie zapytania to proces automatycznego przeformułowania zapytania wyszukiwania w celu dokładniejszego uchwycenia jego intencji. Rozszerzenie kwerendy dodaje dodatkowe terminy kwerendy, takie jak synonimy, w celu pobrania większej liczby dokumentów, a tym samym zwiększenia możliwości zapamiętywania. Relaksacja zapytań usuwa terminy zapytania, aby zmniejszyć wymagania dotyczące dokumentu pasującego do zapytania, zwiększając w ten sposób również przywoływanie . Inne formy przepisywania zapytań, takie jak automatyczne konwertowanie kolejnych terminów zapytania na frazy i ograniczanie terminów zapytania do określonych pól , mają na celu zwiększenie precyzji . Wyszukiwarka Apache Lucene wykorzystuje przepisywanie zapytań do przekształcania złożonych zapytań w bardziej prymitywne zapytania, takie jak wyrażenia z symbolami wieloznacznymi (np. quer*) w zapytanie boolowskie pasujących terminów z indeksu (takie jak zapytania OR).
Zobacz też
- Blog Daniela Tunkelanga na temat zrozumienia zapytań
- Raport z warsztatów ACM SIGIR 2010 na temat reprezentacji i zrozumienia zapytań
- Proceedings of ACM SIGIR 2011 Workshop on Query Representation and Understanding
- Warsztaty ACM WSDM 2016 na temat zrozumienia zapytań dla wyszukiwania na wszystkich urządzeniach
- Zrozumienie zapytań dla wyszukiwarek (Yi Chang i Hongbo Deng, wyd.)