Rozszerzenie zapytania
Ekspansja zapytania ( QE ) to proces przeformułowania danego zapytania w celu poprawy wydajności wyszukiwania w operacjach wyszukiwania informacji , szczególnie w kontekście zrozumienia zapytania . W kontekście wyszukiwarek rozszerzenie zapytania polega na ocenie danych wprowadzonych przez użytkownika (jakie słowa zostały wpisane w obszarze zapytania, a czasem innych typów danych ) i rozszerzeniu zapytania w celu dopasowania do dodatkowych dokumentów. Ekspansja zapytań obejmuje techniki takie jak:
- Znajdowanie synonimów słów, a także wyszukiwanie synonimów
- Wyszukiwanie powiązanych semantycznie słów (np. antonimy , meronimy , hiponimy , hipernimy )
- Znajdowanie wszystkich różnych form morfologicznych słów poprzez tworzenie rdzeni każdego słowa w zapytaniu
- Poprawianie błędów ortograficznych i automatyczne wyszukiwanie poprawionej formy lub sugerowanie jej w wynikach
- Ponowne ważenie warunków w pierwotnym zapytaniu
Ekspansja zapytań to metodologia badana w dziedzinie informatyki , szczególnie w dziedzinie przetwarzania języka naturalnego i wyszukiwania informacji .
Kompromisy dotyczące precyzji i wycofania
Wyszukiwarki odwołują się do rozszerzenia zapytań w celu podniesienia jakości wyników wyszukiwania użytkowników. Zakłada się, że użytkownicy nie zawsze formułują zapytania wyszukiwania przy użyciu najlepszych terminów. Najlepsze w tym przypadku może być to, że baza danych nie zawiera wprowadzonych przez użytkownika terminów.
Dzięki utworzeniu rdzenia wprowadzonego przez użytkownika terminu dopasowywanych jest więcej dokumentów, ponieważ dopasowywane są również alternatywne formy słów dla wprowadzonego przez użytkownika terminu, co zwiększa łączną pamięć . Odbywa się to kosztem zmniejszenia precyzji . Rozszerzając zapytanie wyszukiwania w celu wyszukania synonimów wprowadzonego przez użytkownika terminu, zwiększa się również przywoływanie kosztem precyzji. Wynika to z charakteru równania, w jaki sposób obliczana jest precyzja, ponieważ większe wycofanie pośrednio powoduje spadek precyzji, biorąc pod uwagę, że czynniki przypominania są częścią mianownika. Wywnioskowano również, że większe przypominanie negatywnie wpływa na ogólną jakość wyników wyszukiwania, biorąc pod uwagę, że wielu użytkowników nie chce przeczesywać większej liczby wyników, niezależnie od precyzji.
Celem rozszerzenia zapytań w tym zakresie jest zwiększenie przywoływania, precyzja może potencjalnie wzrosnąć (zamiast zmniejszać się, jak równa się to matematycznie), poprzez uwzględnienie w zestawie wyników stron, które są bardziej odpowiednie (wyższej jakości) lub przynajmniej równie istotne. Strony, które nie zostałyby uwzględnione w zbiorze wyników, a które mogą być bardziej odpowiednie dla żądanego zapytania użytkownika, są uwzględnione i bez rozwinięcia zapytania nie miałyby, niezależnie od trafności . Jednocześnie wiele obecnych komercyjnych wyszukiwarek używa częstości słów ( tf-idf ), aby pomóc w uszeregowaniu. [ potrzebne źródło ] Dzięki uszeregowaniu występowania zarówno wprowadzonych przez użytkownika słów, jak i synonimów oraz alternatywnych form morfologicznych, dokumenty o większej gęstości (wysoka częstotliwość i bliskie sąsiedztwo) mają tendencję do migracji wyżej w wynikach wyszukiwania, co prowadzi do wyższej jakości wyników wyszukiwania w pobliżu na szczycie wyników, pomimo większego wycofania.
Metody rozszerzania zapytań
Automatyczne metody rozszerzania zapytań zostały zaproponowane w 1960 roku przez Marona i Kuhnsa. Nowoczesne metody rozszerzania zapytań albo implikują analizę zbioru dokumentów (globalnych lub lokalnych), albo są oparte na słownikach lub ontologii. Globalna analiza zbioru dokumentów służy do poszukiwania relacji między terminami. Analiza lokalna odnosi się do informacji zwrotnych dotyczących trafności wprowadzonych przez firmę Rocchio. Rocchio zaproponował ręczną ocenę niektórych odzyskanych dokumentów i wykorzystanie informacji zwrotnych do rozszerzenia zapytania. Ponieważ zebranie opinii użytkowników może być trudne, za istotne uznaje się tylko dokumenty, które zostały wyszukane jako pierwsze. To jest tak zwany pseudo- informacja zwrotna o trafności (PRF). Pseudo-trafne informacje zwrotne są średnio skuteczne, ale mogą uszkodzić wyniki niektórych zapytań, szczególnie trudnych, ponieważ najczęściej pobierane dokumenty są prawdopodobnie nietrafne. Pseudo-istotne dokumenty służą do znajdowania terminów kandydujących do rozszerzenia, które współwystępują z wieloma terminami zapytania. Pomysł ten został dalej rozwinięty w ramach modelu relewantności w modelach relewantności pozycyjnej i relewantności bliskości, które uwzględniają odległość do terminów zapytania w pseudo-istotnych dokumentach. Innym kierunkiem rozszerzania zapytań jest stosowanie osadzania słów .
Alternatywą dla rozszerzenia zapytania jest rozszerzenie dokumentu, które polega na przeformułowaniu tekstu przeszukiwanych dokumentów, a nie tekstu zapytania.
Zobacz też
- Odzyskiwanie dokumentów
- Wyszukiwanie informacji
- Językoznawstwo
- Morfologia (językoznawstwo)
- Przetwarzanie języka naturalnego
- Wyszukiwarka
- Indeksowanie w wyszukiwarkach
- Przybitka
Biblioteki oprogramowania
- QueryTermAnalyzer open-source, C#. Analizator wagi terminów zapytań i synonimów oparty na uczeniu maszynowym do rozszerzania zapytań.
- LucQE — open-source, Java. Udostępnia framework wraz z kilkoma implementacjami pozwalającymi na rozszerzanie zapytań z wykorzystaniem Apache Lucene .
- Xapian to biblioteka wyszukiwania typu open source, która obejmuje obsługę rozszerzania zapytań
- ReQue open-source, Python. Konfigurowalna struktura oprogramowania i zbiór zestawów danych o złotym standardzie do szkolenia i oceny nadzorowanych metod rozszerzania zapytań.
Cytaty
Źródła
- D. Abberley, D. Kirby, S. Renals i T. Robinson, System wyszukiwania wiadomości z transmisji Thisl. w Proc. ESCA ETRW Workshop Accessing Information in Spoken Audio , (Cambridge), s. 14–19, 1999. Sekcja dotycząca rozszerzenia zapytań - zwięzły, matematyczny przegląd.
- R. Navigli, P. Velardi. Analiza strategii rozszerzania zapytań opartych na ontologii . proc. of Workshop on Adaptive Text Extraction and Mining (ATEM 2003) , w 14th European Conference on Machine Learning (ECML 2003) , Cavtat-Dubrovnik, Chorwacja, 22-26 września 2003, s. 42–49 - Analiza rozszerzenia zapytania metody oparte na WordNet jako ontologii referencyjnej.
- Y. Qiu i HP Frei. Rozszerzenie zapytania oparte na koncepcji . In Proceedings of SIGIR-93, 16th ACM International Conference on Research and Development in Information Retrieval , Pittsburgh, SIGIR Forum, ACM Press, czerwiec 1993 - Dokument naukowy dotyczący określonej metody rozszerzania zapytań
- Efthimis N. Efthimiadis. Rozszerzenie zapytania . W: Martha E. Williams (red.), Annual Review of Information Systems and Technology (ARIST) , v31, s. 121–187, 1996 — Wprowadzenie dla widzów mniej technicznych.