Okapi BM25
W wyszukiwaniu informacji Okapi BM25 ( BM to skrót od najlepszego dopasowania ) to funkcja rankingowa używana przez wyszukiwarki do oszacowania trafności dokumentów dla danego zapytania. Opiera się na probabilistycznym systemie wyszukiwania opracowanym w latach 70. i 80. przez Stephena E. Robertsona , Karen Spärck Jones i innych.
Rzeczywista funkcja rankingu to BM25 . Pełniejsza nazwa, Okapi BM25 , zawiera nazwę pierwszego systemu, który ją wykorzystał, którym był system wyszukiwania informacji Okapi, wdrożony na londyńskim City University w latach 80. i 90. XX wieku. BM25 i jego nowsze warianty, np. BM25F (wersja BM25, która może uwzględniać strukturę dokumentu i tekst zakotwiczenia), reprezentują funkcje wyszukiwania podobne do TF-IDF, używane do wyszukiwania dokumentów. [ potrzebne źródło ]
Funkcja rankingowa
BM25 to funkcja wyszukiwania zbioru słów , która klasyfikuje zestaw dokumentów na podstawie terminów zapytania pojawiających się w każdym dokumencie, niezależnie od ich bliskości w dokumencie. Jest to rodzina funkcji scoringowych o nieco innych składnikach i parametrach. Jedna z najbardziej znanych instancji funkcji jest następująca.
Biorąc pod uwagę zapytanie Q , zawierające słowa kluczowe , wynik BM25 dokumentu D wynosi:
gdzie liczba wystąpień w dokumencie re | to długość dokumentu D wyrażona słownie, a avgdl to średnia długość dokumentu w zbiorze tekstów, z którego pochodzą dokumenty. i b zaawansowanej optymalizacji, jak i { to waga IDF ( odwrotna częstotliwość dokumentów ) terminu zapytania . Zwykle jest obliczany jako:
gdzie N całkowita liczba dokumentów w kolekcji, a \ }
Istnieje kilka interpretacji IDF i niewielkie różnice w jego formule. W oryginalnym wyprowadzeniu BM25 komponent IDF pochodzi z Binarnego Modelu Niezależności .
Teoretyczna interpretacja informacji IDF
Oto interpretacja z teorii informacji. termin w . Wtedy losowo wybrany dokument będzie zawierał termin z prawdopodobieństwem N jest ponownie liczność zbioru dokumentów w zbiorze). Dlatego informacja treść wiadomości „ zawiera to: re
Załóżmy teraz, że mamy dwa terminy zapytania i . Jeśli te dwa terminy występują w dokumentach całkowicie niezależnie od siebie, to prawdopodobieństwo zobaczenia obu i q w losowo wybranym dokumencie to:
a treść informacyjna takiego zdarzenia to:
Z niewielką zmiennością dokładnie to wyraża składnik IDF BM25.
modyfikacje
- Przy skrajnych wartościach współczynnika b BM25 zamienia w funkcje rankingu znane jako BM11 (dla i BM15 (dla ).
- BM25F (lub model BM25 with Extension to Multiple Weighted Fields ) to modyfikacja BM25, w której uważa się, że dokument składa się z kilku pól (takich jak nagłówki, tekst główny, tekst zakotwiczenia) o możliwie różnym stopniu ważności, przydatności terminów normalizacja nasycenia i długości. BM25F definiuje każdy typ pola jako strumień , stosując ważenie dla każdego strumienia w celu skalowania każdego strumienia względem obliczonego wyniku.
- BM25+ jest rozszerzeniem BM25. BM25+ został opracowany w celu rozwiązania jednej wady standardu BM25, w której składowa normalizacji częstotliwości terminów według długości dokumentu nie jest odpowiednio dolna; w wyniku tego braku długie dokumenty, które pasują do terminu zapytania, mogą być często niesprawiedliwie oceniane przez BM25 jako mające podobną trafność do krótszych dokumentów, które w ogóle nie zawierają terminu zapytania. Formuła punktacji BM25 + ma tylko jeden dodatkowy wolny parametr domyślna to 1,0 w przypadku braku danych treningowych) w porównaniu z BM25:
Ogólne odniesienia
- Stephena E. Robertsona; Steve'a Walkera; Susan Jones; Micheline Hancock-Beaulieu i Mike Gatford (listopad 1994). Okapi w TREC-3 . Materiały z trzeciej konferencji dotyczącej odzyskiwania tekstu (TREC 1994) . Gaithersburg, USA.
- Stephena E. Robertsona; Steve Walker i Micheline Hancock-Beaulieu (listopad 1998). Okapi w TREC-7 . Materiały z siódmej konferencji dotyczącej odzyskiwania tekstu . Gaithersburg, USA.
- Spärck Jones, K .; Walker, S.; Robertson, SE (2000). „Probabilistyczny model wyszukiwania informacji: eksperymenty rozwojowe i porównawcze: część 1”. Przetwarzanie i zarządzanie informacjami . 36 (6): 779–808. CiteSeerX 10.1.1.134.6108 . doi : 10.1016/S0306-4573(00)00015-7 .
- Spärck Jones, K .; Walker, S.; Robertson, SE (2000). „Probabilistyczny model wyszukiwania informacji: eksperymenty rozwojowe i porównawcze: część 2”. Przetwarzanie i zarządzanie informacjami . 36 (6): 809–840. doi : 10.1016/S0306-4573(00)00016-9 .
- Stephen Robertson i Hugo Zaragoza (2009). „Probabilistyczne ramy istotności: BM25 i nie tylko” . Podstawy i trendy w wyszukiwaniu informacji . 3 (4): 333–389. CiteSeerX 10.1.1.156.5282 . doi : 10.1561/1500000019 .
Linki zewnętrzne
- Robertson, Stephen ; Saragossa, Hugo (2009). Probabilistyczne ramy istotności: BM25 i dalsze (PDF) . NOW Publishers, Inc. ISBN 978-1-60198-308-4 .