Okapi BM25

W wyszukiwaniu informacji Okapi BM25 ( BM to skrót od najlepszego dopasowania ) to funkcja rankingowa używana przez wyszukiwarki do oszacowania trafności dokumentów dla danego zapytania. Opiera się na probabilistycznym systemie wyszukiwania opracowanym w latach 70. i 80. przez Stephena E. Robertsona , Karen Spärck Jones i innych.

Rzeczywista funkcja rankingu to BM25 . Pełniejsza nazwa, Okapi BM25 , zawiera nazwę pierwszego systemu, który ją wykorzystał, którym był system wyszukiwania informacji Okapi, wdrożony na londyńskim City University w latach 80. i 90. XX wieku. BM25 i jego nowsze warianty, np. BM25F (wersja BM25, która może uwzględniać strukturę dokumentu i tekst zakotwiczenia), reprezentują funkcje wyszukiwania podobne do TF-IDF, używane do wyszukiwania dokumentów. [ potrzebne źródło ]

Funkcja rankingowa

BM25 to funkcja wyszukiwania zbioru słów , która klasyfikuje zestaw dokumentów na podstawie terminów zapytania pojawiających się w każdym dokumencie, niezależnie od ich bliskości w dokumencie. Jest to rodzina funkcji scoringowych o nieco innych składnikach i parametrach. Jedna z najbardziej znanych instancji funkcji jest następująca.

Biorąc pod uwagę zapytanie Q , zawierające słowa kluczowe , wynik BM25 dokumentu D wynosi:

gdzie liczba wystąpień w dokumencie re | to długość dokumentu D wyrażona słownie, a avgdl to średnia długość dokumentu w zbiorze tekstów, z którego pochodzą dokumenty. i b zaawansowanej optymalizacji, jak i { to waga IDF ( odwrotna częstotliwość dokumentów ) terminu zapytania . Zwykle jest obliczany jako:

gdzie N całkowita liczba dokumentów w kolekcji, a \ }

Istnieje kilka interpretacji IDF i niewielkie różnice w jego formule. W oryginalnym wyprowadzeniu BM25 komponent IDF pochodzi z Binarnego Modelu Niezależności .

Teoretyczna interpretacja informacji IDF

Oto interpretacja z teorii informacji. termin w . Wtedy losowo wybrany dokument będzie zawierał termin z prawdopodobieństwem N jest ponownie liczność zbioru dokumentów w zbiorze). Dlatego informacja treść wiadomości „ zawiera to: re

Załóżmy teraz, że mamy dwa terminy zapytania i . Jeśli te dwa terminy występują w dokumentach całkowicie niezależnie od siebie, to prawdopodobieństwo zobaczenia obu i q w losowo wybranym dokumencie to:

a treść informacyjna takiego zdarzenia to:

Z niewielką zmiennością dokładnie to wyraża składnik IDF BM25.

modyfikacje

  • Przy skrajnych wartościach współczynnika b BM25 zamienia w funkcje rankingu znane jako BM11 (dla i BM15 (dla ).
  • BM25F (lub model BM25 with Extension to Multiple Weighted Fields ) to modyfikacja BM25, w której uważa się, że dokument składa się z kilku pól (takich jak nagłówki, tekst główny, tekst zakotwiczenia) o możliwie różnym stopniu ważności, przydatności terminów normalizacja nasycenia i długości. BM25F definiuje każdy typ pola jako strumień , stosując ważenie dla każdego strumienia w celu skalowania każdego strumienia względem obliczonego wyniku.
  • BM25+ jest rozszerzeniem BM25. BM25+ został opracowany w celu rozwiązania jednej wady standardu BM25, w której składowa normalizacji częstotliwości terminów według długości dokumentu nie jest odpowiednio dolna; w wyniku tego braku długie dokumenty, które pasują do terminu zapytania, mogą być często niesprawiedliwie oceniane przez BM25 jako mające podobną trafność do krótszych dokumentów, które w ogóle nie zawierają terminu zapytania. Formuła punktacji BM25 + ma tylko jeden dodatkowy wolny parametr domyślna to 1,0 w przypadku braku danych treningowych) w porównaniu z BM25:

Ogólne odniesienia

Linki zewnętrzne