Okapi BM25

W wyszukiwaniu informacji Okapi BM25 ( BM to skrót od najlepszego dopasowania ) to funkcja rankingowa używana przez wyszukiwarki do oszacowania trafności dokumentów dla danego zapytania. Opiera się na probabilistycznym systemie wyszukiwania opracowanym w latach 70. i 80. przez Stephena E. Robertsona , Karen Spärck Jones i innych.

Rzeczywista funkcja rankingu to BM25 . Pełniejsza nazwa, Okapi BM25 , zawiera nazwę pierwszego systemu, który ją wykorzystał, którym był system wyszukiwania informacji Okapi, wdrożony na londyńskim City University w latach 80. i 90. XX wieku. BM25 i jego nowsze warianty, np. BM25F (wersja BM25, która może uwzględniać strukturę dokumentu i tekst zakotwiczenia), reprezentują funkcje wyszukiwania podobne do TF-IDF, używane do wyszukiwania dokumentów. ^{[ potrzebne źródło ]}

Funkcja rankingowa

BM25 to funkcja wyszukiwania zbioru słów , która klasyfikuje zestaw dokumentów na podstawie terminów zapytania pojawiających się w każdym dokumencie, niezależnie od ich bliskości w dokumencie. Jest to rodzina funkcji scoringowych o nieco innych składnikach i parametrach. Jedna z najbardziej znanych instancji funkcji jest następująca.

Biorąc pod uwagę zapytanie $Q$ , zawierające słowa kluczowe ${\ Displaystyle q_ {1}, ..., q_ {n}}$ , wynik BM25 dokumentu $D$ wynosi:

{\ Displaystyle {\ tekst {wynik}} (D, Q) = \ suma _ {i = 1} ^ {n} {\ tekst {IDF}} (q_ {i}) \ cdot {\ frac {f (q_{i},D)\cdot (k_{1}+1)}{f(q_{i},D)+k_{1}\cdot \left(1-b+b\cdot {\frac { |D|}{\text{śr.}}}\right)}}}

gdzie $i}, D)}$ $to$ ${\ displaystyle | D |}$ liczba wystąpień w dokumencie $re$ | to długość dokumentu $D$ wyrażona słownie, a $avgdl$ to średnia długość dokumentu w zbiorze tekstów, z którego pochodzą dokumenty. ${\ displaystyle k_ {1}}$ i $b$ $b$ $\ displaystyle$ zaawansowanej optymalizacji, jak i { ${\ Displaystyle {\ tekst {IDF}} (q_ {i})}$ to waga IDF ( odwrotna częstotliwość dokumentów ) terminu zapytania ${\ displaystyle q_ {i}}$ . Zwykle jest obliczany jako:

{\ Displaystyle {\ tekst {IDF}} (q_ {i}) = \ ln \ lewo ( {\frac {Nn(q_{i})+0,5}{n(q_{i})+0,5}}+1\right)}

gdzie $N$ $displaystyle$ całkowita liczba dokumentów w kolekcji, a $i$ \ }

Istnieje kilka interpretacji IDF i niewielkie różnice w jego formule. W oryginalnym wyprowadzeniu BM25 komponent IDF pochodzi z Binarnego Modelu Niezależności .

Teoretyczna interpretacja informacji IDF

Oto interpretacja z teorii informacji. $się$ $zapytania$ termin w . Wtedy losowo wybrany dokument będzie zawierał termin z prawdopodobieństwem $\ displaystyle N}$ $gdzie$ N jest ponownie $displaystyle N$ liczność zbioru dokumentów w zbiorze). Dlatego informacja treść wiadomości „ zawiera $”$ $q$ to: re

{\ Displaystyle - \ log {\ Frac {n (q)} {N}} = \ log {\ Frac {N} {n (q)}}.}

Załóżmy teraz, że mamy dwa terminy zapytania i ${\ displaystyle q_ {1}}$ ${\ displaystyle q_ {2}}$ . Jeśli te dwa terminy występują w dokumentach całkowicie niezależnie od siebie, to prawdopodobieństwo zobaczenia obu i q $displaystyle$ $q_ {2}}$ w losowo wybranym dokumencie $}$ $displaystyle q_ {1}$ to:

{\ Displaystyle {\ Frac {n (q_ {1})} {N}} \ cdot {\ Frac {n (q_ {2})} {N} },}

a treść informacyjna takiego zdarzenia to:

{\ Displaystyle \ suma _ {i = 1} ^ {2} \ log {\ Frac {N} {n (q_ {i})}}.}

Z niewielką zmiennością dokładnie to wyraża składnik IDF BM25.

modyfikacje

Przy skrajnych wartościach współczynnika $b BM25 zamienia$ $b = 0}$ w funkcje rankingu znane jako BM11 (dla $displaystyle$ i BM15 (dla ).
BM25F (lub model BM25 with Extension to Multiple Weighted Fields ) to modyfikacja BM25, w której uważa się, że dokument składa się z kilku pól (takich jak nagłówki, tekst główny, tekst zakotwiczenia) o możliwie różnym stopniu ważności, przydatności terminów normalizacja nasycenia i długości. BM25F definiuje każdy typ pola jako strumień , stosując ważenie dla każdego strumienia w celu skalowania każdego strumienia względem obliczonego wyniku.

BM25+ jest rozszerzeniem BM25. BM25+ został opracowany w celu rozwiązania jednej wady standardu BM25, w której składowa normalizacji częstotliwości terminów według długości dokumentu nie jest odpowiednio dolna; w wyniku tego braku długie dokumenty, które pasują do terminu zapytania, mogą być często niesprawiedliwie oceniane przez BM25 jako mające podobną trafność do krótszych dokumentów, które w ogóle nie zawierają terminu zapytania. Formuła punktacji BM25 + ma tylko jeden dodatkowy wolny parametr $($ domyślna to $1,0$ w przypadku braku danych treningowych) w porównaniu z BM25:

{\ Displaystyle {\ tekst {wynik}} (D, Q) = \ suma _ {i = 1} ^ {n} {\ tekst {IDF}} (q_ {i}) \ cdot \ lewo [ {\frac {f(q_{i},D)\cdot (k_{1}+1)}{f(q_{i},D)+k_{1}\cdot \left(1-b+b\ cdot {\frac {|D|}{\text{avgdl}}}\right)}}+\delta \right]}

Ogólne odniesienia

Stephena E. Robertsona; Steve'a Walkera; Susan Jones; Micheline Hancock-Beaulieu i Mike Gatford (listopad 1994). Okapi w TREC-3 . Materiały z trzeciej konferencji dotyczącej odzyskiwania tekstu (TREC 1994) . Gaithersburg, USA.
Stephena E. Robertsona; Steve Walker i Micheline Hancock-Beaulieu (listopad 1998). Okapi w TREC-7 . Materiały z siódmej konferencji dotyczącej odzyskiwania tekstu . Gaithersburg, USA.
Spärck Jones, K .; Walker, S.; Robertson, SE (2000). „Probabilistyczny model wyszukiwania informacji: eksperymenty rozwojowe i porównawcze: część 1”. Przetwarzanie i zarządzanie informacjami . 36 (6): 779–808. CiteSeerX 10.1.1.134.6108 . doi : 10.1016/S0306-4573(00)00015-7 .
Spärck Jones, K .; Walker, S.; Robertson, SE (2000). „Probabilistyczny model wyszukiwania informacji: eksperymenty rozwojowe i porównawcze: część 2”. Przetwarzanie i zarządzanie informacjami . 36 (6): 809–840. doi : 10.1016/S0306-4573(00)00016-9 .
Stephen Robertson i Hugo Zaragoza (2009). „Probabilistyczne ramy istotności: BM25 i nie tylko” . Podstawy i trendy w wyszukiwaniu informacji . 3 (4): 333–389. CiteSeerX 10.1.1.156.5282 . doi : 10.1561/1500000019 .

Linki zewnętrzne

Robertson, Stephen ; Saragossa, Hugo (2009). Probabilistyczne ramy istotności: BM25 i dalsze (PDF) . NOW Publishers, Inc. ISBN 978-1-60198-308-4 .