Probabilistyczny model istotności

Probabilistyczny model istotności został opracowany przez Stephena E. Robertsona i Karen Spärck Jones jako podstawa dla przyszłych modeli probabilistycznych . Jest to formalizm wyszukiwania informacji przydatny do wyprowadzania funkcji rankingowych wykorzystywanych przez wyszukiwarki i wyszukiwarki internetowe w celu uszeregowania pasujących dokumentów według ich znaczenia dla danego zapytania.

Jest to model teoretyczny szacujący prawdopodobieństwo, że dokument dj jest istotny dla zapytania q . Model zakłada, że ​​prawdopodobieństwo trafności zależy od zapytania i reprezentacji dokumentu. Co więcej, zakłada się, że istnieje część wszystkich dokumentów, która jest preferowana przez użytkownika jako zestaw odpowiedzi na zapytanie q . Taki idealny zestaw odpowiedzi nazywa się R i powinien maksymalizować ogólne prawdopodobieństwo znaczenia dla tego użytkownika. Przewiduje się, że dokumenty w tym zestawie R są istotne dla zapytania, natomiast dokumenty, których nie ma w zestawie, są nieistotne.

Powiązane modele

Istnieją pewne ograniczenia tego frameworka, którymi należy się zająć w drodze dalszego rozwoju:

  • Nie ma dokładnego oszacowania prawdopodobieństw pierwszego przebiegu
  • Warunki indeksu nie są ważone
  • Zakłada się, że warunki są wzajemnie niezależne

Aby rozwiązać te i inne problemy, na podstawie probabilistycznego modelu istotności opracowano inne modele, w tym binarny model niezależności tego samego autora. Najbardziej znaną pochodną tego schematu jest Okapi (BM25) wraz z jego modyfikacją BM25F.