System wyszukiwania informacji SMART

System wyszukiwania informacji SMART (System for the Mechanical Analysis and Retrieval of Text) System wyszukiwania informacji to system wyszukiwania informacji opracowany na Uniwersytecie Cornell w latach 60. XX wieku. W ramach badań nad systemem SMART opracowano wiele ważnych koncepcji wyszukiwania informacji, w tym model przestrzeni wektorowej , sprzężenie zwrotne istotności i klasyfikację Rocchio .

Gerard Salton kierował grupą, która opracowała SMART. Inni współpracownicy to Mike Lesk .

System SMART zapewnia również zestaw korpusów, zapytań i rankingów referencyjnych, w szczególności zaczerpniętych z różnych przedmiotów

Do dziedzictwa systemu SMART należy tzw. potrójna notacja SMART, mnemoniczny schemat oznaczania wariantów ważenia tf-idf w modelu przestrzeni wektorowej. Mnemonik reprezentujący kombinację wag ma postać ddd.qqq , gdzie pierwsze trzy litery reprezentują wagę terminu wektora dokumentu kolekcji, a kolejne trzy litery reprezentują wagę terminu wektora dokumentu zapytania. Na przykład ltc.lnn reprezentuje wagę ltc zastosowaną do dokumentu kolekcji i wagę lnn zastosowaną do dokumentu zapytania.

Poniższe tabele ustalają notację SMART:

Symbole i notacja
reprezentuje wektor dokumentu, gdzie jest wagą terminu w i to unikalnych terminów . Cechy pozytywne charakteryzują terminy występujące w dokumencie, a waga zero stosowana jest dla terminów nieobecnych w dokumencie.
Częstotliwość występowania terminu w dokumencie Liczba unikalnych terminów w dokumencie
Liczba dokumentów kolekcji Średnia liczba unikalnych terminów w dokumencie
Liczba dokumentów z obecnym terminem Liczba znaków w dokumencie
Częstotliwość występowania najpowszechniejszego terminu w dokumencie Średnia liczba znaków w dokumencie
Średnia częstotliwość występowania terminu w dokumencie Globalne statystyki kolekcji
Nachylenie w kontekście normalizacji długości dokumentu obrotowego
Inteligentna potrójna notacja ważenia terminów
częstotliwość terminów Częstotliwość dokumentu sol
B Waga binarna X N Ignoruje częstotliwość zbierania X N Brak normalizacji długości dokumentu
T N Surowa częstotliwość terminów F Odwrotna częstotliwość zbierania C Normalizacja kosinusowa
A Rozszerzona znormalizowana częstotliwość terminów T Odwrotna częstotliwość zbierania u Przestawna unikalna normalizacja
l Logarytm P Probabilistyczna odwrotna częstotliwość zbierania B Normalizacja długości znaków obrotowych
Ł Normalizacja oparta na średniej częstotliwości
D Podwójny logarytm

Szare litery w pierwszej, piątej i dziewiątej kolumnie to schemat zastosowany przez Saltona i Buckleya w ich artykule z 1988 roku. Pogrubione litery w drugiej, szóstej i dziesiątej kolumnie to schemat używany w eksperymentach opisanych później.

Linki zewnętrzne