System wyszukiwania informacji SMART

System wyszukiwania informacji SMART (System for the Mechanical Analysis and Retrieval of Text) System wyszukiwania informacji to system wyszukiwania informacji opracowany na Uniwersytecie Cornell w latach 60. XX wieku. W ramach badań nad systemem SMART opracowano wiele ważnych koncepcji wyszukiwania informacji, w tym model przestrzeni wektorowej , sprzężenie zwrotne istotności i klasyfikację Rocchio .

Gerard Salton kierował grupą, która opracowała SMART. Inni współpracownicy to Mike Lesk .

System SMART zapewnia również zestaw korpusów, zapytań i rankingów referencyjnych, w szczególności zaczerpniętych z różnych przedmiotów

ADI : publikacje z przeglądów informatyki
Informatyka
Cranfield : publikacje z przeglądów lotniczych
Kryminalistyka : bibliotekoznawstwo
MEDLARS : publikacje z przeglądów medycznych
magazynu Time : archiwa ogólnego przeglądu Time in 1963

Do dziedzictwa systemu SMART należy tzw. potrójna notacja SMART, mnemoniczny schemat oznaczania wariantów ważenia tf-idf w modelu przestrzeni wektorowej. Mnemonik reprezentujący kombinację wag ma postać ddd.qqq , gdzie pierwsze trzy litery reprezentują wagę terminu wektora dokumentu kolekcji, a kolejne trzy litery reprezentują wagę terminu wektora dokumentu zapytania. Na przykład ltc.lnn reprezentuje wagę ltc zastosowaną do dokumentu kolekcji i wagę lnn zastosowaną do dokumentu zapytania.

Poniższe tabele ustalają notację SMART:

Symbole i notacja
${\ textstyle D_ {i} = \ {w_ {i_ {1}}, w_ {i_ {2}}, \ ldots, w_ {i_ {t}}\}}$ reprezentuje wektor dokumentu, gdzie ${\ textstyle w_ {i_ {k}}}$ jest wagą terminu ${\ textstyle T_ {k}}$ w ${\ textstyle D_ {i}}$ i to $w$ unikalnych terminów ${\ textstyle D_ {i}}$ . Cechy pozytywne charakteryzują terminy występujące w dokumencie, a waga zero stosowana jest dla terminów nieobecnych w dokumencie.
${\ textstyle f_ {i_ {k}}}$	Częstotliwość występowania terminu ${\ textstyle T_ {k}}$ w dokumencie ${\ textstyle D_ {i}}$	${\ textstyle u_ {i}}$	Liczba unikalnych terminów w dokumencie ${\ textstyle D_ {i}}$
${\ displaystyle N}$	Liczba dokumentów kolekcji	${\ Displaystyle \ nazwa operatora {średnia} (u)}$	Średnia liczba unikalnych terminów w dokumencie
${\ textstyle n_ {k}}$	Liczba dokumentów z obecnym terminem ${\ textstyle T_ {k}}$	${\ displaystyle b_ {t}}$	Liczba znaków w dokumencie ${\ displaystyle D_ {i}}$
${\ Displaystyle \ max (f_ {i_ {k}})}$	Częstotliwość występowania najpowszechniejszego terminu w dokumencie ${\ displaystyle D_ {i}}$	${\ textstyle \ nazwa operatora {śr.} (b)}$	Średnia liczba znaków w dokumencie
${\ Displaystyle \ nazwa operatora {śr.} (f_ {i_ {k}})}$	Średnia częstotliwość występowania terminu w dokumencie ${\ displaystyle D_ {i}}$	${\ textstyle G}$	Globalne statystyki kolekcji
${\ displaystyle s}$	Nachylenie w kontekście normalizacji długości dokumentu obrotowego

Inteligentna potrójna notacja ważenia terminów
częstotliwość terminów ${\ textstyle {\ text {tf}} (f_ {i_ {k}})}$				Częstotliwość dokumentu ${\ textstyle {\ text {df}} (N, n_ {k})}$				sol ${\ textstyle g (G, D_ {i})$
	`B`	${\ textstyle 1}$	Waga binarna	`X`	`N`	${\ textstyle 1}$	Ignoruje częstotliwość zbierania	`X`	`N`	${\ textstyle 1}$	Brak normalizacji długości dokumentu
`T`	`N`	${\ textstyle f_ {i_ {k}}}$	Surowa częstotliwość terminów	`F`		${\ Displaystyle \ log _ {2} \ lewo ({\ Frac {N} {n_ {k}}} \ prawej)}$	Odwrotna częstotliwość zbierania		`C`	${\ Displaystyle {\ sqrt {\ suma _ {k = 1} ^ {t} w_ {i_ {k}} ^ {2}}}}$	Normalizacja kosinusowa
	`A`	${\ textstyle 0,5 + 0,5 {\ Frac {f_ {i_ {k}}}} {\ max (f_ {i_ {k}})}}}$	Rozszerzona znormalizowana częstotliwość terminów		`T`	${\ Displaystyle \ log _ {2} \ lewo ({\ Frac {N + 1} {n_ {k}}} \ prawej)}$	Odwrotna częstotliwość zbierania		`u`	${\ Displaystyle 1-s + s {\ Frac {u_ {i}} {\ nazwa operatora {średnia} (u)}}}$	Przestawna unikalna normalizacja
	`l`	$\ Displaystyle 1 + \ log _ {2} f_ {i_ {k}}}$	Logarytm	`P`		${\ Displaystyle \ log _ {2} \ lewo ({\ Frac {Nn_ {k}} {n_ {k}}} \ prawej)}$	Probabilistyczna odwrotna częstotliwość zbierania		`B`	${\ Displaystyle 1-s + s {\ Frac {b_ {i}} {\ nazwa operatora {średnia} (b)}}}$	Normalizacja długości znaków obrotowych
	`Ł`	${\ Displaystyle {\ Frac {1 + \ log _ {2} (f_ {i_ {k}})} 1+\log _{2}(\nazwa operatora {śr} (f_{i_{k}}))}}}$	Normalizacja oparta na średniej częstotliwości
	`D`	${\ Displaystyle 1 + \ log _ {2} (1 + \ log _ {2} (f_ {i_ {k}})}}$	Podwójny logarytm

Szare litery w pierwszej, piątej i dziewiątej kolumnie to schemat zastosowany przez Saltona i Buckleya w ich artykule z 1988 roku. Pogrubione litery w drugiej, szóstej i dziesiątej kolumnie to schemat używany w eksperymentach opisanych później.

Linki zewnętrzne

Kolekcje oprogramowania i testów ^{[ martwy link ]} (FTP na Cornell University )
Interaktywny samouczek SMART