System wyszukiwania informacji SMART
System wyszukiwania informacji SMART (System for the Mechanical Analysis and Retrieval of Text) System wyszukiwania informacji to system wyszukiwania informacji opracowany na Uniwersytecie Cornell w latach 60. XX wieku. W ramach badań nad systemem SMART opracowano wiele ważnych koncepcji wyszukiwania informacji, w tym model przestrzeni wektorowej , sprzężenie zwrotne istotności i klasyfikację Rocchio .
Gerard Salton kierował grupą, która opracowała SMART. Inni współpracownicy to Mike Lesk .
System SMART zapewnia również zestaw korpusów, zapytań i rankingów referencyjnych, w szczególności zaczerpniętych z różnych przedmiotów
- ADI : publikacje z przeglądów informatyki
- Informatyka
- Cranfield : publikacje z przeglądów lotniczych
- Kryminalistyka : bibliotekoznawstwo
- MEDLARS : publikacje z przeglądów medycznych
- magazynu Time : archiwa ogólnego przeglądu Time in 1963
Do dziedzictwa systemu SMART należy tzw. potrójna notacja SMART, mnemoniczny schemat oznaczania wariantów ważenia tf-idf w modelu przestrzeni wektorowej. Mnemonik reprezentujący kombinację wag ma postać ddd.qqq
, gdzie pierwsze trzy litery reprezentują wagę terminu wektora dokumentu kolekcji, a kolejne trzy litery reprezentują wagę terminu wektora dokumentu zapytania. Na przykład ltc.lnn
reprezentuje wagę ltc
zastosowaną do dokumentu kolekcji i wagę lnn
zastosowaną do dokumentu zapytania.
Poniższe tabele ustalają notację SMART:
reprezentuje wektor dokumentu, gdzie jest wagą terminu w i to unikalnych terminów . Cechy pozytywne charakteryzują terminy występujące w dokumencie, a waga zero stosowana jest dla terminów nieobecnych w dokumencie. | |||
Częstotliwość występowania terminu w dokumencie | Liczba unikalnych terminów w dokumencie | ||
Liczba dokumentów kolekcji | Średnia liczba unikalnych terminów w dokumencie | ||
Liczba dokumentów z obecnym terminem | Liczba znaków w dokumencie | ||
Częstotliwość występowania najpowszechniejszego terminu w dokumencie | Średnia liczba znaków w dokumencie | ||
Średnia częstotliwość występowania terminu w dokumencie | Globalne statystyki kolekcji | ||
Nachylenie w kontekście normalizacji długości dokumentu obrotowego |
częstotliwość terminów | Częstotliwość dokumentu | sol | |||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
B
|
Waga binarna |
X
|
N
|
Ignoruje częstotliwość zbierania |
X
|
N
|
Brak normalizacji długości dokumentu | ||||
T
|
N
|
Surowa częstotliwość terminów |
F
|
Odwrotna częstotliwość zbierania |
C
|
Normalizacja kosinusowa | |||||
A
|
Rozszerzona znormalizowana częstotliwość terminów |
T
|
Odwrotna częstotliwość zbierania |
u
|
Przestawna unikalna normalizacja | ||||||
l
|
Logarytm |
P
|
Probabilistyczna odwrotna częstotliwość zbierania |
B
|
Normalizacja długości znaków obrotowych | ||||||
Ł
|
Normalizacja oparta na średniej częstotliwości | ||||||||||
D
|
Podwójny logarytm |
Szare litery w pierwszej, piątej i dziewiątej kolumnie to schemat zastosowany przez Saltona i Buckleya w ich artykule z 1988 roku. Pogrubione litery w drugiej, szóstej i dziesiątej kolumnie to schemat używany w eksperymentach opisanych później.
Linki zewnętrzne
- Kolekcje oprogramowania i testów [ martwy link ] (FTP na Cornell University )
- Interaktywny samouczek SMART