Losowe indeksowanie

Indeksowanie losowe jest metodą redukcji wymiarowości i ramą obliczeniową semantyki dystrybucyjnej , opartą na spostrzeżeniu, że implementacje modeli przestrzeni wektorowej o bardzo dużej liczbie wymiarów są niepraktyczne, że modele nie muszą zwiększać wymiarowości, gdy napotykane są nowe elementy (np. nowa terminologia), oraz że wielowymiarowy model można rzutować na przestrzeń o mniejszej wymiarowości bez uszczerbku dla metryki odległości L2, jeśli wynikowe wymiary zostaną odpowiednio dobrane.

Jest to oryginalny punkt podejścia losowej projekcji do redukcji wymiarów, sformułowanego po raz pierwszy jako lemat Johnsona-Lindenstraussa , a mieszanie wrażliwe na lokalizację ma niektóre z tych samych punktów początkowych. Indeksowanie losowe, stosowane w reprezentacji języka, wywodzi się z pracy Pentti Kanervy nad rzadką pamięcią rozproszoną i można je opisać jako przyrostowe sformułowanie losowej projekcji.

Można również zweryfikować, że losowe indeksowanie jest techniką rzutowania losowego do konstrukcji przestrzeni euklidesowych — tj. znormalizowanych przestrzeni wektorowych L2. W przestrzeniach euklidesowych losowe projekcje są wyjaśniane za pomocą lematu Johnsona – Lindenstraussa.

Technika TopSig rozszerza model indeksowania losowego w celu wytworzenia wektorów bitowych do porównania z funkcją podobieństwa odległości Hamminga . Służy do poprawy wydajności wyszukiwania informacji i grupowania dokumentów . W podobnym nurcie badań zaproponowano Random Manhattan Integer Indexing (RMII) w celu poprawy wydajności metod wykorzystujących odległość Manhattanu między jednostkami tekstowymi. Wiele losowych metod indeksowania generuje przede wszystkim podobieństwo na podstawie współwystępowania elementów w korpusie. Refleksyjne losowe indeksowanie (RRI) generuje podobieństwo na podstawie współwystępowania i wspólnego występowania z innymi elementami.

Linki zewnętrzne