Wyszukiwanie pionowe
Wyszukiwarka pionowa różni się od ogólnej wyszukiwarki internetowej tym, że koncentruje się na określonym segmencie treści online. Nazywa się je również wyszukiwarkami specjalistycznymi lub tematycznymi. Pionowy obszar treści może być oparty na aktualności, typie mediów lub gatunku treści. Typowe branże obejmują zakupy, przemysł motoryzacyjny, informacje prawne, informacje medyczne, literaturę naukową, poszukiwanie pracy i podróże. Przykłady wyszukiwarek pionowych obejmują Library of Congress , Mocavo , Nuroa , Trulia i Yelp .
W przeciwieństwie do ogólnych wyszukiwarek internetowych, które próbują indeksować duże części sieci World Wide Web za pomocą robota indeksującego , wyszukiwarki pionowe zwykle używają ukierunkowanego robota indeksującego , który próbuje zaindeksować tylko odpowiednie strony internetowe związane z wcześniej zdefiniowanym tematem lub zestawem tematów . Niektóre witryny wyszukiwania wertykalnego koncentrują się na poszczególnych branżach, podczas gdy inne obejmują wiele wyszukiwań wertykalnych w ramach jednej wyszukiwarki.
Korzyści
Wyszukiwanie pionowe oferuje kilka potencjalnych korzyści w porównaniu z ogólnymi wyszukiwarkami:
- Większa precyzja dzięki ograniczonemu zakresowi,
- Wykorzystaj wiedzę dziedzinową, w tym taksonomie i ontologie ,
- Obsługa określonych unikalnych zadań użytkownika.
Wyszukiwanie pionowe można postrzegać jako podobne do wyszukiwania korporacyjnego , w którym domeną zainteresowania jest przedsiębiorstwo, takie jak firma, rząd lub inna organizacja. W 2013 r. porównywarki cen konsumenckich ze zintegrowanymi wyszukiwarkami wertykalnymi, takimi jak FindTheBest , przyciągnęły duże rundy finansowania venture capital, co wskazuje na trend wzrostowy dla tych zastosowań technologii wyszukiwania wertykalnego.
Wyszukiwanie specyficzne dla domeny
Branże specyficzne dla domeny koncentrują się na określonym temacie. John Battelle opisuje to w swojej książce The Search (2005):
Rozwiązania wyszukiwania specyficzne dla domeny koncentrują się na jednym obszarze wiedzy, tworząc spersonalizowane doświadczenia wyszukiwania, które ze względu na ograniczony korpus domeny i jasne relacje między pojęciami zapewniają niezwykle trafne wyniki dla osób wyszukujących.
Każda ogólna wyszukiwarka indeksowałaby wszystkie strony i wyszukiwania w sposób wszerz, aby zebrać dokumenty. Spidering w wyszukiwarkach specyficznych dla domeny wydajniej przeszukuje mały podzbiór dokumentów, koncentrując się na określonym zestawie. Stwierdzono, że spidering osiągnięty za pomocą struktury uczenia się przez wzmacnianie jest trzy razy bardziej wydajny niż przeszukiwanie wszerz .
Program Memex DARPA
Na początku 2014 r. Agencja Zaawansowanych Projektów Badawczych w Obronie ( DARPA ) opublikowała oświadczenie na swojej stronie internetowej, w którym przedstawiła wstępne szczegóły „programu Memex”, którego celem jest rozwój nowych technologii wyszukiwania przezwyciężających pewne ograniczenia wyszukiwania tekstowego. DARPA chce, aby technologia Memex opracowana w ramach tych badań była użyteczna dla wyszukiwarek, które mogą wyszukiwać informacje w Deep Web – części Internetu, która jest w dużej mierze nieosiągalna dla komercyjnych wyszukiwarek, takich jak Google czy Yahoo . Witryna DARPA opisuje, że „Celem jest wynalezienie lepszych metod interakcji z informacjami i udostępniania ich, aby użytkownicy mogli szybko i dokładnie organizować i wyszukiwać podzbiory informacji odpowiadające ich indywidualnym zainteresowaniom”. Jak podano w Wired z 2015 r., technologia wyszukiwania rozwijana w programie Memex „ma na celu rzucenie światła na ciemną sieć oraz odkrywać wzorce i relacje w danych online, aby pomóc organom ścigania i innym osobom śledzić nielegalną działalność”. DARPA zamierza zastąpić program scentralizowanymi procedurami używanymi przez komercyjne wyszukiwarki, stwierdzając, że „stworzenie nowego paradygmatu indeksowania i wyszukiwania specyficznego dla domeny zapewni mechanizmy ulepszonego odkrywania treści, ekstrakcji informacji, wyszukiwania informacji, współpracy użytkowników i rozszerzenia obecnych możliwości wyszukiwania na głęboką sieć, ciemną sieć i nietradycyjne (np. multimedialne) treści”. W opisie programu DARPA wyjaśnia nazwa programu jako hołd dla oryginalnego wynalazku Busha Memex, który posłużył jako inspiracja.
W kwietniu 2015 roku ogłoszono, że części Memexu będą dostępne na zasadach open source. Moduły były dostępne do pobrania.