DeepPeep

DeepPeep była wyszukiwarką , której celem było przeszukiwanie i indeksowanie każdej bazy danych w publicznej sieci Web. W przeciwieństwie do tradycyjnych wyszukiwarek, które indeksują istniejące strony internetowe i ich hiperłącza, DeepPeep miał na celu umożliwienie dostępu do tzw . Projekt rozpoczął się na Uniwersytecie Utah i był nadzorowany przez Julianę Freire , profesora nadzwyczajnego w uniwersyteckiej grupie School of Computing WebDB. Według Freire'a celem było udostępnienie 90% całej zawartości WWW. Projekt prowadził wyszukiwarkę w wersji beta i był sponsorowany przez University of Utah oraz grant w wysokości 243 000 dolarów od National Science Foundation . Wywołało to zainteresowanie na całym świecie.

Jak to działa

Podobnie jak Google , Yahoo i inne wyszukiwarki, DeepPeep pozwala użytkownikom wpisać słowo kluczowe i zwraca listę linków i baz danych z informacjami dotyczącymi słowa kluczowego.

Jednak tym, co odróżnia DeepPeep od innych wyszukiwarek, jest to, że DeepPeep używa robota indeksującego ACHE, „Hierarchical Form Identification”, „Context-Aware Form Clustering” i „LabelEx” do lokalizowania, analizowania i organizowania formularzy internetowych w celu umożliwienia użytkownikom łatwego dostępu.

Gąsienicowy ACHE

Crawler ACHE służy do zbierania linków i wykorzystuje strategię uczenia się, która zwiększa szybkość zbierania linków, gdy te roboty kontynuują wyszukiwanie. Tym, co wyróżnia ACHE Crawler spośród innych robotów indeksujących, jest to, że inne roboty indeksujące są robotami ukierunkowanymi, które zbierają strony internetowe o określonych właściwościach lub słowach kluczowych. Zamiast tego Ache Crawlers zawiera klasyfikator stron, który pozwala sortować nieistotne strony w domenie, a także klasyfikator linków, który klasyfikuje link według jego największego związku z tematem. W rezultacie ACHE Crawler najpierw pobiera linki internetowe, które mają większe znaczenie i oszczędza zasoby, nie pobierając nieistotnych danych.

Hierarchiczna identyfikacja postaci

Aby jeszcze bardziej wyeliminować nieistotne linki i wyniki wyszukiwania, DeepPeep wykorzystuje strukturę HIerarchical Form Identification (HIFI), która klasyfikuje linki i wyniki wyszukiwania na podstawie struktury i zawartości witryny. W przeciwieństwie do innych form klasyfikacji, które do organizacji opierają się wyłącznie na etykietach formularzy internetowych, HIFI wykorzystuje do klasyfikacji zarówno strukturę, jak i treść formularza internetowego. Korzystając z tych dwóch klasyfikatorów, HIFI organizuje formularze internetowe w sposób hierarchiczny, który ocenia trafność formularza internetowego w stosunku do docelowego słowa kluczowego.

Klastrowanie zależne od kontekstu

Gdy nie ma interesującej domeny lub określona domena ma wiele typów definicji, DeepPeep musi oddzielić formularz internetowy i zgrupować je w podobne domeny. Wyszukiwarka korzysta z klastrów uwzględniających kontekst, aby grupować podobne łącza w tej samej domenie, modelując formularz internetowy w zestawy hiperłączy i porównując jego kontekst. W przeciwieństwie do innych technik, które wymagają skomplikowanego wyodrębniania etykiet i ręcznego wstępnego przetwarzania formularzy internetowych, kontekstowe grupowanie odbywa się automatycznie i wykorzystuje metadane do obsługi formularzy internetowych bogatych w treść i zawierających wiele atrybutów.

EtykietaEx

DeepPeep dalej wyodrębnia informacje zwane Meta-Data z tych stron, co pozwala na lepsze pozycjonowanie linków i baz danych za pomocą LabelEx, podejścia do automatycznego rozkładu i ekstrakcji metadanych. Metadane to dane z linków internetowych, które dostarczają informacji o innych domenach. LabelEx identyfikuje mapowanie element-etykieta i wykorzystuje to mapowanie do wyodrębniania metadanych z dokładnością, w przeciwieństwie do konwencjonalnych podejść, które wykorzystywały ręczne reguły wyodrębniania.

Zaszeregowanie

Gdy wyniki wyszukiwania pojawiają się po wprowadzeniu przez użytkownika słowa kluczowego, DeepPeep klasyfikuje linki na podstawie 3 cech: treść terminu, liczba linków zwrotnych . i PageRank . Po pierwsze, termin „treść” jest po prostu określany na podstawie treści łącza internetowego i jego znaczenia. Linki zwrotne to hiperłącza lub linki, które kierują użytkownika do innej witryny. Pageranks to ranking witryn internetowych w wynikach wyszukiwania, który polega na liczeniu ilości i jakości linków prowadzących do witryny w celu określenia jej ważności. PageRank i informacje o linkach zwrotnych są uzyskiwane z zewnętrznych źródeł, takich jak Google , Yahoo i Bing .

Uruchomienie wersji beta

DeepPeep Beta została uruchomiona i obejmowała tylko siedem domen: auto, bilety lotnicze, biologia, książki, hotel, praca i wynajem. W ramach tych siedmiu domen DeepPeep oferował dostęp do 13 000 formularzy internetowych. Można było uzyskać dostęp do strony internetowej pod adresem deeppeep.org, ale strona internetowa była nieaktywna po usunięciu wersji beta.

Linki zewnętrzne