StormCrawler

StormCrawler
Deweloperzy	DigitalPebble spółka z ograniczoną odpowiedzialnością
Pierwsze wydanie	11 września 2014
Wersja stabilna	2.2 / 11 stycznia 2022 r. ; 14 miesięcy temu
Magazyn	github.com/DigitalPebble/storm-crawler _ _ _ ;
Napisane w	Jawa
Typ	Robot indeksujący
Licencja	Licencja Apache
Strona internetowa	Stormcrawler .net

StormCrawler to zbiór zasobów typu open source do tworzenia skalowalnych robotów indeksujących o niskim opóźnieniu w Apache Storm . Jest udostępniany na licencji Apache i jest napisany głównie w języku Java (język programowania) .

StormCrawler jest modułowy i składa się z podstawowego modułu, który zapewnia podstawowe elementy składowe robota sieciowego, takie jak pobieranie, analizowanie i filtrowanie adresów URL. Poza podstawowymi komponentami projekt zapewnia również zasoby zewnętrzne, jak na przykład spout and bolts dla Elasticsearch i Apache Solr czy ParserBolt, który wykorzystuje Apache Tika do parsowania różnych formatów dokumentów.

Projekt jest wykorzystywany w produkcji przez różne firmy.

Linux opublikował Q&A w październiku 2016 z autorem StormCrawler. InfoQ uruchomił jeden w grudniu 2016 r. Porównawczy test porównawczy z Apache Nutch został opublikowany w styczniu 2017 r. Na stronie zone.com.

Kilka artykułów naukowych wspomniało o użyciu StormCrawler, w szczególności:

Indeksowanie niemieckiej sieci zdrowia: badanie eksploracyjne i analiza wykresów.
Generowanie wielomilionowego korpusu stron dla języka perskiego.
SIREN — mechanizm wyszukiwania i wyodrębniania informacji o bezpieczeństwie.

Projekt WIKI zawiera listę filmów i slajdów dostępnych online.

StormCrawler jest używany w szczególności przez Common Crawl do generowania dużego i publicznie dostępnego zestawu danych wiadomości.

Zobacz też