StormCrawler

StormCrawler
Deweloperzy DigitalPebble spółka z ograniczoną odpowiedzialnością
Pierwsze wydanie 11 września 2014 ( 11.09.2014 )
Wersja stabilna
2.2 / 11 stycznia 2022 r. ; 14 miesięcy temu ( 11.01.2022 )
Magazyn
Napisane w Jawa
Typ Robot indeksujący
Licencja Licencja Apache
Strona internetowa Stormcrawler .net

StormCrawler to zbiór zasobów typu open source do tworzenia skalowalnych robotów indeksujących o niskim opóźnieniu w Apache Storm . Jest udostępniany na licencji Apache i jest napisany głównie w języku Java (język programowania) .

StormCrawler jest modułowy i składa się z podstawowego modułu, który zapewnia podstawowe elementy składowe robota sieciowego, takie jak pobieranie, analizowanie i filtrowanie adresów URL. Poza podstawowymi komponentami projekt zapewnia również zasoby zewnętrzne, jak na przykład spout and bolts dla Elasticsearch i Apache Solr czy ParserBolt, który wykorzystuje Apache Tika do parsowania różnych formatów dokumentów.

Projekt jest wykorzystywany w produkcji przez różne firmy.

Linux opublikował Q&A w październiku 2016 z autorem StormCrawler. InfoQ uruchomił jeden w grudniu 2016 r. Porównawczy test porównawczy z Apache Nutch został opublikowany w styczniu 2017 r. Na stronie zone.com.

Kilka artykułów naukowych wspomniało o użyciu StormCrawler, w szczególności:

  • Indeksowanie niemieckiej sieci zdrowia: badanie eksploracyjne i analiza wykresów.
  • Generowanie wielomilionowego korpusu stron dla języka perskiego.
  • SIREN — mechanizm wyszukiwania i wyodrębniania informacji o bezpieczeństwie.

Projekt WIKI zawiera listę filmów i slajdów dostępnych online.

StormCrawler jest używany w szczególności przez Common Crawl do generowania dużego i publicznie dostępnego zestawu danych wiadomości.

Zobacz też