StormCrawler
Deweloperzy | DigitalPebble spółka z ograniczoną odpowiedzialnością |
---|---|
Pierwsze wydanie | 11 września 2014 |
Wersja stabilna | 2.2 / 11 stycznia 2022 r.
|
Magazyn | |
Napisane w | Jawa |
Typ | Robot indeksujący |
Licencja | Licencja Apache |
Strona internetowa |
StormCrawler to zbiór zasobów typu open source do tworzenia skalowalnych robotów indeksujących o niskim opóźnieniu w Apache Storm . Jest udostępniany na licencji Apache i jest napisany głównie w języku Java (język programowania) .
StormCrawler jest modułowy i składa się z podstawowego modułu, który zapewnia podstawowe elementy składowe robota sieciowego, takie jak pobieranie, analizowanie i filtrowanie adresów URL. Poza podstawowymi komponentami projekt zapewnia również zasoby zewnętrzne, jak na przykład spout and bolts dla Elasticsearch i Apache Solr czy ParserBolt, który wykorzystuje Apache Tika do parsowania różnych formatów dokumentów.
Projekt jest wykorzystywany w produkcji przez różne firmy.
Linux opublikował Q&A w październiku 2016 z autorem StormCrawler. InfoQ uruchomił jeden w grudniu 2016 r. Porównawczy test porównawczy z Apache Nutch został opublikowany w styczniu 2017 r. Na stronie zone.com.
Kilka artykułów naukowych wspomniało o użyciu StormCrawler, w szczególności:
- Indeksowanie niemieckiej sieci zdrowia: badanie eksploracyjne i analiza wykresów.
- Generowanie wielomilionowego korpusu stron dla języka perskiego.
- SIREN — mechanizm wyszukiwania i wyodrębniania informacji o bezpieczeństwie.
Projekt WIKI zawiera listę filmów i slajdów dostępnych online.
StormCrawler jest używany w szczególności przez Common Crawl do generowania dużego i publicznie dostępnego zestawu danych wiadomości.