Apache Tika
Deweloperzy | Fundacja oprogramowania Apache |
---|---|
Wersja stabilna | |
Magazyn | Repozytorium Tika |
Napisane w | Jawa |
System operacyjny | Międzyplatformowe |
Typ | API wyszukiwania i indeksowania |
Licencja | Licencja Apache 2.0 |
Strona internetowa |
Apache Tika to framework do wykrywania i analizy treści , napisany w Javie , zarządzany przez Apache Software Foundation . Wykrywa i wyodrębnia metadane i tekst z ponad tysiąca różnych typów plików , a oprócz biblioteki Java ma wersje serwerowe i wiersza poleceń odpowiednie do użytku z innymi językami programowania.
Historia
Projekt powstał jako część bazy kodu Apache Nutch , aby zapewnić identyfikację i wyodrębnianie treści podczas indeksowania . W 2007 roku został wydzielony, aby był bardziej rozszerzalny i użyteczny przez systemy zarządzania treścią , inne roboty indeksujące i systemy wyszukiwania informacji. Samodzielna Tika została założona przez Jérôme'a Charrona, Chrisa Mattmanna i Jukkę Zitting. W 2011 roku Chris Mattmann i Jukka Zitting wydali książkę Manninga „Tika in Action”, a projekt wydał wersję 1.0.
Cechy
Tika zapewnia możliwości identyfikacji ponad 1400 typów plików z taksonomii typów MIME opracowanej przez Internet Assigned Numbers Authority . W przypadku większości bardziej powszechnych i popularnych formatów Tika zapewnia ekstrakcję treści, ekstrakcję metadanych i możliwości identyfikacji języka.
Może również pobierać tekst z obrazów za pomocą oprogramowania OCR Tesseract .
Chociaż Tika jest napisana w Javie , jest szeroko stosowana w innych językach. Serwer RESTful i narzędzie CLI umożliwiają programom innym niż Java dostęp do funkcjonalności Tika.
Godne uwagi zastosowania
Tika jest używana przez instytucje finansowe, w tym Fair Isaac Corporation (FICO), Goldman Sachs, NASA i badaczy akademickich, a także przez główne systemy zarządzania treścią, w tym Drupal i Alfresco (oprogramowanie) do analizowania dużych ilości treści i udostępniania ich we wspólnych formatów przy użyciu technik wyszukiwania informacji.
4 kwietnia 2016 Forbes opublikował artykuł identyfikujący Tika jako jedną z kluczowych technologii wykorzystywanych przez ponad 400 dziennikarzy do analizy 11,5 miliona dokumentów, które wyciekły, ujawniając międzynarodowy skandal z udziałem światowych przywódców przechowujących pieniądze w zagranicznych korporacjach . Dokumenty, które wyciekły, oraz projekt ich analizy określa się mianem Panama Papers .