Apache Tika

Tika
Deweloperzy Fundacja oprogramowania Apache
Wersja stabilna
Edit this on Wikidata 2.6.0 / 7 listopada 2022 ; 3 miesiące temu ( 7 listopada 2022 )
Magazyn Repozytorium Tika
Napisane w Jawa
System operacyjny Międzyplatformowe
Typ API wyszukiwania i indeksowania
Licencja Licencja Apache 2.0
Strona internetowa tika .apache .org

Apache Tika to framework do wykrywania i analizy treści , napisany w Javie , zarządzany przez Apache Software Foundation . Wykrywa i wyodrębnia metadane i tekst z ponad tysiąca różnych typów plików , a oprócz biblioteki Java ma wersje serwerowe i wiersza poleceń odpowiednie do użytku z innymi językami programowania.

Historia

Projekt powstał jako część bazy kodu Apache Nutch , aby zapewnić identyfikację i wyodrębnianie treści podczas indeksowania . W 2007 roku został wydzielony, aby był bardziej rozszerzalny i użyteczny przez systemy zarządzania treścią , inne roboty indeksujące i systemy wyszukiwania informacji. Samodzielna Tika została założona przez Jérôme'a Charrona, Chrisa Mattmanna i Jukkę Zitting. W 2011 roku Chris Mattmann i Jukka Zitting wydali książkę Manninga „Tika in Action”, a projekt wydał wersję 1.0.

Cechy

Tika zapewnia możliwości identyfikacji ponad 1400 typów plików z taksonomii typów MIME opracowanej przez Internet Assigned Numbers Authority . W przypadku większości bardziej powszechnych i popularnych formatów Tika zapewnia ekstrakcję treści, ekstrakcję metadanych i możliwości identyfikacji języka.

Może również pobierać tekst z obrazów za pomocą oprogramowania OCR Tesseract .

Chociaż Tika jest napisana w Javie , jest szeroko stosowana w innych językach. Serwer RESTful i narzędzie CLI umożliwiają programom innym niż Java dostęp do funkcjonalności Tika.

Godne uwagi zastosowania

Tika jest używana przez instytucje finansowe, w tym Fair Isaac Corporation (FICO), Goldman Sachs, NASA i badaczy akademickich, a także przez główne systemy zarządzania treścią, w tym Drupal i Alfresco (oprogramowanie) do analizowania dużych ilości treści i udostępniania ich we wspólnych formatów przy użyciu technik wyszukiwania informacji.

4 kwietnia 2016 Forbes opublikował artykuł identyfikujący Tika jako jedną z kluczowych technologii wykorzystywanych przez ponad 400 dziennikarzy do analizy 11,5 miliona dokumentów, które wyciekły, ujawniając międzynarodowy skandal z udziałem światowych przywódców przechowujących pieniądze w zagranicznych korporacjach . Dokumenty, które wyciekły, oraz projekt ich analizy określa się mianem Panama Papers .

Zobacz też