Porównanie oprogramowania do optycznego rozpoznawania znaków

To porównanie oprogramowania do optycznego rozpoznawania znaków obejmuje:

  • Silniki OCR, które dokonują faktycznej identyfikacji postaci
  • Oprogramowanie do analizy układu, które dzieli zeskanowane dokumenty na strefy odpowiednie dla OCR
  • Graficzne interfejsy do jednego lub więcej silników OCR
  • Zestawy programistyczne używane do dodawania funkcji OCR do innego oprogramowania (np. aplikacji do przetwarzania formularzy, systemów zarządzania obrazami dokumentów, systemów e-Discovery , rozwiązań do zarządzania dokumentacją)
Sortowalna tabela
Nazwa Rok założenia Najnowsza stabilna wersja Rok wydania Licencja online Okna Mac OS X Linuks BSD Android iOS Język programowania SDK ? Języki Czcionki Formaty wyjściowe Notatki
Dysk Google OCR lub Google Cloud Vision 2015 Prawnie zastrzeżony Tak Przeglądarka Przeglądarka Przeglądarka Nieznany ? ? Nieznany Tak 200+ Wszystkie czcionki tekst Wpis na blogu Google
Tesserakt 1985 5.2.0 2022 Apache NIE Tak Tak Tak Tak ? ? C++, C Tak 100+ Dowolna drukowana czcionka Tekst, ALTO , hOCR , PDF, inne z różnymi interfejsami użytkownika lub API Stworzony przez firmę Hewlett-Packard ; w dalszym rozwoju przez Google
ABBYY Fine Reader 1989 16 2022 Prawnie zastrzeżony Tak Tak Tak NIE Tak Tak Tak C/C++ Tak 192 Wszystkie czcionki DOC, DOCX, XLS, XLSX, PPTX, RTF, PDF, HTML, CSV, TXT, ODT, DjVu, EPUB, FB2 Firma ABBYY dostarcza również zestawy SDK dla urządzeń wbudowanych i mobilnych. Wersje Professional, Corporate i Site License dla systemu Windows oraz Express Edition dla komputerów Mac.
E-aksharayan 2010 Tak NIE Tak NIE ? ? 14 RTF, TXT, BRL
Asprise OCR SDK 1998 15 2015 Prawnie zastrzeżony Tak Tak Tak Tak Tak ? ? Java, C#, VB.NET, C/C++/Delphi Tak 20+ ? Zwykły tekst, przeszukiwalny PDF, XML Java, C#, VB.NET, C/C++/Delphi SDK do OCR i rozpoznawania kodów kreskowych w systemach Windows, Linux, Mac OS X i Unix.
Oprogramowanie AnyDoc 1989 ? ? Prawnie zastrzeżony NIE Tak NIE NIE NIE ? ? VBScript ? ? ? Pracuje z dokumentami ustrukturyzowanymi, częściowo ustrukturyzowanymi i nieustrukturyzowanymi.
Klinowy 1996 1.1 2011-04-19 wariant BSD NIE Tak Tak Tak Tak ? ? C/C++ Tak 28 Dowolna drukowana czcionka HTML, hoOCR, natywny, RTF, TeX , TXT System klasy korporacyjnej, zapisuje formatowanie tekstu i rozpoznaje skomplikowane tabele o dowolnej strukturze
Pakiet Dynamsoft OCR SDK 2003 8.2 2012 Prawnie zastrzeżony Tak Tak NIE NIE NIE ? ? C/C++ Tak 40+ ? PDF, TXT
OmniPage lata 70 19.2 2015 Prawnie zastrzeżony Tak Tak Tak Tak NIE ? ? C/C++, C# Tak 125 Czcionki maszynowe i odręczne DOC/DOCX XLS/XLSX PPTX RTF PDF PDF/A PDF z możliwością wyszukiwania HTML Tekst XML ePUB MP3 Produkt firmy Nuance Communications
Microsoft OfficeOneNote2007 2011 ? 2007 Prawnie zastrzeżony NIE Tak NIE NIE NIE ? ? ? ? ? ?
GOCR 2000 0,52 2018-10-15 GPL Tak Tak Tak Tak Tak ? ? C ? 20+ ?
Okrad ? 0,26 2017-03-31 GPL Tak NIE Tak Tak Tak ? ? C++ Tak Alfabet łaciński ? Wiersz poleceń
Inteligentny wynik 1991 10.5.8 2015-07 Prawnie zastrzeżony NIE Tak Tak NIE NIE ? ? ? ? ? ? Do partytur muzycznych
Obrazowanie dokumentów pakietu Microsoft Office ? Biuro 2007 2007 Prawnie zastrzeżony NIE Tak NIE NIE NIE ? ? ? ? ? ? Używa OmniPage [ potrzebne źródło ]
Puma.NET ? ? 2009-10-29 BSD NIE Tak NIE NIE NIE ? ? C# Tak 28 Dowolna drukowana czcionka .NET OCR SDK oparty na silniku rozpoznawania CuneiForm firmy Cognitive Technologies. Opakowuje serwer Puma COM i zapewnia uproszczony interfejs API dla aplikacji .NET
Odczyt miękki ? ? ? Prawnie zastrzeżony NIE Tak NIE NIE NIE ? ? ? ? ? ? Skanuj, przechwytuj i klasyfikuj dokumenty biznesowe, takie jak faktury, formularze i zamówienia zakupu zintegrowane z procesami biznesowymi.
Skantron ? ? ? Prawnie zastrzeżony NIE Tak NIE NIE NIE ? ? ? ? ? ? Do pracy ze zlokalizowanymi interfejsami wymagana jest obsługa odpowiednich języków.
OCRFeeder 2009-03 0.8.3 2014-12-22 GPL NIE NIE NIE Tak NIE ? ? Pyton ? ? ? Zawiera pełny interfejs użytkownika i narzędzie wiersza poleceń do automatycznych operacji. Ma własny algorytm segmentacji, ale wykorzystuje ogólnosystemowe silniki OCR, takie jak Tesseract lub Ocrad
OCRopus 2007 1.3.3 2017-12-16 Apache NIE NIE Tak Tak Tak ? ? Pyton ? Wszystkie języki używające alfabetu łacińskiego (inne języki można trenować) Normalny skrypt łaciński i Fraktur (inne skrypty można trenować) TXT, hoOCR, PDF Wtykowa platforma w trakcie aktywnego rozwoju, używana w Książkach Google
Nazwa Rok założenia Najnowsza stabilna wersja Rok wydania Licencja online Okna Mac OS X Linuks BSD Android iOS Język programowania SDK? Języki Czcionki Formaty wyjściowe Notatki

Ocena

Przeprowadzona w 2016 roku analiza dokładności i niezawodności pakietów OCR Google Docs OCR, Tesseract, ABBYY FineReader i Transym, wykorzystująca zestaw danych obejmujący 1227 obrazów z 15 różnych kategorii, wykazała, że ​​Dokumenty Google OCR i ABBYY działają lepiej niż inne.