Porównanie oprogramowania do optycznego rozpoznawania znaków
To porównanie oprogramowania do optycznego rozpoznawania znaków obejmuje:
- Silniki OCR, które dokonują faktycznej identyfikacji postaci
- Oprogramowanie do analizy układu, które dzieli zeskanowane dokumenty na strefy odpowiednie dla OCR
- Graficzne interfejsy do jednego lub więcej silników OCR
- Zestawy programistyczne używane do dodawania funkcji OCR do innego oprogramowania (np. aplikacji do przetwarzania formularzy, systemów zarządzania obrazami dokumentów, systemów e-Discovery , rozwiązań do zarządzania dokumentacją)
Nazwa | Rok założenia | Najnowsza stabilna wersja | Rok wydania | Licencja | online | Okna | Mac OS X | Linuks | BSD | Android | iOS | Język programowania | SDK ? | Języki | Czcionki | Formaty wyjściowe | Notatki |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Dysk Google OCR lub Google Cloud Vision | 2015 | Prawnie zastrzeżony | Tak | Przeglądarka | Przeglądarka | Przeglądarka | Nieznany | ? | ? | Nieznany | Tak | 200+ | Wszystkie czcionki | tekst | Wpis na blogu Google | ||
Tesserakt | 1985 | 5.2.0 | 2022 | Apache | NIE | Tak | Tak | Tak | Tak | ? | ? | C++, C | Tak | 100+ | Dowolna drukowana czcionka | Tekst, ALTO , hOCR , PDF, inne z różnymi interfejsami użytkownika lub API | Stworzony przez firmę Hewlett-Packard ; w dalszym rozwoju przez Google |
ABBYY Fine Reader | 1989 | 16 | 2022 | Prawnie zastrzeżony | Tak | Tak | Tak | NIE | Tak | Tak | Tak | C/C++ | Tak | 192 | Wszystkie czcionki | DOC, DOCX, XLS, XLSX, PPTX, RTF, PDF, HTML, CSV, TXT, ODT, DjVu, EPUB, FB2 | Firma ABBYY dostarcza również zestawy SDK dla urządzeń wbudowanych i mobilnych. Wersje Professional, Corporate i Site License dla systemu Windows oraz Express Edition dla komputerów Mac. |
E-aksharayan | 2010 | Tak | NIE | Tak | NIE | ? | ? | 14 | RTF, TXT, BRL | ||||||||
Asprise OCR SDK | 1998 | 15 | 2015 | Prawnie zastrzeżony | Tak | Tak | Tak | Tak | Tak | ? | ? | Java, C#, VB.NET, C/C++/Delphi | Tak | 20+ | ? | Zwykły tekst, przeszukiwalny PDF, XML | Java, C#, VB.NET, C/C++/Delphi SDK do OCR i rozpoznawania kodów kreskowych w systemach Windows, Linux, Mac OS X i Unix. |
Oprogramowanie AnyDoc | 1989 | ? | ? | Prawnie zastrzeżony | NIE | Tak | NIE | NIE | NIE | ? | ? | VBScript | ? | ? | ? | Pracuje z dokumentami ustrukturyzowanymi, częściowo ustrukturyzowanymi i nieustrukturyzowanymi. | |
Klinowy | 1996 | 1.1 | 2011-04-19 | wariant BSD | NIE | Tak | Tak | Tak | Tak | ? | ? | C/C++ | Tak | 28 | Dowolna drukowana czcionka | HTML, hoOCR, natywny, RTF, TeX , TXT | System klasy korporacyjnej, zapisuje formatowanie tekstu i rozpoznaje skomplikowane tabele o dowolnej strukturze |
Pakiet Dynamsoft OCR SDK | 2003 | 8.2 | 2012 | Prawnie zastrzeżony | Tak | Tak | NIE | NIE | NIE | ? | ? | C/C++ | Tak | 40+ | ? | PDF, TXT | |
OmniPage | lata 70 | 19.2 | 2015 | Prawnie zastrzeżony | Tak | Tak | Tak | Tak | NIE | ? | ? | C/C++, C# | Tak | 125 | Czcionki maszynowe i odręczne | DOC/DOCX XLS/XLSX PPTX RTF PDF PDF/A PDF z możliwością wyszukiwania HTML Tekst XML ePUB MP3 | Produkt firmy Nuance Communications |
Microsoft OfficeOneNote2007 | 2011 | ? | 2007 | Prawnie zastrzeżony | NIE | Tak | NIE | NIE | NIE | ? | ? | ? | ? | ? | ? | ||
GOCR | 2000 | 0,52 | 2018-10-15 | GPL | Tak | Tak | Tak | Tak | Tak | ? | ? | C | ? | 20+ | ? | ||
Okrad | ? | 0,26 | 2017-03-31 | GPL | Tak | NIE | Tak | Tak | Tak | ? | ? | C++ | Tak | Alfabet łaciński | ? | Wiersz poleceń | |
Inteligentny wynik | 1991 | 10.5.8 | 2015-07 | Prawnie zastrzeżony | NIE | Tak | Tak | NIE | NIE | ? | ? | ? | ? | ? | ? | Do partytur muzycznych | |
Obrazowanie dokumentów pakietu Microsoft Office | ? | Biuro 2007 | 2007 | Prawnie zastrzeżony | NIE | Tak | NIE | NIE | NIE | ? | ? | ? | ? | ? | ? | Używa OmniPage [ potrzebne źródło ] | |
Puma.NET | ? | ? | 2009-10-29 | BSD | NIE | Tak | NIE | NIE | NIE | ? | ? | C# | Tak | 28 | Dowolna drukowana czcionka | .NET OCR SDK oparty na silniku rozpoznawania CuneiForm firmy Cognitive Technologies. Opakowuje serwer Puma COM i zapewnia uproszczony interfejs API dla aplikacji .NET | |
Odczyt miękki | ? | ? | ? | Prawnie zastrzeżony | NIE | Tak | NIE | NIE | NIE | ? | ? | ? | ? | ? | ? | Skanuj, przechwytuj i klasyfikuj dokumenty biznesowe, takie jak faktury, formularze i zamówienia zakupu zintegrowane z procesami biznesowymi. | |
Skantron | ? | ? | ? | Prawnie zastrzeżony | NIE | Tak | NIE | NIE | NIE | ? | ? | ? | ? | ? | ? | Do pracy ze zlokalizowanymi interfejsami wymagana jest obsługa odpowiednich języków. | |
OCRFeeder | 2009-03 | 0.8.3 | 2014-12-22 | GPL | NIE | NIE | NIE | Tak | NIE | ? | ? | Pyton | ? | ? | ? | Zawiera pełny interfejs użytkownika i narzędzie wiersza poleceń do automatycznych operacji. Ma własny algorytm segmentacji, ale wykorzystuje ogólnosystemowe silniki OCR, takie jak Tesseract lub Ocrad | |
OCRopus | 2007 | 1.3.3 | 2017-12-16 | Apache | NIE | NIE | Tak | Tak | Tak | ? | ? | Pyton | ? | Wszystkie języki używające alfabetu łacińskiego (inne języki można trenować) | Normalny skrypt łaciński i Fraktur (inne skrypty można trenować) | TXT, hoOCR, PDF | Wtykowa platforma w trakcie aktywnego rozwoju, używana w Książkach Google |
Nazwa | Rok założenia | Najnowsza stabilna wersja | Rok wydania | Licencja | online | Okna | Mac OS X | Linuks | BSD | Android | iOS | Język programowania | SDK? | Języki | Czcionki | Formaty wyjściowe | Notatki |
Ocena
Przeprowadzona w 2016 roku analiza dokładności i niezawodności pakietów OCR Google Docs OCR, Tesseract, ABBYY FineReader i Transym, wykorzystująca zestaw danych obejmujący 1227 obrazów z 15 różnych kategorii, wykazała, że Dokumenty Google OCR i ABBYY działają lepiej niż inne.