CuneiForm (oprogramowanie)
Oryginalni autorzy | Technologie kognitywne |
---|---|
Deweloperzy | Technologie kognitywne |
Pierwsze wydanie | Źródło 2 kwietnia 2008 |
Wersja stabilna | 1.1 / 19 kwietnia 2011
|
Napisane w | C i C++ |
System operacyjny | Międzyplatformowe |
Typ | Optyczne rozpoznawanie znaków |
Licencja | freeware / BSD |
Strona internetowa |
|
CuneiForm Cognitive OpenOCR to swobodnie dystrybuowany system OCR typu open source opracowany przez rosyjską firmę programistyczną Cognitive Technologies .
CuneiForm OCR został opracowany przez Cognitive Technologies jako produkt komercyjny w 1993 roku. System był dostarczany z najpopularniejszymi modelami skanerów, urządzeń wielofunkcyjnych i oprogramowania w Rosji i na świecie: Corel Draw, Hewlet-Packard, Epson, Xerox, Samsung, Brother, Mustek, OKI, Canon, Olivetti itp. W 2008 roku Cognitive Technologies udostępniło kody źródłowe programu.
Cechy
CuneiForm to system opracowany do przekształcania elektronicznych kopii dokumentów papierowych i plików graficznych do postaci edytowalnej bez zmiany struktury i oryginalnej czcionki dokumentu w trybie automatycznym lub półautomatycznym. System składa się z dwóch komponentów do pojedynczego i wsadowego przetwarzania dokumentów elektronicznych.
Lista języków obsługiwanych przez system:
Poza tym system obsługuje mieszankę rosyjskiego i angielskiego. Rozpoznawanie innych języków mieszanych jest obsługiwane tylko w gałęzi, opracowanej przez Andrieja Borowskiego w 2009 roku. Nauczenie systemu rozpoznawania innych języków jest trudne, ponieważ każdy język jest powiązany z plikiem danych, którego struktura i metoda rozwoju nie są ujawniane przez deweloperzy.
Historia
1993 — Cognitive Technologies podpisało umowę OEM z firmą Corel , na mocy której biblioteka rozpoznawania poznawczego została wbudowana w popularny w branży wydawniczej pakiet Corel Draw 3.0 (i nowsze wersje).
1994 – Umowa z Hewlett-Packard na wyposażenie wszystkich importowanych do Rosji skanerów z CuneiForm OCR. Był to pierwszy kontrakt HP z rosyjską firmą programistyczną.
1995 - Umowa z japońską korporacją Epson na dostawę ich skanerów z CuneiForm OCR. Umowa OEM została podpisana z największym na świecie producentem faksów, drukarek laserowych, skanerów i innego sprzętu biurowego - firmą Brother Corporation. Zgodnie z umową nowy skaner rolkowy Brother IC-150 został wyposażony w oprogramowanie Cognitive do skanowania i rozpoznawania na całym świecie.
1996 - Umowa OEM z jednym z największych światowych producentów monitorów, faksów, drukarek laserowych, urządzeń wielofunkcyjnych i innego sprzętu biurowego - Samsung Information Systems America. Zgodnie z umową nowe urządzenie wielofunkcyjne Samsung OFFICE MASTER OML-8630A miało być wyposażone w system optycznego rozpoznawania symboli Cognitive Cuneiform LE na całym świecie.
- Umowa OEM z wiodącym światowym producentem sprzętu biurowego Xerox na wyposażenie urządzeń wielofunkcyjnych Xerox 3006 i Pro-610 w system rozpoznawania CuneiForm.
- Wydanie CuneiForm '96 OCR, z pierwszymi na świecie adaptacyjnymi algorytmami rozpoznawania.
Adaptive Recognition – metoda oparta na połączeniu dwóch typów algorytmów rozpoznawania znaków drukowanych: multifont i omnifont. System generuje wewnętrzną czcionkę dla każdego dokumentu wejściowego na podstawie dobrze wydrukowanych znaków, stosując dynamiczne dopasowanie (adaptację) do określonych symboli wejściowych. W ten sposób metoda łączy wszechstronność i wydajność technologiczną podejścia omnifont z wysoką dokładnością rozpoznawania czcionek, co radykalnie poprawia współczynnik rozpoznawania.
1997 – Pierwsze użycie technologii sieci neuronowych w CuneiForm. Algorytmy wykorzystujące sieci neuronowe do rozpoznawania znaków rozwijane są w następujący sposób: obraz postaci, który ma być rozpoznany (wzór) jest redukowany do pewnego standardowego rozmiaru (znormalizowany). Wartości luminancji znormalizowanego wzorca są wykorzystywane jako parametry wejściowe dla sieci neuronowej. Liczba parametrów wyjściowych sieci neuronowej jest równa liczbie rozpoznanych znaków. Wynikiem rozpoznania jest symbol, który odpowiada maksymalnej wartości wektora wyjściowego sieci neuronowej.
- Nowa umowa OEM z firmą Canon na wyposażenie importowanych do Rosji urządzeń wielofunkcyjnych w system CuneiForm;
- Nowa umowa OEM z OKI Europe Limited na wyposażenie urządzeń wielofunkcyjnych OKI FAX 4100 i OKI FAX 5200 importowanych do Rosji w system CuneiForm;
- Pierwszy system OCR CuneiForm MMX Update dla procesora Intel MMX;
- Skanery NeuHause są wyposażone w system rozpoznawania CuneiForm;
- Wydanie pierwszego systemu skanowania sieciowego w Rosji CuneiForm 98 NEST.
1999
- Nowa umowa OEM z firmą Olivetti na dostawę importowanych do Rosji urządzeń wielofunkcyjnych z systemem CuneiForm;
- Umowa dystrybucyjna z wiodącym europejskim dystrybutorem oprogramowania firmy WSKA (Francja) dotycząca dystrybucji OCR Cuneiform Direct w Europie;
- Wydano nową wersję systemu, Cuneiform 2000, która implementuje metodę „analizy poznawczej TM”: system ekspercki jest zintegrowany z rdzeniem rozpoznawania, który analizuje alternatywy dla szacunków danych wyjściowych z każdego algorytmu wykrywania i wybiera najlepszy opcja.
- Metoda „Meridian table segmentation TM” została opracowana w celu poprawy dokładności odtwarzania pierwotnej formy tabeli w dokumencie wyjściowym;
- Wprowadzono oryginalny mechanizm odtwarzania formularzy dokumentów — „To, co zeskanujesz, otrzymasz TM” . Technologia miała na celu zachowanie pierwotnej formy zeskanowanego dokumentu pod względem rozmieszczenia jego elementów. Jest to szczególnie ważne w przypadku dokumentów o złożonej topologii: tekstów wielokolumnowych z nagłówkami, adnotacjami, ilustracjami graficznymi, tabelami itp.
2001 - Umowa OEM z firmą Canon na wyposażenie skanerów i urządzeń wielofunkcyjnych z oprogramowaniem Cognitive Technologies CuneiForm OCR dla Europy Wschodniej
Perspektywy rozwoju
- 12 grudnia 2007 OCR CuneiForm freeware -wersja została wydana i ogłoszono otwarcie jej źródła.
- licencji BSD opublikowano kody źródłowe Cuneiform OCR , a jesienią - teksty źródłowe interfejsu systemu.
- Najnowsza wersja wersji OpenSource dla Windows nie była aktualizowana od 14.02.2009. Ta wersja nie jest już dostępna do pobrania. Zamiast tego na stronie pobierania dostępna jest wersja z 11.11.2008
- wypuszczono interfejsy graficzne dla otwartej wersji Cuneiform opartej na bibliotece Qt 4 - Cuneiform-Qt, YAGF. Począwszy od wersji 0.9.0 otwarta wersja dla systemu Linux może służyć jako biblioteka .
Zobacz też
- Puma.NET to biblioteka opakowująca dla silnika rozpoznawania CuneiForm firmy Cognitive Technologies. Ułatwia włączenie funkcji OCR do dowolnej aplikacji .NET Framework 2.0 (lub nowszej).
Linki zewnętrzne
- Wcześniej zastrzeżone oprogramowanie
- Wolne oprogramowanie zaprogramowane w C
- Darmowe oprogramowanie napisane w C++
- Oprogramowanie związane z grafiką MacOS
- Oprogramowanie tekstowe MacOS
- Optyczne rozpoznawanie znaków
- Oprogramowanie związane z grafiką systemu Windows
- Oprogramowanie tekstowe systemu Windows