Nośnik i dane do odczytu maszynowego

ISBN reprezentowany jako kod kreskowy EAN-13 zawierający zarówno kreski do odczytu maszynowego, jak i cyfry czytelne dla człowieka

W komunikacji i informatyce nośnik odczytywalny maszynowo lub nośnik odczytywalny komputerowo to nośnik zdolny do przechowywania danych w formacie łatwym do odczytu przez komputer cyfrowy lub urządzenie mechaniczne (a nie czytelny dla człowieka ). Wynik jest nazywany danymi do odczytu maszynowego lub danymi do odczytu komputerowego .

Dane

Dane nadające się do odczytu maszynowego muszą być danymi strukturalnymi .

Próby stworzenia danych odczytywalnych maszynowo miały miejsce już w latach 60. XX wieku. W tym samym czasie, gdy pojawiały się przełomowe osiągnięcia w czytaniu maszynowym i przetwarzaniu języka naturalnego (jak ELIZA Weizenbauma ), ludzie oczekiwali sukcesu funkcjonalności do odczytu maszynowego i próbowali tworzyć dokumenty do odczytu maszynowego. Jednym z takich przykładów było stworzenie przez muzykologa Nancy B. Reich w 1966 roku katalogu dzieł kompozytora Williama Jaya Sydemana do odczytu maszynowego.

W Stanach Zjednoczonych ustawa OPEN Government Data Act z dnia 14 stycznia 2019 r. definiuje dane nadające się do odczytu maszynowego jako „dane w formacie, który może być łatwo przetwarzany przez komputer bez interwencji człowieka, przy jednoczesnym zapewnieniu, że nie zostanie utracone znaczenie semantyczne”. Prawo nakazuje agencjom federalnym Stanów Zjednoczonych publikowanie danych publicznych w taki sposób, aby „każdy zasób danych publicznych agencji był możliwy do odczytu maszynowego”.

Dane czytelne maszynowo można podzielić na dwie grupy: dane czytelne dla człowieka, które są oznakowane w taki sposób, że mogą być również odczytywane przez maszyny (np. mikroformaty , RDFa , HTML ) oraz formaty plików danych przeznaczone głównie do przetwarzania maszynowego ( CSV , RDF , XML , JSON ). Formaty te nadają się do odczytu maszynowego tylko wtedy, gdy zawarte w nich dane mają formalną strukturę; wyeksportowanie pliku CSV ze źle ustrukturyzowanego arkusza kalkulacyjnego nie spełnia definicji.

Odczyt maszynowy nie jest równoznaczny z dostępnym cyfrowo . Dokument dostępny cyfrowo może znajdować się w Internecie, co ułatwia ludziom dostęp za pośrednictwem komputerów, ale jego treść jest znacznie trudniejsza do wyodrębnienia, przekształcenia i przetworzenia za pomocą logiki programowania komputerowego, jeśli nie jest do odczytu maszynowego.

Extensible Markup Language (XML) został zaprojektowany tak, aby był czytelny zarówno dla ludzi, jak i maszyn, a Extensible Stylesheet Language Transformation (XSLT) służy do poprawy prezentacji danych pod kątem czytelności dla człowieka. Na przykład XSLT może służyć do automatycznego renderowania XML w formacie Portable Document Format ( PDF ). Dane nadające się do odczytu maszynowego mogą być automatycznie przekształcane, aby były czytelne dla człowieka, ale ogólnie rzecz biorąc, sytuacja odwrotna nie jest prawdą.

Do celów wdrożenia ustawy o modernizacji ustawy Government Performance and Results Act (GPRA), Biuro Zarządzania i Budżetu (OMB) definiuje „format do odczytu maszynowego” w następujący sposób: „Format w standardowym języku komputerowym (nie tekst w języku angielskim), który można odczytywane automatycznie przez przeglądarkę internetową lub system komputerowy (np. xml). Tradycyjne edytory tekstu i pliki w formacie przenośnych dokumentów (PDF) są łatwo odczytywane przez ludzi, ale zazwyczaj są trudne do zinterpretowania przez maszyny. Inne formaty, takie jak rozszerzalny język znaczników ( XML ), ( JSON ) lub arkusze kalkulacyjne z kolumnami nagłówka, które można wyeksportować jako wartości oddzielone przecinkami (CSV), to formaty nadające się do odczytu maszynowego. Ponieważ HTML jest strukturalnym językiem znaczników, dyskretnie oznaczającym części dokumentu, komputery są w stanie zebrać składniki dokumentu w celu złożenia spisów treści, konspektów, bibliografii przeszukiwania literatury itp. Możliwe jest uczynienie tradycyjnych dokumentów tekstowych i innych formatów czytelnymi maszynowo ale dokumenty muszą zawierać ulepszone elementy konstrukcyjne”.

Głoska bezdźwięczna

Przykłady nośników do odczytu maszynowego obejmują nośniki magnetyczne, takie jak dyski magnetyczne , karty, taśmy i bębny , karty perforowane i taśmy papierowe , dyski optyczne , kody kreskowe i znaki atramentu magnetycznego .

Typowe technologie odczytu maszynowego obejmują zapis magnetyczny, przetwarzanie przebiegów i kodów kreskowych . Optyczne rozpoznawanie znaków (OCR) może być wykorzystywane do umożliwienia maszynom odczytywania informacji dostępnych dla ludzi. Każda informacja, którą można odzyskać za pomocą dowolnej formy energii, może być odczytywana maszynowo.

Przykłady obejmują:

Akustyka
Chemiczny
- Fotochemiczny
Elektryczny
- Półprzewodnik stosowany w ulotnych mikroczipach RAM
- Tranzystor z ruchomą bramką stosowany w nieulotnych kartach pamięci
- Transmisja radiowa
Przechowywanie magnetyczne
Mechaniczny
- Puszki I łabędzie
  - Karta dziurkowana
  - Taśma papierowa
    - Rolka muzyczna
  - Cylinder lub dysk pozytywki
- Rowki (Zobacz także Dane audio )
  - Cylinder fonograficzny
  - Płyta gramofonowa
  - DictaBelt (rowek na plastikowym pasku)
  - Elektroniczny dysk pojemnościowy
Optyka
- Pamięć optyczna
Termodynamiczny

Aplikacje

Dokumenty

Dokument do odczytu maszynowego to dokument , którego treść może być łatwo przetwarzana przez komputery . Takie dokumenty różnią się od bardziej ogólnych danych do odczytu maszynowego dzięki temu, że mają dodatkową strukturę zapewniającą niezbędny kontekst wspierający procesy biznesowe, dla których są tworzone.

Katalogi

MARC (katalogowanie do odczytu maszynowego) to standardowy zestaw formatów cyfrowych do czytelnego maszynowo opisu pozycji skatalogowanych przez biblioteki, takich jak książki, płyty DVD i zasoby cyfrowe. Skomputeryzowane katalogi biblioteczne i oprogramowanie do zarządzania bibliotekami muszą mieć strukturę swoich rekordów katalogowych zgodnie z ogólnobranżowym standardem, jakim jest MARC, tak aby informacje bibliograficzne mogły być swobodnie udostępniane między komputerami. Struktura rekordów bibliograficznych jest prawie zawsze zgodna ze standardem MARC. Inne standardy działają w połączeniu z MARC, na przykład Anglo-American Cataloging Rules (AACR)/ Resource Description and Access (RDA) zawiera wytyczne dotyczące formułowania danych bibliograficznych w strukturę rekordów MARC, podczas gdy International Standard Bibliographic Description (ISBD) zawiera wytyczne dotyczące wyświetlania rekordów MARC w standardowej formie czytelnej dla człowieka.

Słowniki

Słownik do odczytu maszynowego (MRD) to słownik przechowywany jako dane do odczytu maszynowego zamiast drukowania na papierze. Jest to elektroniczny słownik i leksykalna baza danych .

Słownik do odczytu maszynowego to słownik w formie elektronicznej, który można załadować do bazy danych i przeszukiwać za pomocą aplikacji. Może to być słownik objaśniający w jednym języku lub słownik wielojęzyczny obsługujący tłumaczenia między dwoma lub więcej językami lub kombinacją obu. Oprogramowanie do tłumaczenia między wieloma językami zwykle stosuje słowniki dwukierunkowe. MRD może być słownikiem o zastrzeżonej strukturze, który jest przeszukiwany przez dedykowane oprogramowanie (np. Aplikacje. Tradycyjne słowniki zawierają
lemat z różnymi opisami. Słownik do odczytu maszynowego może mieć dodatkowe możliwości i dlatego jest czasami nazywany słownikiem inteligentnym. Przykładem inteligentnego słownika jest Open Source Gellish English Dictionary . Termin słownik jest również używany w odniesieniu do elektronicznego słownictwa lub leksykonu , używanego na przykład w modułach sprawdzania pisowni . Jeśli słowniki są ułożone w hierarchii pojęć (lub terminów) podtyp-nadtyp, nazywa się to taksonomią . Jeśli zawiera również inne relacje między pojęciami, to nazywa się ontologią . Wyszukiwarki mogą używać słownictwa, taksonomii lub ontologii w celu optymalizacji wyników wyszukiwania. Specjalistyczne słowniki elektroniczne to słowniki morfologiczne lub słowniki składniowe.

Termin MRD jest często porównywany ze słownikiem NLP w tym sensie, że MRD jest elektroniczną formą słownika, który został wcześniej wydrukowany na papierze. Chociaż oba są używane przez programy, termin słownik NLP jest preferowany, gdy słownik został zbudowany od podstaw z myślą o NLP. Standard ISO dla MRD i NLP jest w stanie reprezentować obie struktury i nosi nazwę Lexical Markup Framework .

Paszporty

Paszport do odczytu maszynowego (MRP) to dokument podróży do odczytu maszynowego (MRTD) z danymi na stronie tożsamości zakodowanymi w formacie optycznego rozpoznawania znaków . W latach 80. wiele krajów zaczęło wydawać dokumenty podróży nadające się do odczytu maszynowego.

Większość paszportów podróżnych na całym świecie to MRP. Są znormalizowane przez ICAO 9303 (zatwierdzony przez Międzynarodową Organizację Normalizacyjną i Międzynarodową Komisję Elektrotechniczną jako ISO/IEC 7501-1) i mają specjalną strefę do odczytu maszynowego ( MRZ ), która zwykle znajduje się na dole identyfikatora strona na początku paszportu. Norma ICAO 9303 opisuje trzy typy dokumentów odpowiadające ISO/IEC 7810 :

„Typ 3” jest typowy dla książeczek paszportowych. MRZ składa się z 2 wierszy × 44 znaków.
„Typ 2” jest stosunkowo rzadki i ma 2 wiersze × 36 znaków.
„Typ 1” ma rozmiar karty kredytowej i składa się z 3 wierszy × 30 znaków.

Stały format pozwala na określenie typu dokumentu, nazwiska, numeru dokumentu, narodowości, daty urodzenia, płci oraz daty ważności dokumentu. Wszystkie te pola są wymagane w paszporcie. Jest miejsce na opcjonalne, często zależne od kraju, informacje uzupełniające. Istnieją również podobnie zdefiniowane dwa rozmiary wiz do odczytu maszynowego.

Komputery z kamerą i odpowiednim oprogramowaniem mogą bezpośrednio odczytywać informacje zawarte w paszportach do odczytu maszynowego. Umożliwia to szybsze przetwarzanie przybywających pasażerów przez urzędników imigracyjnych i większą dokładność niż w przypadku paszportów odczytywanych ręcznie, a także szybsze wprowadzanie danych, więcej danych do odczytania i lepsze dopasowanie danych do baz danych imigracyjnych i list obserwacyjnych.

Oprócz informacji odczytywanych optycznie, wiele paszportów zawiera chip RFID , który umożliwia komputerowi odczytanie większej ilości informacji, np. zdjęcia okaziciela. Paszporty te nazywane są paszportami biometrycznymi i są również opisane w ICAO 9303.

Zobacz też

Ten artykuł zawiera materiały należące do domeny publicznej z normy federalnej 1037C . Administracja usług ogólnych . Zarchiwizowane od oryginału w dniu 2022-01-22.

^ „Do odczytu maszynowego” . opendatahandbook.org . Źródło 2019-07-22 .
Bibliografia _ _ stratml.us .
Bibliografia _ _ stratml.us .
^ „Podstawa dotycząca czytelności maszynowej dokumentów i danych online” . Data.gov . 2012-09-24 . Źródło 2015-02-27 .
^ Okólnik OMB A-11, część 6 zarchiwizowana 22.04.2020 w Wayback Machine , przygotowanie, przedłożenie i wykonanie budżetu
^ Gil Francopoulo (pod redakcją) LMF Lexical Markup Framework, ISTE / Wiley 2013 ( ISBN 978-1-84821-430-9 )

[1] „Do odczytu maszynowego” . opendatahandbook.org . Źródło 2019-07-22 .

[2] Bibliografia _ _ stratml.us .

[3] Bibliografia _ _ stratml.us .

[4] „Podstawa dotycząca czytelności maszynowej dokumentów i danych online” . Data.gov . 2012-09-24 . Źródło 2015-02-27 .

[5] Okólnik OMB A-11, część 6 zarchiwizowana 22.04.2020 w Wayback Machine , przygotowanie, przedłożenie i wykonanie budżetu

[6] Gil Francopoulo (pod redakcją) LMF Lexical Markup Framework, ISTE / Wiley 2013 ( ISBN 978-1-84821-430-9 )