Dokument do odczytu maszynowego

Dokument do odczytu maszynowego to dokument , którego treść może być łatwo przetwarzana przez komputery . Takie dokumenty różnią się od bardziej ogólnych danych do odczytu maszynowego dzięki temu, że mają dodatkową strukturę zapewniającą niezbędny kontekst wspierający procesy biznesowe, dla których są tworzone.

Definicja

Dane bez kontekstu (użycie języka) są bez znaczenia i brakuje im czterech podstawowych cech godnej zaufania dokumentacji biznesowej określonych w ISO 15489 Informacje i dokumentacja -- Zarządzanie dokumentacją :

Niezawodność
Autentyczność
Uczciwość
Użyteczność

Zdecydowana większość informacji to dane nieustrukturyzowane , co z biznesowego punktu widzenia oznacza, że są one „niedojrzałe”, tj. na poziomie 1 (chaotycznym) modelu dojrzałości zdolności . Taka niedojrzałość sprzyja nieefektywności, obniża jakość i ogranicza efektywność. Informacje nieustrukturyzowane nie nadają się również do zarządzania dokumentacją , dostarczają niewystarczających dowodów do celów prawnych, podnoszą koszty wykrywania w sporach sądowych oraz sprawiają, że dostęp i korzystanie z nich są niepotrzebnie uciążliwe w rutynowych, bieżących procesach biznesowych .

Istnieją co najmniej cztery aspekty czytelności maszynowej:

Po pierwsze, słowa lub frazy powinny być dyskretnie wytyczone (oznaczone), tak aby można było zastosować do nich logikę oprogramowania komputerowego i/lub sprzętu jako indywidualne elementy pojęciowe.
Po drugie, należy określić semantykę każdego elementu, aby komputery mogły pomóc ludziom osiągnąć wspólne zrozumienie ich znaczeń i potencjalnych zastosowań.
Po trzecie, jeśli określone są również relacje między poszczególnymi elementami, komputery mogą automatycznie wyciągać z nich wnioski, tym samym jeszcze bardziej uwalniając istoty ludzkie od ciężaru prób ich zrozumienia, zwłaszcza w celu dociekania, odkrywania i analizowania.
Po czwarte, jeśli struktury dokumentów, w których występują elementy, są również określone, ludzkie zrozumienie jest jeszcze lepsze, a dane stają się bardziej wiarygodne dla celów prawnych i biznesowych.

Już w 1983 roku Biuro Odpowiedzialności Rządu Stanów Zjednoczonych (GAO) zaczęło podkreślać korzyści płynące z informacji odczytywanych maszynowo. Jeszcze wcześniej, w 1981 roku, GAO zaczęło informować o problemie nieodpowiednich praktyk w zakresie prowadzenia dokumentacji w rządzie federalnym USA . Takie braki nie są unikalne dla rządu, a postęp w technologii informacyjnej oznacza, że większość informacji jest obecnie „od urodzenia cyfrowa”, a tym samym potencjalnie łatwiejsza do zarządzania za pomocą zautomatyzowanych środków. Jednak w zeznaniach przed Kongresem w 2010 r. GAO zwróciło uwagę na problemy z zarządzaniem dokumentacją elektroniczną, a jeszcze w 2015 r. GAO nadal zgłaszało nieprawidłowości w działaniu agencji władzy wykonawczej w zakresie spełniania wymagań dotyczących zarządzania dokumentacją. Co więcej, ponad dwie dekady po tym, jak duża i niegdyś bardzo szanowana firma audytorska, Arthur Andersen , spotkał się z upadkiem z powodu skandalu związanego z niszczeniem rekordów, praktyki prowadzenia dokumentacji stały się głównym tematem wyborów prezydenckich w 2016 roku.

W dniu 4 stycznia 2011 r. Prezydent Obama podpisał HR 2142, ustawę o modernizacji rządowej ustawy o wynikach i wynikach (GPRA) z 2010 r. (GPRAMA), jako PL 111-352. Sekcja 10 GPRAMA wymaga, aby agencje federalne USA publikowały swoje plany strategiczne i dotyczące wyników oraz raporty w formacie możliwym do przeszukiwania i do odczytu maszynowego. Ponadto w 2013 r. wydał rozporządzenie wykonawcze nr 13642, ustanawiające ogólnie nowe zasady otwierania i odczytu maszynowego dla informacji rządowych. W dniu 28 lipca 2016 r. Biuro Zarządzania i Budżetu (OMB), a następnie włączenie do zmienionego wydania okólnika A-130 wskazówek, aby agencje korzystały z otwartych formatów do odczytu maszynowego i publikowały „informacje publiczne w Internecie w sposób, który promuje analizę i ponowne wykorzystanie w jak najszerszym zakresie celów ", co oznacza, że informacje są zarówno publicznie dostępne, jak i nadające się do odczytu maszynowego. 14 stycznia 2019 r. prezydent Trump podpisał ustawę HR 4174, ustawę OPEN Government Data Act (OGDA), która kodyfikuje prawnie wymóg udostępniania przez agencje swoich publicznych zasobów danych w formacie nadającym się do odczytu maszynowego. W dniu 28 czerwca 2019 r. w okólniku A-11 OMB wyraziło zamiar rozpoczęcia przestrzegania sekcji 10 GPRAMA.

Wspierając taki kierunek polityki, postęp technologiczny umożliwia wydajniejsze i skuteczniejsze zarządzanie zapisami elektronicznymi nadającymi się do odczytu maszynowego oraz korzystanie z nich. Bazy danych zorientowane na dokumenty zostały opracowane do przechowywania, wyszukiwania i zarządzania informacjami zorientowanymi na dokumenty, znanymi również jako dane częściowo ustrukturyzowane. Extensible Markup Language ( XML ) to rekomendacja konsorcjum World Wide Web Consortium ( W3C ) określająca zasady kodowania dokumentów w formacie czytelnym zarówno dla człowieka, jak i dla maszyny. Wiele edytorów XML narzędzia zostały opracowane, a większość, jeśli nie wszystkie główne aplikacje informatyczne obsługują XML w mniejszym lub większym stopniu. Fakt, że XML sam w sobie jest otwartym, standardowym formatem do odczytu maszynowego, sprawia, że programiści aplikacji stosunkowo łatwo to robią.

W3C dotyczące schematu XML ( XSD ) określa, jak formalnie opisać elementy w dokumencie XML. Jeśli chodzi o specyfikację schematów XML, organizacja for the Advancement of Structured Information Standards (OASIS) jest wiodącą organizacją opracowującą standardy . Jednak wielu programistów technicznych woli pracować z JSON i zdefiniować strukturę danych JSON do sprawdzania poprawności, dokumentacji i kontroli interakcji, JSON Schema został opracowany przez Internet Engineering Task Force (IETF).

Portable Document Format (PDF) to format plików używany do prezentowania dokumentów w sposób niezależny od aplikacji, sprzętu i systemów operacyjnych. Każdy plik PDF zawiera pełny opis prezentacji dokumentu, w tym tekst, czcionki, grafikę i inne informacje potrzebne do jego wyświetlenia. PDF/A to znormalizowana przez ISO wersja pliku PDF, przeznaczona do archiwizacji i długoterminowego przechowywania dokumentów elektronicznych. PDF/A-3 umożliwia osadzanie innych formatów plików, w tym XML , w formacie PDF/A zgodnych dokumentów, potencjalnie zapewniając w ten sposób najlepszą czytelność zarówno dla człowieka, jak i dla maszyny. Język znaczników XSL-FO (XSL Formatting Objects) W3C jest powszechnie używany do generowania plików PDF

Metadane , dane o danych, mogą być wykorzystywane do organizowania zasobów elektronicznych, zapewniania identyfikacji cyfrowej oraz wspierania archiwizacji i ochrony zasobów. W dobrze ustrukturyzowanych, odczytywalnych maszynowo zapisach elektronicznych zawartość można wykorzystać zarówno jako dane, jak i metadane. W kontekście elektronicznych systemów ewidencji terminy „zarządzanie” i „metadane” są praktycznie synonimami. Dysponując odpowiednimi metadanymi, funkcje zarządzania aktami można zautomatyzować, zmniejszając w ten sposób ryzyko kradzieży dowodów i inne oszukańcze manipulacje zapisami. Ponadto takie zapisy mogą służyć do automatyzacji procesu audytu danych przechowywanych w bazach danych , zmniejszając w ten sposób ryzyko wystąpienia pojedynczych punktów awarii związanych z makiaweliczną koncepcją jednego źródła prawdy .

Blockchain (baza danych) to nowa technologia do utrzymywania stale rosnących list rekordów zabezpieczonych przed manipulacją i rewizją. Kluczową cechą jest to, że każdy węzeł w systemie zdecentralizowanym ma kopię łańcucha bloków, więc nie ma pojedynczego punktu awarii , który byłby podatny na manipulacje i oszustwa .

Zobacz też

Deklaracja Budapeszteńska w sprawie dokumentów podróży do odczytu maszynowego
Porównanie edytorów XML
Cztery rogi (prawo)
Integralność , aw szczególności integralność danych
Połączone dane
Paszport do odczytu maszynowego
Język znaczników
Otwórz dane
Niezawodność (statystyka) , Integralność danych , Niezawodność (sieci komputerowe) i Niezawodność (metody badawcze)
Strategiczny język znaczników (StratML)
Ustrukturyzowany dokument
Tag (metadane)
Uniwersalny język biznesowy (UBL)
XBRL (eXtensible Business Reporting Language)

Linki zewnętrzne

OMB M-13-13 , Polityka otwartych danych: zarządzanie informacjami jako zasobem, która wymaga od agencji stosowania otwartych, czytelnych maszynowo standardów formatu danych
NARA Guidance on Managing Web Records , styczeń 2005, który przedstawia charakterystykę wiarygodnych rejestrów.
Wbijanie kołka w serce firmy Capone Consultancy Metoda zarządzania dokumentacją: najlepsze praktyki korygowania niezwiązanych z rejestracją nonsensów niezwiązanych z polityką , 9 marca 2015 r.
Kodeks Stanów Zjednoczonych, który zawiera termin „do odczytu maszynowego” ponad 50 razy na dzień 10 września 2016 r.