MARC-8

Zestaw znaków MARC-8 to standard MARC używany w rekordach bibliotecznych MARC-21 . Formaty MARC są standardami reprezentacji i przekazywania informacji bibliograficznych i pokrewnych w formie czytelnej maszynowo i są często używane w bibliotecznych systemach baz danych . Kodowanie znaków znane obecnie jako MARC-8 zostało wprowadzone w 1968 roku jako część formatu MARC. Pierwotnie oparty na alfabecie łacińskim , od 1979 do 1983 roku JACKPHY inicjatywa rozszerzyła repertuar o znaki japońskie, arabskie, chińskie i hebrajskie (między innymi), a później dodała cyrylicę i greckie pisma. Jeśli znak nie jest reprezentowalny w MARC-8 rekordu MARC-21, należy zamiast tego użyć UTF-8 . UTF-8 obsługuje znacznie więcej znaków niż MARC-8, który jest rzadko używany poza danymi biblioteki.

Szczegóły techniczne

MARC-8 wykorzystuje wariant kodowania ISO-2022 . Używa znaków ucieczki do reprezentowania znaków poza 7-bitowym zakresem znaków ASCII .

Zwykle używa tego samego logicznego porządku BiDi co Unicode .

Znaki łączące i znaki podstawowe są w innej kolejności niż w Unicode. Oto kilka przykładów. Łączące znaki nie zawsze są przechowywane w odwrotnej kolejności niż normalizacja Unicode . Standard MARC-21 opisuje bardziej szczegółowo kwestie konwersji MARC-8 Unicode.

Wystawiany

Postać

Unikod

NFD

MARC-8
A A A
A A A

Struktura kodu

Kodowanie ISO/IEC 2022 określa dwuwarstwowe odwzorowanie między kodami znaków a wyświetlanymi znakami. W MARC-8 kody znaków z 7-bitowego zakresu graficznego ASCII (0x20–0x7F) są określane jako kody „G0”, podczas gdy kody z zakresu „wysokiego ASCII” (0xA0–0xFF) są określane jako „G1 "kody. Zestawy znaków graficznych są wyznaczane i wywoływane za pomocą wielobajtowej sekwencji ucieczki składającej się ze znaku ucieczki, sekwencji znaków pośrednich i znaku końcowego w postaci ESC I F .

W poniższej tabeli przedstawiono bajt pośredni po bajcie ESC (szesnastkowo 1B) i odpowiadające mu znaki ASCII.

Bajty pośrednie
zestaw G0 zestaw G1
SBCS MBCS SBCS MBCS
Normalny ISO-2022 28 ( 24 $ 29 ) 24 29 $)
Alternatywny ISO-2022 (dodatkowe zestawy 63+16) 2C , 24 2C $, 2D - 24 2D $-

W poniższej tabeli przedstawiono końcowe bajty w systemie szesnastkowym i odpowiadające im znaki ASCII po bajtach pośrednich.

Ostatnie bajty
Bajty Postacie Nazwa Typ Komentarz
31 1 chiński, japoński, koreański ( EACC ) MBCS
32 2 Podstawowy hebrajski SBCS
33 3 Podstawowy arabski SBCS
34 4 Rozszerzony arabski SBCS
42 B Podstawowa łacina ( ASCII ) SBCS
21 45 !MI Rozszerzona łacina ( ANSEL ) SBCS 21(szesnastkowo) technicznie jest drugim bajtem segmentu pośredniego tej sekwencji specjalnej.
4E N Podstawowa cyrylica SBCS
51 Q Cyrylica rozszerzona SBCS
53 S Podstawowa greka SBCS

EACC jest jedynym wielobajtowym kodowaniem MARC-8, koduje każdy znak CJK w trzech bajtach ASCII.

Na przykład, aby zakodować znak U+4EBA CJK (人), potrzebne będą następujące bajty

\x1B\x24\x31\x21\x30\x64

\x1B\x24\x31 przełącza się na EACC/CJK, a \x21\x30\x64 odpowiada U+4EBA.

Niestandardowe rozszerzenie zestawu

Oprócz zestawów znaków ISO-2022 dostępne są również następujące zestawy niestandardowe. Oznaczenie bajtu następuje po bajcie ucieczki (szesnastkowo 1B). Nie ma bajtu pośredniego.

Ostatnie bajty
Bajty Postacie Nazwa Typ Komentarz
62 B Zestaw indeksów dolnych SBCS
67 G Zestaw symboli greckich SBCS Znaki alfa, beta, gamma zwykle nie są mapowane w obie strony do Unicode.
70 P Zestaw indeksów górnych SBCS
73 S Podstawowa łacina ( ASCII ) SBCS
  1. ^ „Zestawy znaków: wprowadzenie: specyfikacje MARC 21 dotyczące struktury rekordów, zestawów znaków i nośników wymiany (Biblioteka Kongresu)” . Biblioteka Kongresu .
  2. ^ „Zestawy znaków: środowisko kodowania MARC-8: specyfikacje MARC 21 dotyczące struktury rekordów, zestawów znaków i nośników wymiany (Biblioteka Kongresu)” . Biblioteka Kongresu .
  3. ^ „Zestawy znaków: środowisko kodowania MARC-8: specyfikacje MARC 21 dotyczące struktury rekordów, zestawów znaków i nośników wymiany (Biblioteka Kongresu)” . Biblioteka Kongresu .
  4. ^ „Zestawy znaków: środowisko kodowania MARC-8: specyfikacje MARC 21 dotyczące struktury rekordów, zestawów znaków i nośników wymiany (Biblioteka Kongresu)” . Biblioteka Kongresu .

Linki zewnętrzne