MARC-8
Zestaw znaków MARC-8 to standard MARC używany w rekordach bibliotecznych MARC-21 . Formaty MARC są standardami reprezentacji i przekazywania informacji bibliograficznych i pokrewnych w formie czytelnej maszynowo i są często używane w bibliotecznych systemach baz danych . Kodowanie znaków znane obecnie jako MARC-8 zostało wprowadzone w 1968 roku jako część formatu MARC. Pierwotnie oparty na alfabecie łacińskim , od 1979 do 1983 roku JACKPHY inicjatywa rozszerzyła repertuar o znaki japońskie, arabskie, chińskie i hebrajskie (między innymi), a później dodała cyrylicę i greckie pisma. Jeśli znak nie jest reprezentowalny w MARC-8 rekordu MARC-21, należy zamiast tego użyć UTF-8 . UTF-8 obsługuje znacznie więcej znaków niż MARC-8, który jest rzadko używany poza danymi biblioteki.
Szczegóły techniczne
MARC-8 wykorzystuje wariant kodowania ISO-2022 . Używa znaków ucieczki do reprezentowania znaków poza 7-bitowym zakresem znaków ASCII .
Zwykle używa tego samego logicznego porządku BiDi co Unicode .
Znaki łączące i znaki podstawowe są w innej kolejności niż w Unicode. Oto kilka przykładów. Łączące znaki nie zawsze są przechowywane w odwrotnej kolejności niż normalizacja Unicode . Standard MARC-21 opisuje bardziej szczegółowo kwestie konwersji MARC-8 Unicode.
Wystawiany Postać |
Unikod | MARC-8 |
---|---|---|
A | A | A |
A | A | A |
Struktura kodu
Kodowanie ISO/IEC 2022 określa dwuwarstwowe odwzorowanie między kodami znaków a wyświetlanymi znakami. W MARC-8 kody znaków z 7-bitowego zakresu graficznego ASCII (0x20–0x7F) są określane jako kody „G0”, podczas gdy kody z zakresu „wysokiego ASCII” (0xA0–0xFF) są określane jako „G1 "kody. Zestawy znaków graficznych są wyznaczane i wywoływane za pomocą wielobajtowej sekwencji ucieczki składającej się ze znaku ucieczki, sekwencji znaków pośrednich i znaku końcowego w postaci ESC I F .
W poniższej tabeli przedstawiono bajt pośredni po bajcie ESC (szesnastkowo 1B) i odpowiadające mu znaki ASCII.
zestaw G0 | zestaw G1 | |||||||
---|---|---|---|---|---|---|---|---|
SBCS | MBCS | SBCS | MBCS | |||||
Normalny ISO-2022 | 28 | ( | 24 | $ | 29 | ) | 24 29 | $) |
Alternatywny ISO-2022 (dodatkowe zestawy 63+16) | 2C | , | 24 2C | $, | 2D | - | 24 2D | $- |
W poniższej tabeli przedstawiono końcowe bajty w systemie szesnastkowym i odpowiadające im znaki ASCII po bajtach pośrednich.
Bajty | Postacie | Nazwa | Typ | Komentarz |
---|---|---|---|---|
31 | 1 | chiński, japoński, koreański ( EACC ) | MBCS | |
32 | 2 | Podstawowy hebrajski | SBCS | |
33 | 3 | Podstawowy arabski | SBCS | |
34 | 4 | Rozszerzony arabski | SBCS | |
42 | B | Podstawowa łacina ( ASCII ) | SBCS | |
21 45 | !MI | Rozszerzona łacina ( ANSEL ) | SBCS | 21(szesnastkowo) technicznie jest drugim bajtem segmentu pośredniego tej sekwencji specjalnej. |
4E | N | Podstawowa cyrylica | SBCS | |
51 | Q | Cyrylica rozszerzona | SBCS | |
53 | S | Podstawowa greka | SBCS |
EACC jest jedynym wielobajtowym kodowaniem MARC-8, koduje każdy znak CJK w trzech bajtach ASCII.
Na przykład, aby zakodować znak U+4EBA CJK (人), potrzebne będą następujące bajty
\x1B\x24\x31\x21\x30\x64
\x1B\x24\x31 przełącza się na EACC/CJK, a \x21\x30\x64 odpowiada U+4EBA.
Niestandardowe rozszerzenie zestawu
Oprócz zestawów znaków ISO-2022 dostępne są również następujące zestawy niestandardowe. Oznaczenie bajtu następuje po bajcie ucieczki (szesnastkowo 1B). Nie ma bajtu pośredniego.
Bajty | Postacie | Nazwa | Typ | Komentarz |
---|---|---|---|---|
62 | B | Zestaw indeksów dolnych | SBCS | |
67 | G | Zestaw symboli greckich | SBCS | Znaki alfa, beta, gamma zwykle nie są mapowane w obie strony do Unicode. |
70 | P | Zestaw indeksów górnych | SBCS | |
73 | S | Podstawowa łacina ( ASCII ) | SBCS |
- ^ „Zestawy znaków: wprowadzenie: specyfikacje MARC 21 dotyczące struktury rekordów, zestawów znaków i nośników wymiany (Biblioteka Kongresu)” . Biblioteka Kongresu .
- ^ „Zestawy znaków: środowisko kodowania MARC-8: specyfikacje MARC 21 dotyczące struktury rekordów, zestawów znaków i nośników wymiany (Biblioteka Kongresu)” . Biblioteka Kongresu .
- ^ „Zestawy znaków: środowisko kodowania MARC-8: specyfikacje MARC 21 dotyczące struktury rekordów, zestawów znaków i nośników wymiany (Biblioteka Kongresu)” . Biblioteka Kongresu .
- ^ „Zestawy znaków: środowisko kodowania MARC-8: specyfikacje MARC 21 dotyczące struktury rekordów, zestawów znaków i nośników wymiany (Biblioteka Kongresu)” . Biblioteka Kongresu .
Linki zewnętrzne
- Specyfikacje MARC 21 dotyczące struktury rekordów, zestawów znaków i nośników wymiany — oficjalny standard MARC-8 utrzymywany przez Bibliotekę Kongresu Stanów Zjednoczonych