Binarna uporządkowana kompresja dla Unicode

Binary Ordered Compression for Unicode ( BOCU ) to schemat kompresji Unicode zgodny z MIME . BOCU-1 łączy szerokie zastosowanie UTF-8 ze zwartością standardowego schematu kompresji dla Unicode (SCSU). To kodowanie Unicode jest przeznaczone do kompresji krótkich ciągów i zachowuje kolejność punktów kodowych. BOCU-1 jest określony w nocie technicznej Unicode.

Dla porównania SCSU przyjęto jako standardowy schemat kompresji Unicode ze stosunkiem bajtów do punktów kodowych podobnym do stron kodowych specyficznych dla języka . SCSU nie został powszechnie przyjęty, ponieważ nie nadaje się do „tekstowych” typów mediów MIME. Na przykład SCSU nie można używać bezpośrednio w wiadomościach e-mail i podobnych protokołach. SCSU wymaga skomplikowanej konstrukcji enkodera dla dobrej wydajności. Zazwyczaj algorytmy zip , bzip2 i inne standardowe algorytmy branżowe skuteczniej kompaktują większe ilości tekstu Unicode.

Zarówno SCSU, jak i BOCU-1 są zestawami znaków zarejestrowanymi przez IANA .

Detale

Wszystkie liczby w tej sekcji są szesnastkowe , a wszystkie zakresy są włącznie.

Punkty kodowe od U+0000 do U+0020 są kodowane w BOCU-1 jako odpowiednia wartość bajtu. Wszystkie inne punkty kodowe (tj. U+0021 do U+D7FF i U+E000 do U+10FFFF ) są kodowane jako różnica między punktem kodowym a znormalizowaną wersją ostatnio zakodowanego punktu kodowego, który nie był spacją ASCII ( U+0020 ). Stan początkowy to U+0040 . Mapowanie normalizacji wygląda następująco:

Zakres kodu	Znormalizowany punkt kodowy	Notatki
`U+3040` do `U+309F`	`U+3070`	Hiragana
`U+4E00` do `U+9FA5`	`U+7711`	Unihan
`U+AC00` do `U+D7A3`	`U+C1D1`	Hangul
`U+0020`	stan enkodera zachowany bez zmian	Przestrzeń
`U+ hhhh 00` do `U+ hhhh 7F` (z wyłączeniem zakresów powyżej)	`U+hhhh40`	środek 128
`U+ hhhh 80` do `U+ hhhh FF` (z wyłączeniem zakresów powyżej)	`U+ hhhh C0`	środek 128

Różnica między bieżącym punktem kodowym a znormalizowanym poprzednim punktem kodowym jest kodowana w następujący sposób:

Zakres różnicy	Zakres sekwencji bajtów (patrz poniżej)
`-10FF9F` do `-2DD0D`	`21` `F0` `58` `D9` do `21` `FF` `FF` `FF`
`-2DD0C` do `-2912`	`22` `01` `01` do `24` `FF` `FF`
`-2911` do `-41`	`25` `01` do `4F` `FF`
`-40` do `3F`	`50` do `CF`
`40` do `2910`	`D0` `01` do `FA` `FF`
`2911` do `2DD0B`	`FB` `01` `01` do `FD` `FF` `FF`
`2DD0C` do `10FFBF`	`FE` `01` `01` `01` do `FE` `19` `B4` `54`

Każdy zakres bajtów jest uporządkowany leksykograficznie z wykluczeniem następujących trzynastu bajtów: 00 07 08 09 0A 0B 0C 0D 0E 0F 1A 1B 20 . Na przykład, po sekwencji bajtów FC 06 FF , kodującej różnicę 1156B , następuje bezpośrednio po sekwencji bajtów FC 10 01 , kodującej różnicę 1156C .

Każde wejście ASCII od U+0000 do U+007F z wyłączeniem spacji U+0020 resetuje koder do U+0040 . Ponieważ powyższe wartości obejmują punkty kodowe końca linii U+000D i U+000A w obecnej postaci ( 0D 0A ), koder jest w znanym stanie na początku każdej linii. Uszkodzenie pojedynczego bajtu wpływa zatem co najwyżej na jedną linię. Dla porównania, uszkodzenie pojedynczego bajtu w UTF-8 dotyczy co najwyżej jednego punktu kodowego, w przypadku SCSU może dotyczyć całego dokumentu.

BOCU-1 oferuje podobną solidność również dla tekstów wejściowych bez wyżej wymienionych wartości ze specjalnym kodem resetowania 0xFF . Kiedy dekoder znajdzie ten oktet, resetuje swój stan do U+0040 jak dla końca linii. Użycie 0xFF nie jest zalecane w specyfikacji BOCU-1, ponieważ jest to sprzeczne z innymi celami projektowymi BOCU-1, zwłaszcza z porządkiem binarnym .

Opcjonalne użycie podpisu U+FEFF na początku tekstów zakodowanych w BOCU-1, tj. sekwencji bajtów BOCU-1 FB EE 28 , zmienia stan początkowy U+0040 na U+FEC0 . Innymi słowy, podpisu nie można po prostu usunąć, jak w większości innych schematów kodowania Unicode. Dodanie bajtu resetowania po podpisie ( FB EE 28 FF ) mogłoby uniknąć tego efektu, ale specyfikacja BOCU-1 nie zaleca tej praktyki.

Teoretycznie UTF-1 i UTF-8 mogą kodować oryginalny zestaw UCS-4 z 31 bitami do 7FFFFFFF . BOCU-1 i UTF-16 mogą kodować nowoczesny zestaw Unicode od U+0000 do U+10FFFF . $.$ trzynaście chronionych punktów -1 może używać oktetów w wielobajtowym BOCU-1 potrzebuje co najwyżej czterech bajtów składających się z bajtu wiodącego i jednego do trzech bajtów końcowych. Bajty śladu kodują pozostałą różnicę „ moduł 243” (podstawa 243), bajt wiodący określa liczbę bajtów śladu i początkową różnicę. Należy zauważyć, że bajt resetowania 0xFF nie jest chroniony i może występować jako bajt końcowy.

Patent

Przed 16 listopada 2022 r. ogólny algorytm BOCU był objęty patentem Stanów Zjednoczonych nr 6 737 994, w którym wspomniano również o konkretnej implementacji BOCU-1. Ten patent już wygasł.

IBM , który zatrudniał obu wynalazców BOCU-1 w momencie jego tworzenia, stwierdził w nocie technicznej Unicode, że osoby wdrażające „w pełni zgodną wersję BOCU-1” musiały skontaktować się z IBM w celu uzyskania bezpłatnej licencji. BOCU-1 to jedyny schemat kompresji Unicode opisany w witrynie internetowej Unicode, o którym wiadomo, że jest obciążony ograniczeniami dotyczącymi własności intelektualnej .

Z kolei IBM złożył również wniosek o patent na UTF-EBCDIC , ale w tym przypadku zdecydował się udostępnić dokumentację i schemat kodowania „nieodpłatnie każdemu zainteresowanemu uczynieniem formatu transformacji jako części standardów UCS”, zamiast wymagać od wdrożeniowców poprosić o licencję.

Zobacz też

UTF-1 zawiera porównanie projektów UTF-1, UTF-8 i BOCU-1
International Components for Unicode Biblioteka, która może konwertować między BOCU-1 i innymi kodowaniami Unicode

Kodowanie znaków
Wczesna telekomunikacja	Kod telegraficzny Igła Morse'a Niełaciński Wabun/Kana chiński cyrylica koreański Baudota i Murraya Fieldata ASCII ISO/IEC 646 BCDIC Teleteks i Wideoteks / Teletekst T.51/ISO/IEC 6937 ITU T.61 ITU T.101 Telegazeta systemu światowego tło zestawy Transkoduj
ISO/IEC8859	Zatwierdzone części -1 (Europa Zachodnia) -2 (Europa Środkowa) -3 (maltański/esperanto) -4 (Europa Północna) -5 (cyrylica) -6 (arabski) -7 (grecki) -8 (hebr.) -9 (turecki) -10 (nordycki) -11 (tajski) -13 (Bałtyk) -14 (celtycki) -15 (Nowa Europa Zachodnia) -16 (rumuński) Opuszczone części -12 (Dewanagari) Zaproponowano, ale nie zatwierdzono KOI-8 Cyrylica Samowie Adaptacje walijski Cyrylica Barentsa estoński cyrylica ukraińska
Wykorzystanie bibliograficzne	MARC-8 ANSELA CCCII/EACC ISO 5426 5426-2 5427 5428 6438 6862
Normy krajowe	ArmSCII Biustonosz SCII OUN 11643 DIN 66003 ELOT 927 GOST 10859 GB 2312 GB 12345 GB 12052 GB 18030 HKSCS ISCII JIS X 0201 JIS X 0208 JIS X 0212 JIS X 0213 KOI-7 KPS 9566 KSX1001 KSX1002 LST 1564 LST 1590-4 PASCII Zmień JIS SI 960 TIS-620 TSCII VISCII VSCII YUSCII
ISO/IEC 2022	ISO/IEC8859 ISO/IEC 10367 Rozszerzony kod Unix / EUC
Strony kodowe systemu Mac OS („skrypty”)	ormiański arabski Cyrylica Barentsa celtycki środkowoeuropejski chorwacki cyrylica Dewanagari perski (perski) Czcionka X (Kermit) celtycki gruziński grecki gudżarati Gurmukhi hebrajski Islandia Eskimosów Klawiatura łacina (Kermit) maltański/esperanto Ogham rzymski rumuński Samowie turecki Cyrylica turecka ukraiński VT100
strony kodowe DOS	437 668 708 720 737 770 773 775 776 777 778 850 851 852 853 855 856 857 858 859 860 861 862 863 864 865 866 867 868 869 897 899 903 904 932 936 942 949 950 951 1040 1042 1043 1046 1098 1115 1116 1117 1118 1127 3846 ABIKOMP CS Ind CSX Ind CSX+ Ind CWI-2 systemu irańskiego Kamenickiego Mazowsze MIK
Strony kodowe IBM AIX	895 896 912 915 921 922 1006 1008 1009 1010 1012 1013 1014 1015 1016 1017 1018 1019 1124 1133
Strony kodowe systemu Windows	CER-GS 932 936 ( GBK ) 950 1169 Rozszerzona łacina-8 1250 1251 1252 1253 1254 1255 1256 1257 1258 1270 cyrylica + fiński cyrylica + francuski cyrylica + niemiecki greka politoniczna
strony kodowe EBCDIC	37 Język japoński w EBCDIC DKOI
DEC ( VTx )	Wielonarodowy (MCS) Wymiana krajowa (NRCS) Francuski Kanadyjczyk szwajcarski hiszpański Zjednoczone Królestwo Holenderski fiński Francuski norweski i duński szwedzki norweski i duński (alternatywa) 8-bitowy grecki 8-bitowy turecki SI 960 hebrajski Specjalna grafika techniczne (TCS)
Specyficzne dla platformy	1057 Żołądź standard Adobe Adobe łacina 1 CPC Amstrada Jabłko II ATASCII Atari ST BICS Kalkulatory Casio CDC Compucolor II PK/M+ DEC RADIX 50 DEC MCS / NRC Dyrekcja Generalna ds. Międzynarodowych Fieldata KLEJNOT GSM 03.38 HP Roman HP FOCAL HP RPL ŚCIŚNIJ LIC LMBCS MSX NEC APC Następny PETSCII Segę SC-3000 Ostre kalkulatory Ostry MZ Sinclair QL Symbol Teletekst Kalkulatory TI TRS-80 Ventura International WISCII XCCS ZX80 ZX81 ZX Spectrum
Unicode / ISO/IEC 10646	UTF-1 UTF-7 UTF-8 UTF-16 UTF-32 UTF-EBCDIC GB 18030 BOCU-1 CESU-8 SCSU TACE16 Porównanie kodowań Unicode
System składu TeX	Korek LY1 OML OMS OT1
Różne strony kodowe	ABIKOMP ASMO 449 Duży5 Cyfrowe kodowanie symboli APL ISO-IR-68 ARIB STD-B24 HZ IEC-P27-1 INIS 7-bitowy 8 bitowy ISO-IR-169 ISO 2033 KOI KOI8-R KOI8-RU KOI8-U Mojikyo SEASCII Stanforda/ITS TRON Ujednolicony kod Hangul
Postać kontrolna	Prosygnaty Morse'a Kody kontrolne C0 i C1 ISO/IEC 6429 JIS X 0211 Znaki kontrolne, formatujące i separatory Unicode Białe znaki
powiązane tematy	CCSID Kodowanie znaków w HTML Wykrywanie zestawu znaków Zjednoczenie Hanów Strona kodowa sprzętu Kod MICR Mojibake Kodowanie o zmiennej długości
Zestawy znaków