Strona kodowa 950

Strona kodowa 950
Code-page-950.svg
Układ strony kodowej 950 zaimplementowany przez Microsoft (na górze, MS-950 lub IBM-1373) i IBM (na dole, IBM-950).
Języki) Tradycyjne chińskie
Stworzone przez Microsoftu
rozciąga się Duży5
Oparte na Big5-ETen

Strona kodowa 950 to strona kodowa używana w systemie Microsoft Windows dla języka chińskiego tradycyjnego . Jest to implementacja de facto standardowego kodowania znaków Big5 firmy Microsoft . Strona kodowa nie jest zarejestrowana w IANA , a zatem nie jest standardem przekazywania informacji przez Internet, chociaż zwykle jest oznaczana po prostu jako big5 , w tym przez funkcje biblioteczne firmy Microsoft.

Terminologia i warianty

Główną różnicą między stroną kodową Windows 950 a „pospolitą” (niespecyficzną dla dostawcy) Big5 jest włączenie podzbioru rozszerzeń ETEN do Big5 w 0x F9D6 do 0xF9FE (składającego się z siedmiu chińskich znaków 碁, 銹, 裏, 墻, 恒, 粧 i 嫺, po których następują 34 znaki rysunkowe i elementy blokowe ). Zakresy używane przez niektóre inne rozszerzone znaki ETEN są zamiast tego definiowane jako znaki zdefiniowane przez użytkownika końcowego (do użytku prywatnego) .

Identyfikator CCSID 950 firmy IBM zawiera jednobajtową stronę kodową 1114 (CCSID 1114) i dwubajtową stronę kodową 947 (CCSID 947), i chociaż jest to również wariant Big5, różni się nieco od strony kodowej 950 firmy Microsoft, zawierając niektóre rozszerzenia ETEN dla wiodących bajtów 0xA3, 0xC6, 0xC7 i 0xC8, pomijając te z bajtem wiodącym 0xF9 (który zawiera Microsoft), mapując je zamiast tego do obszaru użytku prywatnego jako znaki zdefiniowane przez użytkownika. Zawiera również dwa regiony rozszerzeń innych niż ETEN z bajtami śledzącymi 0x81–A0, tj. poza zwykłym zakresem bajtów śledzących Big5, ale podobnie do zakresu bajtów śledzących Big5+: obszar 5 ma bajty wiodące 0xF2–F9 i zawiera znaki wybrane przez IBM, podczas gdy obszar 9 ma bajty wiodące 0x81–8C i jest regionem zdefiniowanym przez użytkownika.

Microsoft zaktualizował swoją wersję strony kodowej 950 w 2000 roku, dodając znak euro (€) w dwubajtowym kodzie 0xA3E1. IBM odnosi się do aktualizacji znaku euro swojego wariantu Big-5 jako CCSID 1370 (który obejmuje zarówno jednobajtowe (0x80), jak i dwubajtowe znaki euro). Zawiera jednobajtową stronę kodową 1114 (CCSID 5210) i dwubajtową stronę kodową 947 (CCSID 21427).

Aby uzyskać lepszą kompatybilność z wariantem Microsoft w IBM Db2 , IBM zdefiniował również czysto dwubajtową stronę kodową 1372 i powiązany identyfikator CCSID 1373 o zmiennej szerokości , który zawiera tylko dwubajtowy znak euro i odpowiada zachowaniu firmy Microsoft, w którym uwzględnione są regiony rozszerzeń.

Kody jednobajtowe

Poniżej przedstawiono jednobajtowe znaki graficzne dołączone przez IBM. Kody 0x00, chociaż 0x1F i 0x7F mogą być zamiast tego używane jako kody kontrolne C0 , w zależności od kontekstu (porównaj stronę kodową 437 , stronę kodową 897 ). Jak wspomniano powyżej, jednobajtowy znak euro w 0x80 nie jest uwzględniany w identyfikatorach CCSID IBM 950 lub 1373 ani przez firmę Microsoft.

Strona kodowa 1114
0 1 2 3 4 5 6 7 8 9 A B C D mi F
0x
1x §
2x  Sp  ! " # $ % & ' ( ) * + , - . /
3x 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
4x @ A B C D mi F G H I J k Ł M N O
5x P Q R S T u V W X Y Z [ \ ] ^ _
6x ` A B C D mi F G H I J k l M N o
7x P Q R S T u w w X y z { | } ~
8x

Reszta to części dwubajtowej sekwencji.

Korzystanie z obszaru użytku prywatnego

Mapowanie z Big5 EUDC na punkty kodowe PUA
Zakres big5 Zakres Unicode Formuła
81 40–8D Wf U+EEB8–U+F6B0 0xeeb8 + (157 * (H-0x81)) + (L<0x80)?(L-0x40):(L-0x62)
8E 40-A0 FE U+E311–U+EEB7 0xe311 + (157 * (H-0x8e)) + (L<0x80)?(L-0x40):(L-0x62)
C6 A1–C8 FE U+F6B1–U+F848 0xf672 + (157 * (H-0xc6)) + (L<0x80)?(L-0x40):(L-0x62)
FA 40–FE FE U+E000–U+E310 0xe000 + (157 * (H-0xfa)) + (L<0x80)?(L-0x40):(L-0x62)

To mapowanie jest również używane w HKSCS , gdzie dany glif nie został jeszcze znaleziony w określonej wersji Unicode.

Zobacz też

  1. ^ „Zestawy znaków” . IANA — Rejestry protokołów .
  2. ^ „Właściwość Encoding.WindowsCodePage — .NET Framework (bieżąca wersja)” . MSDN . Microsoftu.
  3. ^ a b c d Zhu, HF .; Hu, DY.; Wang, ZG.; Kao, TC.; Chang, WCH.; Crispin, M. (1996). „Kodowanie chińskich znaków w wiadomościach internetowych” . Prośby o komentarze . IETF . doi : 10.17487/rfc1922 . RFC1922.
  4. ^ „Dokument informacyjny CCSID 950” . Zarchiwizowane od oryginału w dniu 2014-12-02.
  5. ^ „Dokument informacyjny CCSID 1114” . Zarchiwizowane od oryginału w dniu 2016-03-27.
  6. ^ „Dokument informacyjny CCSID 947” . Zarchiwizowane od oryginału w dniu 2014-12-01.
  7. ^ „Bajt wiodący A3: ibm-950_P110-1999” . Demonstracja ICU — Eksplorator konwerterów . Międzynarodowe komponenty dla Unicode .
  8. ^ „Bajt wiodący C6: ibm-950_P110-1999” . Demonstracja ICU — Eksplorator konwerterów . Międzynarodowe komponenty dla Unicode .
  9. ^ „Bajt wiodący C7: ibm-950_P110-1999” . Demonstracja ICU — Eksplorator konwerterów . Międzynarodowe komponenty dla Unicode .
  10. ^ „Bajt wiodący C8: ibm-950_P110-1999” . Demonstracja ICU — Eksplorator konwerterów . Międzynarodowe komponenty dla Unicode .
  11. ^ „Bajt wiodący F9: ibm-950_P110-1999” . Demonstracja ICU — Eksplorator konwerterów . Międzynarodowe komponenty dla Unicode .
  12. ^ „Zestaw znaków graficznych IBM tradycyjnego chińskiego dla kodu IBM BIG-5” (PDF) . IBM . 1999. CH 3-3220-131 1999-04.
  13. ^ a b „Dokument informacyjny CCSID 1370” . Zarchiwizowane od oryginału w dniu 2016-03-27.
  14. ^ „Dokument informacyjny CCSID 5210” . Zarchiwizowane od oryginału w dniu 2014-11-29.
  15. ^ „Dokument informacyjny CCSID 21427” . Zarchiwizowane od oryginału w dniu 2016-03-27.
  16. ^ „CPGID 01372: MS T-Chinese Big-5 (specjalne dla DB2)” . Globalizacja IBM — identyfikatory stron kodowych . Zarchiwizowane od oryginału w dniu 2016-03-17.
  17. Bibliografia _ _ Demonstracja ICU — Eksplorator konwerterów . Międzynarodowe komponenty dla Unicode .
  18. ^ „Bajt wiodący A3: ibm-1373_P100-2002” . Demonstracja ICU — Eksplorator konwerterów . Międzynarodowe komponenty dla Unicode .
  19. ^ „Bajt wiodący C6: ibm-1373_P100-2002” . Demonstracja ICU — Eksplorator konwerterów . Międzynarodowe komponenty dla Unicode .
  20. ^ „Bajt wiodący C7: ibm-1373_P100-2002” . Demonstracja ICU — Eksplorator konwerterów . Międzynarodowe komponenty dla Unicode .
  21. ^ „Bajt wiodący C8: ibm-1373_P100-2002” . Demonstracja ICU — Eksplorator konwerterów . Międzynarodowe komponenty dla Unicode .
  22. ^ „Bajt wiodący F9: ibm-1373_P100-2002” . Demonstracja ICU — Eksplorator konwerterów . Międzynarodowe komponenty dla Unicode .
  23. ^ Strona kodowa CPGID 01114 (pdf) (PDF) , IBM
  24. ^ Strona kodowa CPGID 01114 (txt) , IBM
  25. ^ „Wykres najlepszego dopasowania systemu Windows: CP950” . unicode.org . Źródło 13 września 2016 r .
  26. Bibliografia _ _ Baza danych Kanji . Źródło 13 września 2016 r .
  27. Bibliografia _ _ Zarchiwizowane od oryginału w dniu 13.09.2016 r.

Linki zewnętrzne