Strona kodowa 950
Języki) | Tradycyjne chińskie |
---|---|
Stworzone przez | Microsoftu |
rozciąga się | Duży5 |
Oparte na | Big5-ETen |
Strona kodowa 950 to strona kodowa używana w systemie Microsoft Windows dla języka chińskiego tradycyjnego . Jest to implementacja de facto standardowego kodowania znaków Big5 firmy Microsoft . Strona kodowa nie jest zarejestrowana w IANA , a zatem nie jest standardem przekazywania informacji przez Internet, chociaż zwykle jest oznaczana po prostu jako big5
, w tym przez funkcje biblioteczne firmy Microsoft.
Terminologia i warianty
Główną różnicą między stroną kodową Windows 950 a „pospolitą” (niespecyficzną dla dostawcy) Big5 jest włączenie podzbioru rozszerzeń ETEN do Big5 w 0x F9D6 do 0xF9FE (składającego się z siedmiu chińskich znaków 碁, 銹, 裏, 墻, 恒, 粧 i 嫺, po których następują 34 znaki rysunkowe i elementy blokowe ). Zakresy używane przez niektóre inne rozszerzone znaki ETEN są zamiast tego definiowane jako znaki zdefiniowane przez użytkownika końcowego (do użytku prywatnego) .
Identyfikator CCSID 950 firmy IBM zawiera jednobajtową stronę kodową 1114 (CCSID 1114) i dwubajtową stronę kodową 947 (CCSID 947), i chociaż jest to również wariant Big5, różni się nieco od strony kodowej 950 firmy Microsoft, zawierając niektóre rozszerzenia ETEN dla wiodących bajtów 0xA3, 0xC6, 0xC7 i 0xC8, pomijając te z bajtem wiodącym 0xF9 (który zawiera Microsoft), mapując je zamiast tego do obszaru użytku prywatnego jako znaki zdefiniowane przez użytkownika. Zawiera również dwa regiony rozszerzeń innych niż ETEN z bajtami śledzącymi 0x81–A0, tj. poza zwykłym zakresem bajtów śledzących Big5, ale podobnie do zakresu bajtów śledzących Big5+: obszar 5 ma bajty wiodące 0xF2–F9 i zawiera znaki wybrane przez IBM, podczas gdy obszar 9 ma bajty wiodące 0x81–8C i jest regionem zdefiniowanym przez użytkownika.
Microsoft zaktualizował swoją wersję strony kodowej 950 w 2000 roku, dodając znak euro (€) w dwubajtowym kodzie 0xA3E1. IBM odnosi się do aktualizacji znaku euro swojego wariantu Big-5 jako CCSID 1370 (który obejmuje zarówno jednobajtowe (0x80), jak i dwubajtowe znaki euro). Zawiera jednobajtową stronę kodową 1114 (CCSID 5210) i dwubajtową stronę kodową 947 (CCSID 21427).
Aby uzyskać lepszą kompatybilność z wariantem Microsoft w IBM Db2 , IBM zdefiniował również czysto dwubajtową stronę kodową 1372 i powiązany identyfikator CCSID 1373 o zmiennej szerokości , który zawiera tylko dwubajtowy znak euro i odpowiada zachowaniu firmy Microsoft, w którym uwzględnione są regiony rozszerzeń.
Kody jednobajtowe
Poniżej przedstawiono jednobajtowe znaki graficzne dołączone przez IBM. Kody 0x00, chociaż 0x1F i 0x7F mogą być zamiast tego używane jako kody kontrolne C0 , w zależności od kontekstu (porównaj stronę kodową 437 , stronę kodową 897 ). Jak wspomniano powyżej, jednobajtowy znak euro w 0x80 nie jest uwzględniany w identyfikatorach CCSID IBM 950 lub 1373 ani przez firmę Microsoft.
Strona kodowa 1114 | ||||||||||||||||
0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | A | B | C | D | mi | F | |
0x | ☺ | ☻ | ♥ | ♦ | ♣ | ♠ | • | ◘ | ○ | ◙ | ♂ | ♀ | ♪ | ♫ | ☼ | |
1x | ► | ◄ | ↕ | ‼ | ¶ | § | ▬ | ↨ | ↑ | ↓ | → | ← | ∟ | ↔ | ▲ | ▼ |
2x | Sp | ! | " | # | $ | % | & | ' | ( | ) | * | + | , | - | . | / |
3x | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | : | ; | < | = | > | ? |
4x | @ | A | B | C | D | mi | F | G | H | I | J | k | Ł | M | N | O |
5x | P | Q | R | S | T | u | V | W | X | Y | Z | [ | \ | ] | ^ | _ |
6x | ` | A | B | C | D | mi | F | G | H | I | J | k | l | M | N | o |
7x | P | Q | R | S | T | u | w | w | X | y | z | { | | | } | ~ | ⌂ |
8x | € |
Reszta to części dwubajtowej sekwencji.
Korzystanie z obszaru użytku prywatnego
Zakres big5 | Zakres Unicode | Formuła |
---|---|---|
81 40–8D Wf | U+EEB8–U+F6B0 |
0xeeb8 + (157 * (H-0x81)) + (L<0x80)?(L-0x40):(L-0x62)
|
8E 40-A0 FE | U+E311–U+EEB7 |
0xe311 + (157 * (H-0x8e)) + (L<0x80)?(L-0x40):(L-0x62)
|
C6 A1–C8 FE | U+F6B1–U+F848 |
0xf672 + (157 * (H-0xc6)) + (L<0x80)?(L-0x40):(L-0x62)
|
FA 40–FE FE | U+E000–U+E310 |
0xe000 + (157 * (H-0xfa)) + (L<0x80)?(L-0x40):(L-0x62)
|
To mapowanie jest również używane w HKSCS , gdzie dany glif nie został jeszcze znaleziony w określonej wersji Unicode.
Zobacz też
- LMBCS-18
- Strona kodowa 951 , hack firmy Microsoft w celu zastąpienia cp950 wersją obsługującą HKSCS w systemie Windows XP
- ^ „Zestawy znaków” . IANA — Rejestry protokołów .
- ^ „Właściwość Encoding.WindowsCodePage — .NET Framework (bieżąca wersja)” . MSDN . Microsoftu.
- ^ a b c d Zhu, HF .; Hu, DY.; Wang, ZG.; Kao, TC.; Chang, WCH.; Crispin, M. (1996). „Kodowanie chińskich znaków w wiadomościach internetowych” . Prośby o komentarze . IETF . doi : 10.17487/rfc1922 . RFC1922.
- ^ „Dokument informacyjny CCSID 950” . Zarchiwizowane od oryginału w dniu 2014-12-02.
- ^ „Dokument informacyjny CCSID 1114” . Zarchiwizowane od oryginału w dniu 2016-03-27.
- ^ „Dokument informacyjny CCSID 947” . Zarchiwizowane od oryginału w dniu 2014-12-01.
- ^ „Bajt wiodący A3: ibm-950_P110-1999” . Demonstracja ICU — Eksplorator konwerterów . Międzynarodowe komponenty dla Unicode .
- ^ „Bajt wiodący C6: ibm-950_P110-1999” . Demonstracja ICU — Eksplorator konwerterów . Międzynarodowe komponenty dla Unicode .
- ^ „Bajt wiodący C7: ibm-950_P110-1999” . Demonstracja ICU — Eksplorator konwerterów . Międzynarodowe komponenty dla Unicode .
- ^ „Bajt wiodący C8: ibm-950_P110-1999” . Demonstracja ICU — Eksplorator konwerterów . Międzynarodowe komponenty dla Unicode .
- ^ „Bajt wiodący F9: ibm-950_P110-1999” . Demonstracja ICU — Eksplorator konwerterów . Międzynarodowe komponenty dla Unicode .
- ^ „Zestaw znaków graficznych IBM tradycyjnego chińskiego dla kodu IBM BIG-5” (PDF) . IBM . 1999. CH 3-3220-131 1999-04.
- ^ a b „Dokument informacyjny CCSID 1370” . Zarchiwizowane od oryginału w dniu 2016-03-27.
- ^ „Dokument informacyjny CCSID 5210” . Zarchiwizowane od oryginału w dniu 2014-11-29.
- ^ „Dokument informacyjny CCSID 21427” . Zarchiwizowane od oryginału w dniu 2016-03-27.
- ^ „CPGID 01372: MS T-Chinese Big-5 (specjalne dla DB2)” . Globalizacja IBM — identyfikatory stron kodowych . Zarchiwizowane od oryginału w dniu 2016-03-17.
- Bibliografia _ _ Demonstracja ICU — Eksplorator konwerterów . Międzynarodowe komponenty dla Unicode .
- ^ „Bajt wiodący A3: ibm-1373_P100-2002” . Demonstracja ICU — Eksplorator konwerterów . Międzynarodowe komponenty dla Unicode .
- ^ „Bajt wiodący C6: ibm-1373_P100-2002” . Demonstracja ICU — Eksplorator konwerterów . Międzynarodowe komponenty dla Unicode .
- ^ „Bajt wiodący C7: ibm-1373_P100-2002” . Demonstracja ICU — Eksplorator konwerterów . Międzynarodowe komponenty dla Unicode .
- ^ „Bajt wiodący C8: ibm-1373_P100-2002” . Demonstracja ICU — Eksplorator konwerterów . Międzynarodowe komponenty dla Unicode .
- ^ „Bajt wiodący F9: ibm-1373_P100-2002” . Demonstracja ICU — Eksplorator konwerterów . Międzynarodowe komponenty dla Unicode .
- ^ Strona kodowa CPGID 01114 (pdf) (PDF) , IBM
- ^ Strona kodowa CPGID 01114 (txt) , IBM
- ^ „Wykres najlepszego dopasowania systemu Windows: CP950” . unicode.org . Źródło 13 września 2016 r .
- Bibliografia _ _ Baza danych Kanji . Źródło 13 września 2016 r .
- Bibliografia _ _ Zarchiwizowane od oryginału w dniu 13.09.2016 r.
Linki zewnętrzne
- Odniesienie firmy Microsoft do strony kodowej 950
- Mapowanie strony kodowej 950 na Unicode
- Pliki mapowania International Components for Unicode (ICU): windows-950-2000.ucm , ibm-950_P110-1999.ucm , ibm-1373_P100-2002.ucm