Kodowanie znaków

Dziurkowana taśma ze słowem „Wikipedia” zakodowanym w ASCII . Obecność i brak dziury oznacza odpowiednio 1 i 0; na przykład „W” jest zakodowane jako „1010111”.

Kodowanie znaków to proces przypisywania liczb znakom graficznym , zwłaszcza pisanym znakom ludzkiego języka , umożliwiający ich przechowywanie , przesyłanie i przekształcanie za pomocą komputerów cyfrowych . Wartości liczbowe składające się na kodowanie znaków są znane jako „ punkty kodowe ” i łącznie składają się na „przestrzeń kodową”, „ stronę kodową ” lub „ mapę znaków ”.

Wczesne kody znaków związane z telegrafem optycznym lub elektrycznym mogły reprezentować tylko podzbiór znaków używanych w językach pisanych , czasami ograniczone tylko do wielkich liter , cyfr i niektórych znaków interpunkcyjnych . Niski koszt cyfrowej reprezentacji danych w nowoczesnych systemach komputerowych pozwala na stosowanie bardziej rozbudowanych kodów znaków (takich jak Unicode ), które reprezentują większość znaków używanych w wielu językach pisanych. Kodowanie znaków przy użyciu międzynarodowych standardów umożliwia wymianę tekstu w formie elektronicznej na całym świecie.

Historia

Historia kodów znaków ilustruje ewoluujące zapotrzebowanie na informacje symboliczne oparte na znakach, za pośrednictwem maszyn, na odległość, przy użyciu niegdyś nowatorskich środków elektrycznych. Najwcześniejsze kody były oparte na ręcznych i pisanych odręcznie systemach kodowania i szyfrowania, takich jak szyfr Bacona , Braille'a , międzynarodowe morskie flagi sygnałowe oraz 4-cyfrowe kodowanie chińskich znaków dla chińskiego kodu telegraficznego ( Hans Schjellerup , 1869). Wraz z przyjęciem technik elektrycznych i elektromechanicznych te najwcześniejsze kody zostały dostosowane do nowych możliwości i ograniczeń wczesnych maszyn. Najwcześniejszy dobrze znany kod znaków przesyłanych elektrycznie, kod Morse'a , wprowadzony w latach czterdziestych XIX wieku, wykorzystywał system czterech „symboli” (krótki sygnał, długi sygnał, krótka spacja, długa spacja) do generowania kodów o zmiennej długości. Chociaż niektóre komercyjne zastosowania alfabetu Morse'a odbywały się za pomocą maszyn, był on często używany jako kod ręczny, generowany ręcznie na kluczu telegraficznym i możliwy do odczytania przez ucho, i utrzymuje się w amatorskim radiu i lotnicze . Większość kodów ma stałą długość na znak lub sekwencje o zmiennej długości kodów o stałej długości (np. Unicode ).

Typowe przykłady systemów kodowania znaków obejmują alfabet Morse'a , kod Baudota , amerykański standardowy kod wymiany informacji ( ASCII ) i Unicode . Unicode , dobrze zdefiniowany i rozszerzalny system kodowania, wyparł większość wcześniejszych kodowań znaków, ale ścieżka rozwoju kodu do chwili obecnej jest dość dobrze znana.

Kod Baudota , kodowanie pięciobitowe, został stworzony przez Émile'a Baudota w 1870 r., Opatentowany w 1874 r., Zmodyfikowany przez Donalda Murraya w 1901 r. I znormalizowany przez CCITT jako międzynarodowy alfabet telegraficzny nr 2 (ITA2) w 1930 r. Nazwa „baudot ” został błędnie zastosowany do ITA2 i jego wielu wariantów. ITA2 miał wiele niedociągnięć i był często „ulepszany” przez wielu producentów sprzętu, czasami powodując problemy ze zgodnością. W 1959 roku wojsko USA zdefiniowało swoje Fieldata kod, sześcio- lub siedmiobitowy kod, wprowadzony przez US Army Signal Corps. Podczas gdy Fieldata zajmował się wieloma współczesnymi wówczas problemami (np. kodami literowymi i cyfrowymi przeznaczonymi do zestawiania maszynowego), Fieldata nie osiągnął swoich celów i był krótkotrwały. W 1963 roku komitet ASCII (w skład którego wchodził co najmniej jeden członek komitetu Fieldata, WF Leubbert) wydał pierwszy kod ASCII (American Standard Code for Information Interchange) (X3.4-1963), który rozwiązał większość niedociągnięć Fieldata , używając prostszego kodu. Wiele zmian było subtelnych, takich jak zestawiane zestawy znaków w określonych zakresach liczbowych. ASCII63 odniósł sukces, szeroko przyjęty przez przemysł, a wraz z kolejnym wydaniem kodu ASCII z 1967 r. (Który dodał małe litery i naprawił niektóre problemy z „kodem kontrolnym”), ASCII67 został przyjęty dość powszechnie. Amerykańsko-centryczny charakter ASCII67 został w pewnym stopniu uwzględniony w Europie ECMA-6 .

Hollerith 80-kolumnowa karta perforowana z zestawem znaków EBCDIC

Herman Hollerith wynalazł kodowanie danych z kart perforowanych pod koniec XIX wieku w celu analizy danych spisowych. Początkowo każda pozycja otworu reprezentowała inny element danych, ale później informacje liczbowe zostały zakodowane poprzez numerowanie dolnych rzędów od 0 do 9, z dziurkaczem w kolumnie reprezentującym numer wiersza. Późniejsze dane alfabetyczne zostały zakodowane, umożliwiając więcej niż jedno uderzenie na kolumnę. Elektromechaniczne maszyny do tworzenia tabel przedstawiały datę wewnętrznie na podstawie synchronizacji impulsów w stosunku do ruchu kart przez maszynę. Kiedy IBM przeszedł do przetwarzania elektronicznego, zaczynając od IBM 603 Electronic Multiplier, wykorzystywał różne schematy kodowania binarnego, które były powiązane z kodem karty perforowanej.

IBM Binary Coded Decimal ( BCD ) był sześciobitowym schematem kodowania używanym przez IBM już w 1953 roku w komputerach 702 i 704 , a także w późniejszych seriach 7000 i 1400 , a także w powiązanych urządzeniach peryferyjnych. Ponieważ używany wówczas kod karty perforowanej dopuszczał tylko cyfry, duże litery angielskie i kilka znaków specjalnych, wystarczyło sześć bitów. BCD rozszerzył istniejące proste czterobitowe kodowanie numeryczne o znaki alfabetyczne i specjalne, łatwo odwzorowując je na kodowanie kart perforowanych, które było już w powszechnym użyciu. Kody IBM były używane głównie ze sprzętem IBM; inni dostawcy komputerów tamtej epoki mieli własne kody znaków, często sześciobitowe, ale zwykle mieli możliwość odczytu taśm wyprodukowanych na sprzęcie IBM. BCD był prekursorem IBM Extended Binary Coded Decimal Interchange Code (zwykle w skrócie EBCDIC), ośmiobitowy schemat kodowania opracowany w 1963 roku dla IBM System/360 , który zawierał większy zestaw znaków, w tym małe litery.

Wkrótce ujawniły się ograniczenia takich zestawów, ^{[ dla kogo? ] i} opracowano szereg metod ad hoc w celu ich rozszerzenia. Potrzeba obsługi większej liczby systemów pisma dla różnych języków, w tym rodziny skryptów wschodnioazjatyckich CJK , wymagała obsługi znacznie większej liczby znaków i wymagała systematycznego podejścia do kodowania znaków, a nie poprzednich podejść ad hoc . ^{[ potrzebne źródło ]}

Próbując opracować uniwersalnie wymienne kodowanie znaków, naukowcy w latach 80. stanęli przed dylematem, że z jednej strony wydawało się konieczne dodanie większej liczby bitów, aby pomieścić dodatkowe znaki, ale z drugiej strony dla użytkowników stosunkowo małego zestawu znaków alfabetu łacińskiego (którzy nadal stanowili większość użytkowników komputerów), te dodatkowe bity były kolosalnym marnotrawstwem rzadkich wówczas i kosztownych zasobów obliczeniowych (ponieważ zawsze byłyby wyzerowane dla takich użytkowników). W 1985 r. dysk twardy przeciętnego użytkownika komputera osobistego mógł przechowywać tylko około 10 megabajtów i kosztował około 250 USD na rynku hurtowym (i znacznie więcej, jeśli był kupowany osobno w sprzedaży detalicznej), więc w tamtym czasie bardzo ważne było, aby każdy bit się liczył.

Rozwiązaniem kompromisowym, które ostatecznie zostało znalezione i opracowane w Unicode, było złamanie założenia (pochodzącego z kodów telegraficznych), że każdy znak powinien zawsze bezpośrednio odpowiadać określonej sekwencji bitów. Zamiast tego znaki byłyby najpierw odwzorowywane na uniwersalną reprezentację pośrednią w postaci abstrakcyjnych liczb zwanych punktami kodowymi . Punkty kodowe byłyby wtedy reprezentowane na różne sposoby iz różnymi domyślnymi liczbami bitów na znak (jednostki kodu) w zależności od kontekstu. Aby zakodować punkty kodowe większe niż długość jednostki kodu, na przykład powyżej 256 dla jednostek ośmiobitowych, rozwiązaniem było wdrożenie kodowania o zmiennej długości , w których sekwencja ucieczki sygnalizowałaby, że kolejne bity powinny być analizowane jako wyższy punkt kodowy.

Terminologia

Terminologia związana z kodowaniem znaków

Znak to minimalna jednostka tekstu, która ma wartość semantyczną .
Zestaw znaków to zbiór znaków, które mogą być używane w wielu językach. Przykład: Zestaw znaków łacińskich jest używany w języku angielskim i większości języków europejskich, chociaż zestaw znaków greckich jest używany tylko w języku greckim.
Zakodowany zestaw znaków to zestaw znaków, w którym każdy znak odpowiada unikalnej liczbie.
Punkt kodowy zakodowanego zestawu znaków to dowolna dozwolona wartość w zestawie znaków lub przestrzeni kodowej.
Przestrzeń kodowa to zakres liczb całkowitych, których wartości są punktami kodowymi.
Jednostka kodu to „rozmiar słowa” schematu kodowania znaków, na przykład 7-bitowy, 8-bitowy, 16-bitowy. W niektórych schematach niektóre znaki są kodowane przy użyciu wielu jednostek kodu, co skutkuje kodowaniem o zmiennej długości. jednostka kodu jest określana jako wartość kodu .

Repertuar postaci (abstrakcyjny zestaw postaci)

Repertuar znaków to abstrakcyjny zestaw ponad miliona znaków występujących w wielu różnych pismach, w tym łacińskim, cyrylicy, chińskim, koreańskim, japońskim, hebrajskim i aramejskim.

W repertuarze postaci znajdują się również inne symbole, takie jak notacja muzyczna. Zarówno standardy Unicode, jak i GB 18030 mają repertuar znaków. Gdy nowe znaki są dodawane do jednego standardu, drugi standard również dodaje te znaki, aby zachować parzystość.

Rozmiar jednostki kodu odpowiada pomiarowi bitu dla konkretnego kodowania:

Jednostka kodu w US-ASCII składa się z 7 bitów;
Jednostka kodu w UTF-8 , EBCDIC i GB 18030 składa się z 8 bitów;
Jednostka kodu w UTF-16 składa się z 16 bitów;
Jednostka kodu w UTF-32 składa się z 32 bitów.

Przykład jednostki kodu

Rozważ ciąg liter „ab̲c𐐀”, to znaczy ciąg zawierający znak łączący Unicode ( U+0332 ̲ ) oraz znak dodatkowy ( U+10400 𐐀 ). Ten ciąg ma kilka reprezentacji, które są logicznie równoważne, ale każda z nich jest dostosowana do różnych okoliczności lub zakresu wymagań:

Cztery złożone znaki :
a , b̲ , c , 𐐀
Pięć grafemów :
a , b , _ , c , 𐐀
Pięć punktów kodowych Unicode :
U+0061 , U+0062 , U+0332 , U+0063 , U+10400
Pięć jednostek kodu UTF-32 (32-bitowe wartości całkowite):
0x00000061 , 0x00000062 , 0x00000332 , 0x00000063 , 0x00010400
Sześć jednostek kodu UTF-16 (16-bitowe liczby całkowite)
0x0061 , 0x0062 , 0x0332 , 0x0063 , 0xd801 , 0xdc00
Dziewięć jednostek kodu UTF-8 (wartości 8-bitowe lub bajty )
0x61 , 0x62 , 0xCC , 0xB2 , 0x63 , 0xf0 , 0x90 , 0x90 , 0x80

Zwróć szczególną uwagę na ostatni znak, który jest reprezentowany przez jedną wartość 32-bitową lub dwie wartości 16-bitowe. lub 4 wartości 8-bitowe. Chociaż każda z tych form używa tej samej całkowitej liczby bitów (32) do reprezentowania glifu, rzeczywiste numeryczne wartości bajtów i ich rozmieszczenie wydają się całkowicie niezwiązane.

Punkt kodu

Konwencja odnosząca się do znaku w Unicode polega na rozpoczynaniu od „U+”, po którym następuje wartość punktu kodowego w systemie szesnastkowym. Zakres prawidłowych punktów kodowych dla standardu Unicode wynosi od U+0000 do U+10FFFF włącznie, podzielony na 17 płaszczyzn , oznaczonych cyframi od 0 do 16. Znaki z zakresu od U+0000 do U+FFFF znajdują się na płaszczyźnie 0, o nazwie Basic Multilingual Plane (BMP). Ta płaszczyzna zawiera najczęściej używane znaki. Znaki z zakresu od U+10000 do U+10FFFF w pozostałych płaszczyznach nazywane są znakami uzupełniającymi .

W poniższej tabeli przedstawiono przykłady wartości punktów kodowych:

Postać	Punkt kodu Unicode	glif
łaciński A	U+0041	Α
Łaciński ostry S	U+00DF	SS
Han dla Wschodu	U+6771	東
Ampersand	U+0026	&
Odwrócony wykrzyknik	U+00A1	¡
Znak sekcji	U+00A7	§

Punkt kodowy jest reprezentowany przez sekwencję jednostek kodu. Mapowanie jest definiowane przez kodowanie. Zatem liczba jednostek kodu wymaganych do reprezentacji punktu kodowego zależy od kodowania:

UTF-8: punkty kodowe odwzorowują sekwencję jednej, dwóch, trzech lub czterech jednostek kodu.
UTF-16: jednostki kodu są dwa razy dłuższe niż jednostki kodu 8-bitowego. Dlatego każdy punkt kodowy o wartości skalarnej mniejszej niż U+10000 jest kodowany za pomocą pojedynczej jednostki kodu. Punkty kodowe o wartości U+10000 lub wyższej wymagają dwóch jednostek kodu. Te pary jednostek kodu mają unikalny termin w UTF-16: „Pary zastępcze Unicode”.
UTF-32: 32-bitowa jednostka kodu jest wystarczająco duża, aby każdy punkt kodu był reprezentowany jako pojedyncza jednostka kodu.
GB 18030: wiele jednostek kodu na punkt kodowy jest powszechnych ze względu na małe jednostki kodu. Punkty kodowe są mapowane na jedną, dwie lub cztery jednostki kodu.

Model kodowania Unicode

Unicode i jego równoległy standard, uniwersalny zestaw znaków ISO/IEC 10646 , razem tworzą nowoczesne, ujednolicone kodowanie znaków. Zamiast odwzorowywać znaki bezpośrednio na oktety ( bajty ), osobno określają, jakie znaki są dostępne, odpowiadające im liczby naturalne ( punkty kodowe ), sposób kodowania tych liczb jako serię liczb naturalnych o stałym rozmiarze (jednostki kodowe) i wreszcie, w jaki sposób te liczby jednostki są kodowane jako strumień oktetów. Celem tej dekompozycji jest ustalenie uniwersalnego zestawu znaków, które można zakodować na różne sposoby. Prawidłowe opisanie tego modelu wymaga bardziej precyzyjnych terminów niż „zestaw znaków” i „kodowanie znaków”. Terminy używane w nowoczesnym modelu są następujące:

Repertuar znaków to pełny zestaw abstrakcyjnych znaków obsługiwanych przez system. Repertuar może być zamknięty, tzn. żadne dodatki nie są dozwolone bez tworzenia nowego standardu (jak ma to miejsce w przypadku ASCII i większości serii ISO-8859), lub może być otwarty, dopuszczając dodatki (jak w przypadku Unicode i do w ograniczonym zakresie strony kodowe systemu Windows ). Postacie w danym repertuarze odzwierciedlają podjęte decyzje dotyczące podziału systemów pisma na podstawowe jednostki informacyjne. Podstawowe odmiany łaciny , greki i cyrylicy alfabety można podzielić na litery, cyfry, znaki interpunkcyjne i kilka znaków specjalnych , takich jak spacja, które można ułożyć w proste sekwencje liniowe, które są wyświetlane w tej samej kolejności, w jakiej zostały odczytane. Ale nawet w przypadku tych alfabetów znaki diakrytyczne stanowią komplikację: można je traktować albo jako część pojedynczego znaku zawierającego literę i znak diakrytyczny (znany jako znak złożony), albo jako oddzielne znaki. Pierwsza pozwala na znacznie prostszy system obsługi tekstu, ale druga pozwala na użycie w tekście dowolnej kombinacji liter/znaków diakrytycznych. Ligatury stwarzać podobne problemy. Inne systemy pisma, takie jak arabski i hebrajski, są reprezentowane przez bardziej złożone repertuary znaków ze względu na konieczność uwzględnienia takich rzeczy, jak tekst dwukierunkowy i glify , które są łączone na różne sposoby w różnych sytuacjach.

Kodowany zestaw znaków (CCS) to funkcja , która odwzorowuje znaki na punkty kodowe (każdy punkt kodowy reprezentuje jeden znak). Na przykład w danym repertuarze wielka litera „A” w alfabecie łacińskim może być reprezentowana przez punkt kodowy 65, znak „B” do 66 i tak dalej. Wiele zakodowanych zestawów znaków może mieć ten sam repertuar; na przykład ISO / IEC 8859-1 i strony kodowe IBM 037 i 500 obejmują ten sam repertuar, ale odwzorowują je na różne punkty kodowe.

Forma kodowania znaków (CEF) to mapowanie punktów kodowych na jednostki kodowe w celu ułatwienia przechowywania w systemie, który przedstawia liczby jako sekwencje bitów o stałej długości (tj. praktycznie w każdym systemie komputerowym). Na przykład system, który przechowuje informacje liczbowe w jednostkach 16-bitowych, może bezpośrednio reprezentować tylko punkty kodowe od 0 do 65 535 w każdej jednostce, ale większe punkty kodowe (powiedzmy od 65 536 do 1,4 miliona) mogą być reprezentowane przy użyciu wielu jednostek 16-bitowych. Ta korespondencja jest zdefiniowana przez CEF.

Następnie schemat kodowania znaków (CES) to mapowanie jednostek kodu na sekwencję oktetów w celu ułatwienia przechowywania w systemie plików opartym na oktetach lub transmisji w sieci opartej na oktetach. Proste schematy kodowania znaków obejmują UTF-8 , UTF-16BE , UTF-32BE , UTF-16LE lub UTF-32LE ; schematy kodowania znaków złożonych, takie jak UTF-16 , UTF-32 i ISO/IEC 2022 , przełączają się między kilkoma prostymi schematami za pomocą znacznika kolejności bajtów lub sekwencje specjalne ; schematy kompresji próbują zminimalizować liczbę bajtów używanych na jednostkę kodu (takie jak SCSU , BOCU i Punycode ).

Chociaż UTF-32BE jest prostszym CES, większość systemów pracujących z Unicode używa albo UTF-8 , który jest wstecznie kompatybilny z ASCII o stałej długości i odwzorowuje punkty kodowe Unicode na sekwencje oktetów o zmiennej długości, albo UTF-16BE , który jest wsteczny kompatybilny z UCS-2BE o stałej długości i odwzorowuje punkty kodowe Unicode na sekwencje słów 16-bitowych o zmiennej długości. Zobacz porównanie kodowań Unicode, aby zapoznać się ze szczegółową dyskusją.

Wreszcie, może istnieć protokół wyższego poziomu , który dostarcza dodatkowych informacji w celu wybrania konkretnego wariantu znaku Unicode , szczególnie tam, gdzie istnieją warianty regionalne, które zostały „ujednolicone” w Unicode jako ten sam znak. Przykładem jest XML xml:lang.

Model Unicode używa terminu mapa znaków dla systemów historycznych, które bezpośrednio przypisują sekwencję znaków do sekwencji bajtów, obejmując wszystkie warstwy CCS, CEF i CES.

Zestawy znaków, mapy znaków i strony kodowe

Historycznie terminy „kodowanie znaków”, „mapa znaków”, „zestaw znaków” i „ strona kodowa ” były w informatyce synonimami , ponieważ ten sam standard określałby repertuar znaków i sposób ich kodowania w strumień jednostki kodu – zwykle z pojedynczym znakiem na jednostkę kodu. Ale teraz terminy mają powiązane, ale różne znaczenia, dzięki wysiłkom organów normalizacyjnych, aby używać precyzyjnej terminologii podczas pisania i ujednolicania wielu różnych systemów kodowania. Niezależnie od tego terminy są nadal używane zamiennie, z zestawem znaków będąc niemal wszechobecnym.

„ Strona kodowa ” zwykle oznacza kodowanie zorientowane na bajty , ale w odniesieniu do pewnego zestawu kodowań (obejmujących różne skrypty), w których wiele znaków ma te same kody na większości lub wszystkich tych stronach kodowych. Dobrze znane pakiety stron kodowych to „Windows” (oparty na Windows-1252) i „IBM”/„DOS” (oparty na stronie kodowej 437 ). Aby uzyskać szczegółowe informacje , zobacz stronę kodową systemu Windows . Większość, ale nie wszystkie kodowania określane jako strony kodowe to kodowania jednobajtowe (ale zobacz oktet na temat rozmiaru bajtów).

Architektura IBM Character Data Representation Architecture (CDRA) wyznacza jednostki z zakodowanymi identyfikatorami zestawów znaków ( CCSID ), z których każdy jest różnie nazywany „zestawem znaków”, „zestawem znaków”, „stroną kodową” lub „CHARMAP”.

Termin „strona kodowa” nie występuje w systemach Unix ani Linux, gdzie preferowana jest „charmap”, zwykle w szerszym kontekście ustawień regionalnych.

W przeciwieństwie do „ zakodowanego zestawu znaków ”, „kodowanie znaków” to mapa od abstrakcyjnych znaków do słów kodowych . „Zestaw znaków” w HTTP (i MIME ) jest taki sam jak kodowanie znaków (ale nie to samo co CCS).

„ Legacy kodowanie” to termin używany czasami do scharakteryzowania starych kodowań znaków, ale mający niejednoznaczny sens. Większość jego użycia jest w kontekście Unicodification , gdzie odnosi się do kodowania, które nie obejmuje wszystkich punktów kodowych Unicode lub, bardziej ogólnie, przy użyciu nieco innego repertuaru znaków: kilka punktów kodowych reprezentujących jeden znak Unicode lub odwrotnie (patrz np. strona kodowa 437 ). Niektóre źródła określają kodowanie jako starsze tylko dlatego, że poprzedzał Unicode. Wszystkie strony kodowe systemu Windows są zwykle określane jako starsze, zarówno dlatego, że są starsze niż Unicode, jak i dlatego, że nie są w stanie reprezentować wszystkich 221 ^możliwych punktów kodowych Unicode.

Tłumaczenie kodowania znaków

W wyniku stosowania wielu metod kodowania znaków (i potrzeby wstecznej kompatybilności z danymi archiwalnymi) opracowano wiele programów komputerowych do tłumaczenia danych między schematami kodowania jako formy transkodowania danych . Niektóre z nich są cytowane poniżej.

Wieloplatformowy :

Przeglądarki internetowe – większość nowoczesnych przeglądarek internetowych posiada funkcję automatycznego wykrywania kodowania znaków . Na przykład w przeglądarce Firefox 3 zobacz podmenu Widok/Kodowanie znaków.
iconv – program i standaryzowane API do konwersji kodowań
luit – program, który konwertuje kodowanie danych wejściowych i wyjściowych na programy działające interaktywnie
convert_encoding.py – oparte na Pythonie narzędzie do konwersji plików tekstowych pomiędzy dowolnymi kodowaniami i zakończeniami linii
decodeh.py – algorytm i moduł do heurystycznego odgadywania kodowania napisu
International Components for Unicode — zestaw bibliotek C i Java do konwersji zestawu znaków. uconv może być używany z ICU4C.
chardet – Jest to tłumaczenie kodu automatycznego wykrywania kodowania Mozilli na język komputerowy Python.
Nowsze wersje polecenia file uniksowego próbują wykonać podstawowe wykrywanie kodowania znaków (dostępne również w Cygwin ).
charset – biblioteka szablonów C++ z prostym interfejsem do konwersji między strumieniami C++/zdefiniowanymi przez użytkownika. charset zdefiniował wiele zestawów znaków i pozwala na używanie formatów Unicode z obsługą endianness .

Uniksopodobne :

cmv – proste narzędzie do transkodowania nazw plików.
convmv – konwertuje nazwę pliku z jednego kodowania na inne.
cstocs – konwertuje zawartość pliku z jednego kodowania na inne dla języków czeskiego i słowackiego.
enca – analizuje kodowania dla podanych plików tekstowych.
recode – konwertuje zawartość pliku z jednego kodowania na inne.
utrac – konwertuje zawartość pliku z jednego kodowania na inne.

Okna :

Encoding.Convert — interfejs API platformy .NET
MultiByteToWideChar/WideCharToMultiByte – do konwersji z ANSI na Unicode i Unicode na ANSI
cscvt – narzędzie do konwersji zestawu znaków
enca – analizuje kodowania dla podanych plików tekstowych.

Zobacz też

Kodowanie procentowe
Kod alternatywny
Kodowanie znaków w HTML
Kategoria: Kodowanie znaków – artykuły związane ogólnie z kodowaniem znaków
Kategoria:Zestawy znaków - artykuły szczegółowo opisujące określone kodowanie znaków
Reprezentacje szesnastkowe
Mojibake – błędne odwzorowanie zestawu znaków
Mojikyō - system („zestaw glifów”), który zawiera ponad 100 000 rysunków chińskich znaków, współczesnych i starożytnych, popularnych i niejasnych
Warstwa prezentacji
TRON , część projektu TRON, to system kodowania, który nie korzysta z ujednolicenia Han; zamiast tego używa „kodów kontrolnych” do przełączania między 16-bitowymi „płaszczyznami” znaków.
Znaki z uniwersalnego zestawu znaków
Wąchanie zestawu znaków – używane w niektórych aplikacjach, gdy metadane kodowania znaków nie są dostępne

Wspólne kodowanie znaków

ISO 646
- ASCII
EBCDIC
ISO 8859 :
- ISO 8859-1 Europa Zachodnia
- ISO 8859-2 Europa Zachodnia i Środkowa
- ISO 8859-3 Europa Zachodnia i Europa Południowa (turecki, maltański i esperanto)
- ISO 8859-4 Europa Zachodnia i kraje bałtyckie (Litwa, Estonia, Łotwa i Laponia)
- ISO 8859-5 Cyrylica
- ISO 8859-6 arabski
- ISO 8859-7 grecki
- ISO 8859-8 hebr
- ISO 8859-9 Europa Zachodnia ze zmienionym zestawem znaków tureckich
- ISO 8859-10 Europa Zachodnia ze zracjonalizowanym zestawem znaków dla języków nordyckich, w tym kompletny zestaw islandzki
- ISO 8859-11 tajski
- ISO 8859-13 Języki bałtyckie plus polski
- ISO 8859-14 Języki celtyckie (irlandzki gaelicki, szkocki, walijski)
- ISO 8859-15 Dodano znak Euro i inne racjonalizacje do ISO 8859-1
- ISO 8859-16 Języki Europy Środkowej, Wschodniej i Południowej (albański, bośniacki, chorwacki, węgierski, polski, rumuński, serbski i słoweński, ale także francuski, niemiecki, włoski i irlandzki gaelicki)
CP437 , CP720 , CP737 , CP850 , CP852 , CP855 , CP857 , CP858 , CP860 , CP861 , CP862 , CP863 , CP865 , CP866 , CP869 , CP872
Zestawy znaków MS-Windows :
- Windows-1250 dla języków środkowoeuropejskich używających alfabetu łacińskiego (polski, czeski, słowacki, węgierski, słoweński, serbski, chorwacki, bośniacki, rumuński i albański)
- Windows-1251 dla cyrylicy
- Windows-1252 dla języków zachodnich
- Windows-1253 dla języka greckiego
- Windows-1254 dla języka tureckiego
- Windows-1255 dla języka hebrajskiego
- Windows-1256 dla języka arabskiego
- Windows-1257 dla języków bałtyckich
- Windows-1258 dla Wietnamczyków
Mac OS Roman
KOI8-R , KOI8-U , KOI7
MIK
ISCII
TSCII
VISCII
JIS X 0208 to szeroko stosowany standard kodowania znaków japońskich, który ma kilka form kodowania.
- Shift JIS ( strona kodowa Microsoft 932 jest dialektem Shift_JIS)
- EUC-JP
- ISO-2022-JP
JIS X 0213 jest rozszerzoną wersją JIS X 0208.
chiński Guobiao
- GB 2312
- GBK (strona kodowa firmy Microsoft 936)
- GB 18030
Tajwan Big5 (bardziej znanym wariantem jest Microsoft Code page 950 )
- Hong Kong HKSCS
koreański
- KS X 1001 to koreański standard kodowania znaków dwubajtowych
- EUC-KR
- ISO-2022-KR
Unicode (i jego podzbiory, takie jak 16-bitowy „Basic Multilingual Plane”)
- UTF-8
- UTF-16
- UTF-32
ANSEL lub ISO/IEC 6937

Dalsza lektura

Mackenzie, Charles E. (1980). Zakodowane zestawy znaków, historia i rozwój . Seria programowania systemów (1 wyd.). Addison-Wesley Publishing Company, Inc. ISBN 978-0-201-14460-4 . LCCN 77-90165 .

Linki zewnętrzne

Kodowanie znaków
Wczesna telekomunikacja	Kod telegraficzny Igła Morse'a Niełaciński Wabun/Kana chiński cyrylica koreański Baudota i Murraya Fieldata ASCII ISO/IEC 646 BCDIC Teleteks i Wideoteks / Teletekst T.51/ISO/IEC 6937 ITU T.61 ITU T.101 Telegazeta systemu światowego tło zestawy Transkoduj
ISO/IEC8859	Zatwierdzone części -1 (Europa Zachodnia) -2 (Europa Środkowa) -3 (maltański/esperanto) -4 (Europa Północna) -5 (cyrylica) -6 (arabski) -7 (grecki) -8 (hebr.) -9 (turecki) -10 (nordycki) -11 (tajski) -13 (Bałtyk) -14 (celtycki) -15 (Nowa Europa Zachodnia) -16 (rumuński) Opuszczone części -12 (Dewanagari) Zaproponowano, ale nie zatwierdzono KOI-8 Cyrylica Samowie Adaptacje walijski Cyrylica Barentsa estoński cyrylica ukraińska
Wykorzystanie bibliograficzne	MARC-8 ANSELA CCCII/EACC ISO 5426 5426-2 5427 5428 6438 6862
Normy krajowe	ArmSCII Biustonosz SCII OUN 11643 DIN 66003 ELOT 927 GOST 10859 GB 2312 GB 12345 GB 12052 GB 18030 HKSCS ISCII JIS X 0201 JIS X 0208 JIS X 0212 JIS X 0213 KOI-7 KPS 9566 KSX1001 KSX1002 LST 1564 LST 1590-4 PASCII Zmień JIS SI 960 TIS-620 TSCII VISCII VSCII YUSCII
ISO/IEC 2022	ISO/IEC8859 ISO/IEC 10367 Rozszerzony kod Unix / EUC
Strony kodowe systemu Mac OS („skrypty”)	ormiański arabski Cyrylica Barentsa celtycki środkowoeuropejski chorwacki cyrylica Dewanagari perski (perski) Czcionka X (Kermit) celtycki gruziński grecki gudżarati Gurmukhi hebrajski Islandia Eskimosów Klawiatura łacina (Kermit) maltański/esperanto Ogham rzymski rumuński Samowie turecki Cyrylica turecka ukraiński VT100
strony kodowe DOS	437 668 708 720 737 770 773 775 776 777 778 850 851 852 853 855 856 857 858 859 860 861 862 863 864 865 866 867 868 869 897 899 903 904 932 936 942 949 950 951 1040 1042 1043 1046 1098 1115 1116 1117 1118 1127 3846 ABIKOMP CS Ind CSX Ind CSX+ Ind CWI-2 systemu irańskiego Kamenickiego Mazowsze MIK
Strony kodowe IBM AIX	895 896 912 915 921 922 1006 1008 1009 1010 1012 1013 1014 1015 1016 1017 1018 1019 1124 1133
Strony kodowe systemu Windows	CER-GS 932 936 ( GBK ) 950 1169 Rozszerzona łacina-8 1250 1251 1252 1253 1254 1255 1256 1257 1258 1270 cyrylica + fiński cyrylica + francuski cyrylica + niemiecki greka politoniczna
strony kodowe EBCDIC	37 Język japoński w EBCDIC DKOI
DEC ( VTx )	Międzynarodowy (MCS) Wymiana krajowa (NRCS) Francuski Kanadyjczyk szwajcarski hiszpański Zjednoczone Królestwo Holenderski fiński Francuski norweski i duński szwedzki norweski i duński (alternatywa) 8-bitowy grecki 8-bitowy turecki SI 960 hebrajski Specjalna grafika techniczne (TCS)
Specyficzne dla platformy	1057 Żołądź standard Adobe Adobe łacina 1 CPC Amstrada Jabłko II ATASCII Atari ST BICS Kalkulatory Casio CDC Compucolor II PK/M+ DEC RADIX 50 DEC MCS / NRC Dyrekcja Generalna ds. Międzynarodowych Fieldata KLEJNOT GSM 03.38 HP Roman HP FOCAL HP RPL ŚCIŚNIJ LIC LMBCS MSX NEC APC Następny PETSCII Segę SC-3000 Ostre kalkulatory Ostry MZ Sinclair QL Symbol Teletekst Kalkulatory TI TRS-80 Ventura International WISCII XCCS ZX80 ZX81 ZX Spectrum
Unicode / ISO/IEC 10646	UTF-1 UTF-7 UTF-8 UTF-16 UTF-32 UTF-EBCDIC GB 18030 BOCU-1 CESU-8 SCSU TACE16 Porównanie kodowań Unicode
System składu TeX	Korek LY1 OML OMS OT1
Różne strony kodowe	ABIKOMP ASMO 449 Duży5 Cyfrowe kodowanie symboli APL ISO-IR-68 ARIB STD-B24 HZ IEC-P27-1 INIS 7-bitowy 8 bitowy ISO-IR-169 ISO 2033 KOI KOI8-R KOI8-RU KOI8-U Mojikyo SEASCII Stanforda/ITS TRON Ujednolicony kod Hangul
Postać kontrolna	Prosygnaty Morse'a Kody kontrolne C0 i C1 ISO/IEC 6429 JIS X 0211 Znaki kontrolne, formatujące i separatory Unicode Białe znaki
powiązane tematy	CCSID Kodowanie znaków w HTML Wykrywanie zestawu znaków Zjednoczenie Hanów Strona kodowa sprzętu Kod MICR Mojibake Kodowanie o zmiennej długości
Zestawy znaków