Język japoński i komputery

Japońska klawiatura kana

W odniesieniu do języka japońskiego i komputerów pojawia się wiele problemów adaptacyjnych, niektóre charakterystyczne dla języka japońskiego , a inne wspólne dla języków , które mają bardzo dużą liczbę znaków. Liczba znaków potrzebnych do pisania w języku angielskim jest dość mała, dzięki czemu możliwe jest użycie tylko jednego bajtu (2 8 =256 możliwych wartości) do zakodowania każdego znaku angielskiego. Jednak liczba znaków w języku japońskim jest znacznie większa niż 256 i dlatego nie można ich zakodować przy użyciu jednego bajtu - japoński jest zatem kodowany przy użyciu dwóch lub więcej bajtów, w tak zwanym kodowaniu „dwubajtowym” lub „wielobajtowym”. Pojawiające się problemy dotyczą transliteracji i latynizacji , kodowania znaków i wprowadzania tekstu w języku japońskim.

Kodowanie znaków

Istnieje kilka standardowych metod kodowania japońskich znaków do użytku na komputerze, w tym JIS , Shift-JIS , EUC i Unicode . Podczas gdy mapowanie zestawu kana jest prostą sprawą, kanji okazało się trudniejsze. Pomimo wysiłków żaden ze schematów kodowania nie stał się de facto standardem, a do 2000 roku stosowano wiele standardów kodowania. Od 2017 r. Udział UTF-8 ruch w Internecie wzrósł do ponad 90% na całym świecie, a tylko 1,2% dotyczyło korzystania z Shift-JIS i EUC. Jednak kilka popularnych witryn, w tym 2channel i kakaku.com, nadal korzysta z Shift-JIS.

Do 2000 roku większość japońskich e-maili była w formacie ISO-2022-JP („kodowanie JIS”), a strony internetowe w Shift-JIS i telefony komórkowe w Japonii zwykle korzystały z jakiejś formy rozszerzonego kodu Unix . Jeśli program nie określi zastosowanego schematu kodowania, może spowodować mojibake ( 文字 化 け , „błędnie przekonwertowane zniekształcone / śmieciowe znaki”, dosłownie „przekształcone znaki”), a tym samym nieczytelny tekst na komputerach.

Kanji ROM zainstalowana w PC-98 , która przechowywała około 3000 glifów i umożliwiała szybkie wyświetlanie. Miał również pamięć RAM do przechowywania gaiji.
Urządzenia wbudowane nadal używają kana o połowie szerokości

Pierwszym szeroko stosowanym kodowaniem było JIS X 0201 , które jest kodowaniem jednobajtowym , które obejmuje tylko standardowe 7-bitowe znaki ASCII z rozszerzeniami katakana o połowie szerokości . Było to szeroko stosowane w systemach, które nie były ani wystarczająco wydajne, ani nie miały pamięci do obsługi kanji (w tym starego sprzętu wbudowanego, takiego jak kasy fiskalne), ponieważ konwersja Kana-Kanji wymagała skomplikowanego procesu, a wyjście w kanji wymagało dużo pamięci i wysokiej rozdzielczości. Oznacza to, że przy użyciu tej techniki obsługiwana była tylko katakana, a nie kanji. Niektóre wbudowane wyświetlacze nadal mają to ograniczenie.

Rozwój kodowania kanji był początkiem rozłamu. Shift JIS obsługuje kanji i został opracowany tak, aby był w pełni kompatybilny wstecz z JIS X 0201 , a zatem jest w wielu wbudowanych urządzeniach elektronicznych. Jednak Shift JIS ma tę niefortunną właściwość, że często psuje każdy parser (oprogramowanie odczytujące zakodowany tekst), który nie jest specjalnie zaprojektowany do jego obsługi.

Na przykład niektóre znaki Shift-JIS zawierają ukośnik odwrotny (0x5C „\”) w drugim bajcie, który jest używany jako znak zmiany znaczenia w wielu językach programowania.

8d 5c 82 wyd 82 c8 82 a2

Parser, który nie obsługuje Shift JIS, rozpozna 0x5C 0x82 jako nieprawidłową sekwencję specjalną i usunie ją. Dlatego wyrażenie powoduje mojibake.

8d   82 wyd 82 c8 82 a2

Może się to zdarzyć na przykład w języku programowania C , gdy w ciągach tekstowych występuje Shift-JIS. Nie zdarza się to w HTML, ponieważ ASCII 0x00–0x3F (który obejmuje „, % i niektóre inne używane znaki ucieczki i separatory łańcuchów) nie pojawiają się jako drugi bajt w Shift-JIS, a ukośnik odwrotny nie jest tam znakami ucieczki. Ale może się to zdarzyć w przypadku JavaScript , który można osadzić na stronach HTML.

  EUC jest obsługiwane znacznie lepiej przez parsery napisane dla 7-bitowego ASCII (a zatem kodowanie EUC jest używane w systemie UNIX, gdzie znaczna część kodu obsługi plików była historycznie napisana tylko dla kodowania angielskiego). Jednak EUC nie jest wstecznie kompatybilne z JIS X 0201, pierwszym głównym japońskim kodowaniem. Dalsze komplikacje pojawiają się, ponieważ oryginalne standardy internetowej poczty e-mail obsługują tylko 7-bitowe protokoły przesyłania. W ten sposób opracowano RFC 1468 („ ISO-2022-JP ”, często nazywane po prostu kodowaniem JIS ) do wysyłania i odbierania wiadomości e-mail.

Gaiji jest używany w napisach kodowanych w japońskich programach telewizyjnych

W standardach zestawów znaków , takich jak JIS , nie uwzględniono wszystkich wymaganych znaków, więc gaiji ( „ znaki zewnętrzne”) są czasami używane jako uzupełnienie zestawu znaków. Gaiji może występować w postaci zewnętrznych pakietów czcionek, w których zwykłe znaki zostały zastąpione nowymi znakami lub nowe znaki zostały dodane do nieużywanych pozycji znaków. Jednak gaiji nie są praktyczne w internetowych , ponieważ zestaw czcionek musi zostać przesłany wraz z tekstem, aby używać gaiji. W rezultacie takie znaki są zapisywane podobnymi lub prostszymi znakami lub może zajść potrzeba zakodowania tekstu przy użyciu większego zestawu znaków (takiego jak Unicode), który obsługuje wymagany znak.

Unicode miał rozwiązać wszystkie problemy z kodowaniem we wszystkich językach. Kodowanie UTF-8 używane do kodowania Unicode na stronach internetowych nie ma wad, które ma Shift-JIS. Unicode jest obsługiwany przez międzynarodowe oprogramowanie i eliminuje potrzebę stosowania gaiji. Wciąż jednak pojawiają się kontrowersje. W języku japońskim znaki kanji zostały ujednolicone z chińskimi; to znaczy znak uważany za taki sam zarówno w języku japońskim, jak i chińskim otrzymuje jedną liczbę, nawet jeśli wygląd jest w rzeczywistości nieco inny, z dokładnym wyglądem pozostawionym do użycia czcionki odpowiedniej dla ustawień regionalnych. Proces ten, tzw Zjednoczenie Han wywołało kontrowersje. [ potrzebne źródło ] Poprzednie kodowania w Japonii, Tajwanie , Chinach kontynentalnych i Korei obsługiwały tylko jeden język, a Unicode powinien obsługiwać wszystkie. Obsługa Kanji/chiński została jednak zaprojektowana przez komitet złożony z przedstawicieli wszystkich czterech krajów/obszarów. [ potrzebne źródło ]

Wprowadzanie tekstu

W pisanym języku japońskim używa się kilku różnych pism: kanji (znaki chińskie), 2 zestawy kana (sylab fonetycznych) i litery łacińskie. Podczas gdy kana i litery łacińskie można wpisać bezpośrednio do komputera, wprowadzanie znaków kanji jest bardziej skomplikowanym procesem, ponieważ znaków kanji jest znacznie więcej niż klawiszy na większości klawiatur. Aby wprowadzić kanji na nowoczesnych komputerach, zwykle najpierw wprowadza się odczyt kanji, a następnie edytor metody wprowadzania (IME), czasami nazywany również procesorem front-end, pokazuje listę kanji kanji, które są zgodne fonetycznie, i pozwala użytkownikowi wybrać właściwy znak kanji. Bardziej zaawansowane edytory IME działają nie na podstawie słów, ale fraz, zwiększając w ten sposób prawdopodobieństwo uzyskania pożądanych znaków w pierwszej przedstawionej opcji. Wprowadzanie odczytów Kanji może odbywać się za pomocą latynizacji ( rōmaji nyūryoku, ローマ字入力 ) lub bezpośredniego wprowadzania danych kana ( kana nyūryoku, かな入力 ). Wejście Romaji jest bardziej powszechne na komputerach PC i innych pełnowymiarowych klawiaturach (chociaż wejście bezpośrednie jest również szeroko obsługiwane), podczas gdy wejście bezpośrednie Kana jest zwykle używane w telefonach komórkowych i podobnych urządzeniach – każda z 10 cyfr (1–9,0) odpowiada do jednej z 10 kolumn w gojūon kana i wielokrotnym naciśnięciem wybierz wiersz.

Istnieją dwa główne systemy latynizacji języka japońskiego, znane jako Kunrei-shiki i Hepburn ; w praktyce „romaji z klawiatury” (znany również jako wāpuro rōmaji lub „procesor tekstu romaji”) generalnie pozwala na luźną kombinację obu. Implementacje IME mogą nawet obsługiwać klucze dla liter nieużywanych w żadnym schemacie latynizacji, takim jak L , konwertując je na najbardziej odpowiedni odpowiednik. W przypadku wejścia kana każdy klawisz na klawiaturze odpowiada bezpośrednio jednej kana. Klawiatura JIS jest standardem krajowym, ale istnieją alternatywy, takie jak klawiatura z przesunięciem kciuka , powszechnie stosowana wśród profesjonalnych maszynistek.

Kierunek tekstu

LibreOffice Writer obsługuje opcję tekstu w dół

Japoński można pisać w dwóch kierunkach . Styl Yokogaki pisze od lewej do prawej, od góry do dołu, tak jak w języku angielskim. Styl Tategaki pisze najpierw od góry do dołu, a następnie przesuwa się od prawej do lewej.

Aby konkurować z Ichitaro , Microsoft dostarczył kilka aktualizacji wczesnych japońskich wersji programu Microsoft Word , w tym obsługę tekstu w dół, takiego jak Word 5.0 Power Up Kit i Word 98.

QuarkXPress był najpopularniejszym oprogramowaniem DTP w Japonii w latach 90., mimo że miał długi cykl rozwojowy. Jednak ze względu na brak obsługi tekstu skierowanego w dół, został on wyprzedzony przez Adobe InDesign , który miał silne wsparcie dla tekstu skierowanego w dół dzięki kilku aktualizacjom.

Obecnie [ kiedy? ] obsługa tekstu w dół jest niekompletna. Na przykład HTML nie obsługuje tategaki , a japońscy użytkownicy muszą używać tabel HTML, aby to symulować. Jednak CSS poziomu 3 zawiera właściwość „ write-mode ”, która może renderować tategaki , jeśli podano wartość „ vertical-rl ” (tj. od góry do dołu, od prawej do lewej). Pełniejsze wsparcie mają edytory tekstu i oprogramowanie DTP .

Zobacz też

Linki zewnętrzne