Chinesische Zeichenkodierung

Chinesische Zeichenkodierungen (chinesisch 漢字編碼方法 / 汉字编码方法, Pinyin Hànzì biānmǎ fāngfǎ) ordnen den chinesischen Schriftzeichen Bytefolgen zur Bearbeitung und Speicherung im Computer zu. Alle chinesischen Zeichenkodierungen enthalten auch eine Kodierung der ASCII-Zeichen.

Es gibt wahrscheinlich keine andere Sprache oder Schrift, für die es so viele Kodierungs- und Eingabemethoden gibt, wie für das Chinesische. Statistiken folgend, übersteigt die Anzahl der Kodierungskonzepte für die Eingabe chinesischer Schriftzeichen die Zahl Fünfhundert. Es gibt etwa 40 bis 50 verschiedene Kodes allein für entworfene Software, die formal im Computer getestet wurde. Kommerzialisierbar und allgemein gebräuchlich sind jedoch nicht mehr als zehn.

Dies hat ganz offensichtlich mit der hohen Anzahl an chinesischen Schriftzeichen und der komplizierten Form zu tun, gleichzeitig besteht eine direkte Verbindung mit den Tatsachen, dass es in China sehr viele Dialekte gibt, die Sprache und Schrift in den einzelnen Regionen nicht übereinstimmt und die allgemeine Hochsprache noch nicht ausreichend verbreitet ist.

Kodierung und Eingabe

Die meisten Kodierungsmethoden für chinesische Schriftzeichen, die mit der Tastatur eingegeben werden, lassen sich grob in vier Kategorien einteilen:

„fließende Kodierung“ (流水碼 / 流水码, Liúshuǐmǎ),
Kodierung nach der Form des Schriftzeichens (字形碼 / 字形码, Zìxíngmǎ),
Kodierung nach dem Laut des Schriftzeichens (字音碼 / 字音码, Zìyīnmǎ),
Kodierung nach Laut und Form des Schriftzeichens (形音碼 / 形音码, Xíngyīnmǎ oder 音形碼 / 音形码, Yīnxíngmǎ).

Liushui-Kodierung

Auch 無理碼 / 无理码, wúlǐmǎ (unvernünftige Kodierung) genannt.

Normalerweise werden arabische Ziffern oder lateinische Buchstaben verwendet, um die chinesischen Schriftzeichen zu kodieren, zum Beispiel war das Sima-dianbao, ein verschlüsselter Telegrammkode, das das Ministerium für Post- und Fernmeldewesen benutzte, eine typische Liushui-Kodierung. Im Prinzip kann man mit den Zahlen von 0001 bis 9999 fast zehntausend Schriftzeichen kodieren. Man kann die Kodierung dazu verwenden, Telegramme zu schreiben, aber das Ministerium für Post- und Fernmeldewesen benutzte es auch als Kodierungsmethode für die chinesischen Schriftzeichen.

Der Guojia biaozhun (zu Deutsch: nationaler Standard), (Version: „Informationsaustausch mit der Basissammlung von Zeichen zur Kodierung chinesischer Schriftzeichen (GB 2312-80)“), kodiert 6763 chinesische Schriftzeichen mit den Positionen 1601 bis 8794 aus der Reihenfolge des Liushui-Kodes. Das ist der unter dem Namen 區位碼 / 区位码, Qūwèimǎ (Zonenkode) bekannte Kode. Der Telegrammkode der beiden Zeichen 中国 (Zhōngguó, zu Deutsch: China) ist 0022 und 0948, und der Zonenkode ist 5448 und 2590.

Kodierung nach der Form des Schriftzeichens

Die Kodierung nach der Gestalt der Zeichen kann in drei Sorten eingeteilt werden: Kodierung für die Gestalt der Striche, Kodierung für die Wurzel des Schriftzeichens, Kodierung für Merkmale des Schriftzeichens.

Kodierung für die Gestalt der Striche

Die Kodierung für die Gestalt der Striche benutzt die grundlegendsten Striche als Eingabe-Einheiten.

Li Jinkais Acht-Striche-Kodierung ist eine typische Kodierung für die Gestalt der Striche. Er teilt die Striche der chinesischen Schriftzeichen in acht Sorten ein: „一“ Heng, „丨“ Shu, „丿“ Pie, „丶“ Dian, Zhe, Wan, Cha, Fang, und kodiert sie mit den Ziffern von eins bis acht. Zum Beispiel ist die Kodierung für die beiden Zeichen 中国 82 und 81714.

Die Strichkodierung im Wubizixing-Code ist die „Methode des zerteilten Zeichens“. Die Striche „一“ Heng, „丨“ Shu, „丿“ Pie, Na, Zhe, werden mit den Ziffern von eins bis fünf kodiert.

Kodierung für die Wurzel des Schriftzeichens

Wird auch Radikal-Kodierung oder Struktur-Kodierung genannt, mit den Radikalen der chinesischen Schriftzeichen als Eingabe-Einheiten.

Wang Yongmins Wubizixing-Code ist typisch für eine Kodierung der Wurzel des Zeichens. Er fasste 130 grundlegende Wurzelzeichen zusammen, ordnete sie auf der Tastatur an, auf jeder Taste sechs Wurzelzeichen, eine Taste wird mehrmals verwendet. Die Taste „L“ steht z. B. für 车, 力, 甲, 田, 四, 口. Beim Eingeben drückt man die entsprechenden Tasten mit der Buchstabenkombination und schon kann man das benötigte Zeichen eingeben. Drückt man zum Beispiel „khk“ und „lgyi“, so werden auf dem Bildschirm die beiden Zeichen 中国 ausgegeben.

Kodierung für Merkmale des Schriftzeichens

Es wird gemäß der Gesetzmäßigkeiten der Konturmerkmale der chinesischen Schriftzeichen kodiert. Beispiele: 角碼 / 角码, Jiǎomǎ (Eckenkode). Es gibt die Drei-Ecken-Kodierung von Wang An und die Vier-Ecken-Nummer-Kodierung von Wang Yunwu u. a.

Kodierung nach dem Laut des Schriftzeichens

Tastatur für „doppelte Buchstabierung“.

Die Kodierung nach dem Laut des Schriftzeichens heißt je nach Lautschrift (Pinyin in China, Zhuyin oder Bopomofo in Taiwan) auch Pinyin- oder Zhuyin- beziehungsweise Bopomofo-Eingabe-Kodierung. Pinyin wird dabei im Zusammenhang mit intelligenten Eingabesystemen für lateinische Buchstaben verwendet.

Die Schriftzeichen werden mit ihrer Lautung kodiert. Normalerweise kommen die wichtigen Faktoren Anlaut, Auslaut und Töne zum Tragen. Die Kodierung nach dem Laut der Schriftzeichen kann weiter eingeteilt werden in die Arten

„komplette Buchstabierung“ (全拼, quán pīn),
„doppelte Buchstabierung“ (雙拼 / 双拼, shuāng pīn) und
„vermischte Buchstabierung“ (混拼, hùn pīn).

Ein Beispiel für die „komplette Buchstabierung“ von 中国, Zhōngguó wäre folgendes: Man gibt acht Buchstaben ein. Die doppelte Buchstabierung ist „vsgo“, man gibt einen Kode aus vier Buchstaben ein, davon stehen „v“ und „g“ jeweils für die Anlaute „zh“ und „g“, „s“ und „o“ jeweils für die Auslaute „ong“ und „uo“. Die vermischte Buchstabierung ist „jiaty“, man gibt einen Kode aus fünf Buchstaben ein.

Von den drei oben aufgeführten Sorten entspricht nur die „komplette Buchstabierung“ der normierten Schreibung für die Buchstabierung der chinesischen Schrift (Pinyin), die doppelte Buchstabierung und die vermischte Buchstabierung sind von den Designern des Kodes entworfen worden. Die oben genannten Beispiele „doppelte Buchstabierung“ und „vermischte Buchstabierung“ sind jeweils ein natürlicher Kode und ein spezieller Entwurf für das CCDOS-System.

Kodierung nach Laut und Form des Schriftzeichens

Diese Kodierungsart ist eine Verbindung aus der Kodierung nach der Form der Schriftzeichen und der Kodierung nach dem Laut der Schriftzeichen. Darunter kann man aufteilen in Laut-Form-Kodierung, Form-Laut-Kodierung, Laut-Bedeutung-Kodierung und andere.

Gegenwärtige Verwendung

Oben wurden vier Möglichkeiten angeführt, chinesische Schriftzeichen zu kodieren bzw. einzugeben. Aus der Sicht der gegenwärtigen Anwendung favorisieren diejenigen, die Chinesisch sprechen können und das Pinyin für Chinesisch verstehen, die Pinyin-Eingabemethode. Diejenigen, die Dialekt sprechen, benutzen lieber eine Kodierung nach der Form der Schriftzeichen, das Wubizixing wird deswegen von den meisten professionellen Tippern beherrscht.

Kodierung im Internet

Wenn man seinen Browser beim Laden von chinesischsprachigen Websites richtig einstellen will, trifft man meist auf folgende Kodes:

Big5

Die Zeichenkodierung Big5 stammt aus Taiwan und wird für traditionelles Chinesisch verwendet. ASCII-Zeichen werden in einem Byte kodiert und entsprechen der normalen ASCII-Kodierung. Chinesische Zeichen werden in zwei Bytes kodiert.

GB2312

Die Zeichenkodierung GB2312 wird für vereinfachtes Chinesisch verwendet. ASCII-Zeichen werden in einem Byte kodiert und entsprechen der normalen ASCII-Kodierung. Chinesische Zeichen werden in zwei Bytes kodiert.

GB18030

Die Zeichenkodierung GB18030 ist eine Erweiterung von GB2312 auf den Unicodezeichenvorrat und wird für vereinfachtes Chinesisch verwendet. ASCII-Zeichen werden in einem Byte kodiert und entsprechen der normalen ASCII-Kodierung. Chinesische Zeichen werden in zwei oder vier Bytes kodiert. In der Fassung GB 18030-2000 sind 110.000 Zeichen definiert.

Unicode

Unicode unterscheidet sich von den anderen chinesischen Zeichenkodierungen dadurch, dass kein Unterschied zwischen vereinfachtem und traditionellem Chinesisch gemacht wird, sondern durch die Han-Vereinheitlichung alle chinesischen, japanischen und koreanischen Zeichen so weit wie möglich identifiziert werden.

Unicode Transformation Formats

Unicode ordnet den Zeichen zuerst abstrakte Nummern (code points) zu, deren Umsetzung in Bytefolgen in den Unicode Transformation Formats definiert wird:

In UTF-8 werden ASCII-Zeichen in einem Byte kodiert und chinesische Zeichen in drei oder vier Bytes.
In UTF-16 werden ASCII-Zeichen in zwei Bytes kodiert und chinesische Zeichen in zwei oder vier Bytes.
In UTF-32 werden ausnahmslos alle Zeichen in vier Bytes kodiert.

Diese Unicode Transformation Formats heißen auch encoding, womit die Länge der Speichervariablen (1, 2, 4 Byte) bezeichnet wird und endianness, womit die Bytereihenfolge definiert wird (big endian, little endian).

SIP

Für eine große Anzahl von wenig benutzten Zeichen werden die Kodes in der Supplementary Ideographic Plane alloziert, d. h. im Bereich U+20000-U+2FFFF.

Sonstige Unicode-Bereiche

Unicode hat auch Bereiche für Bopomofo, Radikale und Sonderzeichen, die für die Typographie gebraucht werden. Die lateinischen Zeichen mit Angabe des Tons, wie sie für Pinyin gebraucht werden, sind entweder einzeln kodiert oder über den Bereich für kombinierende diakritische Zeichen darstellbar.

Siehe auch

CJK Chinesisch-Japanisch-Koreanisch

Weblinks

GB18030 Zusammenfassung [Memento vom 3. Juli 2021 im Internet Archive; PDF; 422 kB] (englisch)
Eingabesysteme (unter UNIX, Linux, BSD usw.): OXIM 中文輸入法框架 (archiviert), SCIM/SKIM Project (archiviert), XCIN Project (archiviert) (XCIN)
- Anleitung zu SCIM