Big5
Big5 (chinesisch 大五碼, Pinyin Dàwǔmǎ, Jyutping Daai6ng5maa5, alternativ: 五大碼, Wǔdàmǎ, Jyutping Ng5daai6ma5) ist eine Zeichenkodierung für traditionelle chinesische Schriftzeichen. Sie kodiert 13.062 chinesische Schriftzeichen (zwei Schriftzeichen sind allerdings doppelt kodiert) und ist bei weitem der am meisten benutzte Zeichensatz in der Republik China (Taiwan). Der Name Big5 leitet sich davon ab, dass dieser Standard von den fünf größten taiwanischen Computerherstellern gemeinsam entwickelt wurde.
Geschichte
BearbeitenBevor Big5 existierte, wurden in Taiwan verschiedene zueinander inkompatible Zeichensätze wie IBM 5550 verwendet. Big5 sollte diese Zeichensätze ablösen und wurde 1984 eingeführt.
Nach der Einführung fand Big5 große Verbreitung und wurde u. a. in veränderter Form in Windows als Codepage 950 eingeführt. Später wurde CNS 11643 eingeführt, um Big5 abzulösen, dieses Vorhaben scheiterte jedoch. Aufgrund dessen wurde Big5 selber 2003 zum offiziellen Standard Taiwans erklärt.
Außer in Taiwan wird Big5 in Hongkong und Macau verwendet, die ebenfalls Langzeichen benutzen.
Kodierung
BearbeitenFür die Kodierung der chinesischen Schriftzeichen werden in Big5 Bytepaare verwendet. Das erste Byte in einem solchen Paar wird Lead Byte (führendes Byte) genannt und kann Werte von A1hex bis C6hex oder C9hex bis F9hex annehmen. Das zweite Byte wird Trail Byte (folgendes Byte) genannt und kann Werte 40hex bis 7Ehex oder A1hex bis FEhex annehmen. Inoffiziell werden die Bytes, bei denen das oberste Bit nicht gesetzt ist (00hex bis 7Fhex) als ASCII-Zeichen interpretiert. Dadurch haben Zeichen in Big5 eine variable Länge von 1 oder 2 Byte.
Aufbau und Struktur
BearbeitenBig5 ist in mehrere Bereiche eingeteilt:
- Der Bereich von 8140hex bis A0FEhex ist reserviert für private Nutzung.
- Der Bereich von A140hex bis A3FFhex kodiert Satzzeichen, das griechische Alphabet und Symbole.
- Der Bereich von A440hex bis C67Ehex kodiert chinesische Schriftzeichen, die zuerst nach Strichen und dann nach Radikal sortiert werden.
- Der Bereich von C6A1hex bis C8FEhex ist reserviert für private Nutzung.
- Der Bereich von C940hex bis F9D5hex kodiert weitere chinesische Schriftzeichen, die ebenfalls zuerst nach Strichen und dann nach Radikal sortiert werden.
- Der Bereich von F9D6hex bis FEFEhex ist reserviert für private Nutzung.
Erweiterungen
BearbeitenDa Big5 viele benötigte Zeichen fehlen, haben sowohl Unternehmen als auch staatliche Institute eigene Erweiterungen zu Big5 entwickelt.
E-Ten
BearbeitenE-Ten hat für ihr Betriebssystem einige Zeichen aus dem IBM 5550-Zeichensatz hinzugefügt:
- Der Bereich A3C0hex-A3E0hex enthält Steuerzeichen.
- Der Bereich C6A1hex-C875hex enthält eingekreiste und eingeklammerte Ziffern, Radikale, japanische Kana sowie die kyrillische Schrift.
- Der Bereich F9D6hex-F9FEhex enthält sieben zusätzliche chinesische Schriftzeichen sowie Rahmenzeichnung.
Microsoft
BearbeitenMicrosoft hat für Windows die Codepage 950 erstellt, die praktisch identisch zu Big5 ist, aber zusätzlich die Zeichen aus dem Bereich F9D6hex-F9FEhex der E-Ten-Erweiterungen sowie das Eurozeichen enthält.
HKSCS
BearbeitenHongkong benutzt ebenfalls Big5. Da dieser Zeichensatz jedoch viele benötigte Zeichen für das Kantonesische nicht enthält, hat Hongkong den Hong Kong Supplementary Character Set (HKSCS) entwickelt, der auf Big5 basiert, jedoch viele zusätzliche Schriftzeichen für den lokalen Sprachgebrauch enthält.
Weblinks
Bearbeiten- Windows Codepage 950 In: msdn.microsoft.com (archiviert, englisch)
- Unicode Best Fit 950 äquivalent zum Windows Codepage 950 In: unicode.org (englisch)