Indian Script Code for Information Interchange
Indian Script Code for Information Interchange (ISCII) ist die nationale indische Norm für die Kodierung der Zeichen der verschiedenen indischen Schriften, die sämtlich Abkömmlinge der Brahmi-Schrift sind. Sie sind prinzipiell sehr ähnlich strukturiert, jedoch sind die Buchstabenformen sehr unterschiedlich. So versucht ISCII, die logische Struktur dieser Schriften zu kodieren, während die Auswahl der speziellen Buchstabenformen von einer Auszeichnungssprache oder einer Schrifttechnik wie OpenType vorgenommen wird.
ISCII umfasst die folgenden Schriften: Bengali, Devanagari, Gujarati, Gurmukhi, Kannada, Malayalam, Oriya, Tamilisch und Telugu.
Wird ein Text auf eine andere Schrift umgestellt, erfolgt eine automatische Transliteration.
ISCII ist ein 8-Bit Zeichensatz, bei dem, wie bei den ISO 8859 und vielen anderen Zeichensätzen, die unteren 128 Zeichen dem ASCII-Standard entsprechen.
In Unicode ist die Kodierungsart von ISCII weitgehend beibehalten worden. Hier aber sind die unterschiedlichen Schriften in separaten jeweils 128 Byte großen Codeblöcken im Bereich U+0900 bis U+0DFF kodiert.
Code | …0 | …1 | …2 | …3 | …4 | …5 | …6 | …7 | …8 | …9 | …A | …B | …C | …D | …E | …F |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
A… | ँ | ं | ः | अ | आ | इ | ई | उ | ऊ | ऋ | ऎ | ए | ऐ | ऍ | ऒ | |
B… | ओ | औ | ऑ | क | ख | ग | घ | ङ | च | छ | ज | झ | ञ | ट | ठ | ड |
C… | ढ | ण | त | थ | द | ध | न | ऩ | प | फ | ब | भ | म | य | य़ | र |
D… | ऱ | ल | ळ | ऴ | व | श | ष | स | ह | INV | ा | ि | ी | ु | ू | ृ |
E… | ॆ | े | ै | ॅ | ॊ | ो | ौ | ॉ | ् | ़ | । | ATR | ||||
F… | EXT | ० | १ | २ | ३ | ४ | ५ | ६ | ७ | ८ | ९ |
- D9hex: INV
- Unsichtbares (invisible) Zeichen, mit dem in Verbindung mit Halant (siehe unten) sogenannte Halbformen kombinierender Zeichen isoliert dargestellt werden können, z. B. क (ka) + ् (Halant) + INV = क् . In Unicode folgt auf das Halant U+094D stattdessen das Zeichen ZERO WIDTH JOINER U+200D.
- INV wird auch als (leeres) Basiszeichen zur Darstellung kombinierender Vokalzeichen verwendet. In Unicode wird stattdessen NBSP U+00A0 oder der gepunktete Kreis ◌ U+25CC verwendet.
- EFhex: ATR
- Schalter zur Auswahl einer bestimmten Schriftformatierung oder -sprache bis zum Zeilenende. Steht dazu vor einem Bytecode.
- F0hex: EXT
- Vedischer Akzent. Auswahl durch folgendes Byte.
- E8hex: Halant (Virama)
- Entfernt den vorhergehenden inhärenten Vokal und verbindet Konsonanten zu Clustern, z. B. क (ka) + ् (Halant) + त (ta) = क्त (kta).
- Die Sequenz ् (Halant) + ् (Halant) erzeugt ein explizites Halant, z. B. क (ka) + ् (Halant) + ् (Halant) + त (ta) = क्त.
- Die Sequenz ् (Halant) + ़ (Nukta) erzeugt Halbkonsonanten, wenn möglich, z. B. क (ka) + ् (Halant) + ़ (Nukta) = क्.
ISCII | Unicode |
---|---|
Halant | Halant |
Halant + Halant | Halant + ZWNJ |
Halant + Nukta | Halant + ZWJ |
- E9hex: Nukta
- Erzeugt nachgestellt seltenere Zeichen ohne eigenen Code, z. B. क (ka) + ़ (Nukta) = क़ (qa).
Siehe auch
Bearbeiten- TSCII (alternative Norm für Tamilisch)
Weblinks
Bearbeiten- The ISCII standard (PDF, engl., 258 kB)
- Weiterführende Informationen der indischen Regierung