Indische Schriften in Unicode
Die indischen Schriften in Unicode umfassen den indischen Schriftenkreis und damit nicht nur einen großen Teil der in Indien verwendeten Schriften, sondern auch weitere Schriften, die in Südostasien verwendet werden. Auch weitere indische Schriften, die nicht von der Brahmi-Schrift abstammen, sind in Unicode kodiert. Die korrekte Darstellung dieser Schriften erfordert teilweise komplexe Algorithmen, die durch einige Steuerzeichen beeinflusst werden können.
Gemeinsamkeiten
BearbeitenDie indischen Schriften gehören zur Klasse der Abugida, viele von ihnen haben einen sehr ähnlichen Aufbau. Konsonanten können in zwei Arten auftreten: Zum einen als lebendige Konsonanten, die einen Vokal tragen. Dies kann der inhärente Vokal sein, oder ein anderer, abhängiger Vokal. Zum anderen gibt es tote Konsonanten, die keinen Vokal tragen. Neben den abhängigen Vokalen gibt es auch eigenständige.
Ein Konsonant mit abhängigem Vokal kann auf verschiedene Weisen dargestellt werden. Im einfachsten Fall ergänzt das Vokalzeichen das Konsonantenzeichen vergleichbar zu Buchstaben mit diakritischen Zeichen. Das Vokalzeichen kann dabei an unterschiedlichen Positionen, auch vor dem Konsonant erscheinen. In einigen Fällen besteht das Vokalzeichen aus zwei getrennten Teilen. Auch ein eigenes Zeichen für die Kombination aus Konsonant und Vokalzeichen ist möglich.
Ein toter Konsonant kann ebenfalls auf mehrere Arten dargestellt werden. Häufig bildet er mit dem folgenden Konsonanten eine Ligatur. Eine weitere Möglichkeit besteht darin, ihn in der sogenannten Halbform darzustellen. Dies ist eine aus dem Konsonantenzeichen abgeleitete Form, die man als den Grundbestandteil ohne die visuelle Repräsentation des inhärenten Vokals interpretieren kann. Eine andere Möglichkeit ist es, den toten Konsonanten durch ein Virama genanntes Zusatzzeichen zu kennzeichnen.
Unicode kodiert für alle indischen Schriften getrennt folgende Zeichen: Konsonantenzeichen und eigenständige Vokalzeichen werden als gewöhnliche Zeichen kodiert, Zeichen für abhängige Vokale als kombinierende Zeichen. Ebenfalls als kombinierendes Zeichen wird das Virama kodiert, das einen Konsonanten als toten Konsonanten kennzeichnet. Damit ist nicht automatisch festgelegt, wie dieser darzustellen ist, insbesondere muss nicht jede Kombination aus Konsonant und Virama mit einem sichtbaren Virama dargestellt werden. Vielmehr gibt es für jede Sprache eine Reihe von Regeln, die festlegen, welche Folgen von toten und lebendigen Konsonanten auf welche Weise dargestellt werden soll. Für die korrekte Darstellung muss der eingesetzte Font also über die notwendigen Glyphen verfügen. Ein weiteres kombinierendes Zeichen ist das Nukta.
Um eine bestimmte Darstellung eines toten Konsonanten explizit auszuwählen, werden in Unicode die beiden Steuerzeichen ZWJ (Breitenloser Verbinder) und ZWNJ (breitenloser Nichtverbinder) verwendet. Folgt einem toten Konsonanten ein ZWJ, so wird dieser in der Halbform dargestellt, folgt ihm ein ZWNJ, so wird ein sichtbares Virama verwendet.
Unicode folgt damit dem indischen Standard ISCII-1988 sowohl im Prinzip der Kodierung als auch in der relativen Position der einzelnen Zeichen. Darüber hinaus kodiert Unicode aber noch weitere Zeichen, insbesondere Ziffern für die einzelnen Schriften.
Kodierte Schriften
BearbeitenDie folgenden indischen Schriften sind auch im Standard ISCII-1988 kodiert und folgen alle sehr eng den obigen Darstellungsregeln.
Die folgenden Schriften, die in Südasien verwendet werden oder wurden, stammen ebenfalls von der Brahmischrift ab, sind aber nicht im Standard ISCII-1988 kodiert und weichen in der Darstellung teilweise von den obigen Regeln ab.
Auch außerhalb von Südasien werden Schriften des indischen Schriftenkreises verwendet:
Zwei indische Schriften fallen aus diesem Rahmen. Dies ist zum einen das im Unicodeblock Ol Chiki kodierte Ol Chiki, eine Alphabet-Schrift, und die im Unicodeblock Kharoshthi kodierte Kharoshthi-Schrift, die zwar wie die anderen Schriften eine Abugida-Schrift ist, aber von rechts nach links geschrieben wird.
Kritik
BearbeitenDie Unicode-Kodierung der Tamil-Schrift wurde von einigen Organisationen kritisiert, darunter auch die Regierung von Tamil Nadu. Stattdessen wurde mit TACE-16 eine alternative Kodierung vorgeschlagen, die die einzelnen Silben kodiert, statt Konsonanten und Vokalzeichen. Diese Kodierung erlaubt insbesondere eine korrekte Sortierung ohne Anwendung komplexer Algorithmen wie dem Unicode Collation Algorithm. Eine Änderung am Unicode-Standard wurde nicht durchgeführt, da dies den Stabilitätskriterien von Unicode widerspricht.[1]
Quellen
Bearbeiten- Julie D. Allen et al.: The Unicode Standard. Version 6.2 – Core Specification. The Unicode Consortium, Mountain View, CA, 2012. ISBN 978-1-936213-07-8. Chapter 9: South Asian Scripts-I (PDF; 2,0 MB), Chapter 10: South Asian Scripts-II (PDF; 724 kB), Chapter 11: Southeast Asian Scripts (PDF; 674 kB).
Einzelnachweise
Bearbeiten- ↑ FAQ: Tamil Language and Script, abgerufen am 19. Februar 2013.
Weblinks
Bearbeiten- FAQ: Indic Scripts and Languages (englisch)
- Richard Ishida: An Introduction to Indic Scripts (englisch; PDF; 340 kB)