Gesetz der Verteilung von Schriftzeichen verschiedener Komplexität

Das Gesetz der Verteilung von Schriftzeichen verschiedener Komplexität sagt aus, dass Schriftzeichen verschiedener Komplexitätsgrade in Texten gemäß einem theoretisch begründbaren Sprachgesetz verwendet werden.

Komplexität von Schriftzeichen

Schaut man sich geschriebene Texte an, so ist deutlich, dass Schriftzeichen wie etwa das <o> relativ einfach oder solche wie das <m> recht komplex gestaltet sein können, wenn man als Kriterium für die Komplexität zum Beispiel die Zahl der Richtungsänderungen im Verlauf des Schriftzeichens annimmt. Deutlicher als in der lateinischen Schrift sind die Unterschiede jedoch in der chinesischen oder der japanischen Schrift. In diesen Fällen kann als Kriterium für die Komplexität die Zahl der Striche oder der Komponenten, aus denen die einzelnen Schriftzeichen bestehen, gewählt werden.

Gesetz der Verteilung von Schriftzeichen verschiedener Komplexität

Das Gesetz der Verteilung von Schriftzeichen verschiedener Komplexität besagt nun, dass Schriftzeichen, die aus unterschiedlichen Mengen von Strichen oder Komponenten bestehen, in Texten nicht chaotisch, sondern gesetzmäßig verteilt sind. Es handelt sich dabei im Prinzip um das gleiche Sprachgesetz, das die Quantitative Linguistik besonders für die Häufigkeitsverteilung der Wortlängen entwickelt hat (Gesetz der Verteilung von Wortlängen; Theorie: Wimmer u. a.^[1]).

Verteilung der Schriftzeichen im Chinesischen

Schriftzeichen sind im Chinesischen hierarchisch organisiert: Sie bestehen zunächst aus einer oder mehreren Komponenten, die Komponenten wiederum aus einem oder mehreren einzelnen Strichen. Untersuchungen zur Verteilung von Schriftzeichen unterschiedlicher Komplexität im Chinesischen wurden auf folgende Weisen durchgeführt:

die Komplexität der Schriftzeichen wurde durch die Zahl der Striche (ohne Berücksichtigung der Komponenten) bestimmt^[2]; in diesem Fall konnte an 20 Einzeltexte die 1-verschobene Binomialverteilung als Modell mit guten Ergebnissen angepasst werden. Die Schriftzeichen wurden so zusammengefasst, dass die erste Klasse aus x = 1 – 3, die zweite aus x = 4 – 6 Strichen undsoweiter bestanden. Ein Beispiel:

x	n(x)	NP(x)
1	36	31,83
2	79	87,75
3	105	96,75
4	47	53,34
5	17	14,70
6	2	1,62

^[3] (Dabei ist x: Zahl der Striche pro Schriftzeichen, n(x) die in diesem Text beobachtete Zahl der Schriftzeichen mit x Strichen; NP(x) die Zahl der Schriftzeichen mit x Strichen, die berechnet wird, wenn man die 1-verschobene Binomial-Verteilung an die beobachteten Daten anpasst. Ergebnis: die 1-verschobene Binomial-Verteilung ist für diesen Text ein gutes Modell mit dem Testkriterium P = 0,34, wobei P als gut erachtet wird, wenn es größer/gleich 0,05 ist. Für ausführlichere Erläuterungen sei auf die angegebene Literatur verwiesen.)

die Komplexität der Schriftzeichen wurde durch die Zahl ihrer Komponenten bestimmt; die Komponenten setzen sich ihrerseits aus unterschiedlich vielen Strichen zusammen. Bei einer Menge von über 5000 Schriftzeichen erwies sich die 1-verschobene Dacey-Poisson-Verteilung als ein geeignetes Modell.^[4]

die Komplexität der Komponenten wurde durch die Zahl ihrer Striche bestimmt. Bei einer Menge von 500 Komponenten erwies sich die 1-verschobene Poisson-Verteilung als ein geeignetes Modell.^[5]

Verteilung der Komplexität der geschriebenen Wörter im Japanischen

Bei einer Untersuchung zum Japanischen spielte die Komplexität der Kanji-Zeichen nur indirekt eine Rolle. Hier wurde vielmehr die Wortkomplexität untersucht, wobei Wörter mit x = 1 – 5 Strichen, x = 6 – 10 Strichen und so weiter klassifiziert wurden. Das Beispiel hat Sanada anhand eines Wörterbuchausschnitts erarbeitet^[6]:

x	n(x)	NP(x)
1	4	2,91
2	66	78,47
3	368	358,89
4	594	580,85
5	438	449,87
6	200	196,71
7	55	53,91
8	5	9,96
9	3	1,44

(Dabei ist x: Zahl der Striche pro Wort, n(x) die in diesem Text beobachtete Zahl der Wörter mit x Strichen; NP(x) die Zahl der Wörter mit x Strichen, die berechnet wird, wenn man die Conway-Maxwell-Poisson-Verteilung an die beobachteten Daten anpasst. Ergebnis: die Conway-Maxwell-Poisson-Verteilung ist für Wortschatzausschnitt ein gutes Modell mit dem Testkriterium P = 0,28, wobei P als gut erachtet wird, wenn es größer/gleich 0,05 ist. (Für ausführlichere Erläuterungen sei auf die angegebene Literatur verwiesen.)

Ein allgemeines Sprachgesetz

Mit diesen Untersuchungen, die noch nicht sehr reichhaltig sind, deutet sich an, dass auch für die Schriftzeichen unterschiedlicher Komplexität im Prinzip die gleichen Gesetzmäßigkeiten gelten, die auch schon für die gut erforschten Wortlängen und etliche andere Sprachgrößen gelten. Bearbeitet man, wie im vorigen Abschnitt am Beispiel des Japanischen dargestellt, die Verteilung unterschiedlich komplexer Wörter in ihrer schriftlichen Form, kommt man zu einem vergleichbaren Ergebnis. Siehe dazu auch:

Literatur

Gabriel Altmann: Script Complexity. In: Glottometrics 8, 2004, Seite 68–74 (PDF Volltext).
Gabriel Altmann, Fan Fengxiang (Hrsg.): Analyses of Script. Properties of Characters and Writing Systems. Mouton de Gruyter, Berlin/New York 2008, ISBN 978-3-11-019641-2. Die Beiträge des Buches geben einen Überblick über Fragestellungen, mit denen die Quantitative Linguistik die Schriftsysteme zu erfassen sucht, darunter finden sich auch mehrere Versuche, Gesetzmäßigkeiten der Graphemkomplexität/Graphemlänge nachzuweisen. Darin:
Gabriel Altmann: Towards a theory of script. Seite 149–164.
Carsten Peust: Script complexity revisited. In: Glottometrics 12, Seite 11–15 (PDF Volltext).

Einzelnachweise

↑ Gejza Wimmer, Gabriel Altmann: The Theory of Word Length Distribution: Some Results and Generalizations. In: Peter Schmidt (Hrsg.): Glottometrika 15. Issues in General Theory and the Theory of Word Length. Wissenschaftlicher Verlag Trier, Trier 1996, Seite 112–133, ISBN 3-88476-228-1; Gejza Wimmer, Reinhard Köhler, Rüdiger Grotjahn & Gabriel Altmann: Towards a Theory of Word Length Distribution. In: Journal of Quantitative Linguistics 1, 1994, Seite 98–106
↑ Xiaoli Yu: Zur Komplexität chinesischer Schriftzeichen. In: Göttinger Beiträge zur Sprachwissenschaft 5, 2001, Seite 121–129.
↑ Xiaoli Yu 2001, Seite 126. Es handelt sich um den Text Nummer 12, von Binxin: Wangshi [2].
↑ Hartmut Bohn: Quantitative Untersuchungen der modernen chinesischen Sprache und Schrift. Verlag Dr. Kovač, Hamburg 1998, Seite 55f. ISBN 3-86064-672-9.
↑ Hartmut Bohn: Quantitative Untersuchungen der modernen chinesischen Sprache und Schrift. Verlag Dr. Kovač, Hamburg 1998, Seite 52f. ISBN 3-86064-672-9.
↑ Haruko Sanada: Investigations in Japanese Historical Lexicology (Revised Edition). Peust & Gutschmidt, Göttingen 2008, Seite 99–101. ISBN 978-3-933043-12-2.

Weblinks

http://lql.uni-trier.de/index.php/Char_Complexity

[1] Gejza Wimmer, Gabriel Altmann: The Theory of Word Length Distribution: Some Results and Generalizations. In: Peter Schmidt (Hrsg.): Glottometrika 15. Issues in General Theory and the Theory of Word Length. Wissenschaftlicher Verlag Trier, Trier 1996, Seite 112–133, ISBN 3-88476-228-1; Gejza Wimmer, Reinhard Köhler, Rüdiger Grotjahn & Gabriel Altmann: Towards a Theory of Word Length Distribution. In: Journal of Quantitative Linguistics 1, 1994, Seite 98–106

[2] Xiaoli Yu: Zur Komplexität chinesischer Schriftzeichen. In: Göttinger Beiträge zur Sprachwissenschaft 5, 2001, Seite 121–129.

[3] Xiaoli Yu 2001, Seite 126. Es handelt sich um den Text Nummer 12, von Binxin: Wangshi [2].

[4] Hartmut Bohn: Quantitative Untersuchungen der modernen chinesischen Sprache und Schrift. Verlag Dr. Kovač, Hamburg 1998, Seite 55f. ISBN 3-86064-672-9.

[5] Hartmut Bohn: Quantitative Untersuchungen der modernen chinesischen Sprache und Schrift. Verlag Dr. Kovač, Hamburg 1998, Seite 52f. ISBN 3-86064-672-9.

[6] Haruko Sanada: Investigations in Japanese Historical Lexicology (Revised Edition). Peust & Gutschmidt, Göttingen 2008, Seite 99–101. ISBN 978-3-933043-12-2.

[1]

[2]

[3]

[4]

[5]

[6]