Gesetz der Verteilung von Morphlängen
Die Länge eines Morphs kann verschieden definiert werden: als die Zahl der Buchstaben, Laute oder Phoneme.
Morphlängen in einem kleinen deutschen Textkorpus
BearbeitenAls Beispiel für das Vorkommen von Morphen in einem kleinen deutschen Textkorpus werden in der folgenden Tabelle die Daten für 20 Texte aus Lichtenbergs Sudelbuch H vorgestellt, die insgesamt 5618 Morphe umfassen:[1]
Phoneme pro Morph | Anzahl der Morphe mit dieser Phonemzahl | Anteil in Prozent |
---|---|---|
1 | 1277 | 22.73 |
2 | 2106 | 37.49 |
3 | 1304 | 23.21 |
4 | 654 | 11.64 |
5 | 222 | 3.95 |
6 | 42 | 0.75 |
7 | 7 | 0.12 |
8 | 4 | 0.07 |
9 | 2 | 0.04 |
Als durchschnittliche Morphlänge ergibt sich in diesem Fall als ML = 2,40.
Zum Vergleich können zwei weitere kleine Textkorpora angeführt werden:
Textklasse | Anzahl der Morphe | Mittelwert (Phoneme/Morphe) |
---|---|---|
Pestalozzi, Fabeln[2] | 5841 | 2.33 |
Pressemeldungen[3] | 3286 | 2.52 |
Die durchschnittliche Morphlänge ist bei Pestalozzi ML = 2.33, bei den Pressetexten 2,52.
Beispiel für die gesetzmäßige Verteilung von Morphlängen in Einzeltexten
BearbeitenUntersucht man nun für eine Reihe von Einzeltexten, wie häufig Morphe verschiedener Länge in ihnen vorkommen, so kann man feststellen, dass sie von einem Sprachgesetz gesteuert sind. Untersuchungen zu Lexika stehen noch aus; es ist aber damit zu rechnen, dass bei Texten und Lexika unterschiedliche Verteilungen das Vorkommen der Morphe repräsentieren werden. Es handelt sich im Prinzip um das gleiche Sprachgesetz, das die Quantitative Linguistik besonders für die Häufigkeitsverteilung der Wortlängen entwickelt hat (Gesetz der Verteilung von Wortlängen; Theorie: Wimmer u. a.).[4]
Ein Beispiel für eine Morphlängenverteilung (gemessen als Zahl der Phoneme pro Morph) in einem kurzen Pressetext:[5]
x | n(x) | NP(x) |
---|---|---|
1 | 28 | 26,02 |
2 | 42 | 44,86 |
3 | 31 | 31,07 |
4 | 17 | 13,47 |
5 | 3 | 5,58 |
(Dabei ist x: Zahl der Phoneme pro Morph, n(x) die in diesem Text beobachtete Zahl der Morphe mit x Phonemen Länge im Text; NP(x) die Zahl der Morphe mit x Phonemen, die berechnet wird, wenn man die Hyperpoisson-Verteilung an die beobachteten Daten anpasst. Ergebnis: die Hyperpoisson-Verteilung ist für diesen Text ein gutes Modell mit dem Testkriterium P = 0,30, wobei P als gut erachtet wird, wenn es größer/gleich 0,05 ist. Für ausführlichere Erläuterungen sei auf die angegebene Literatur verwiesen.)
Die Morphlängenverteilung dieses Textes ist für das Deutsche recht typisch: am häufigsten sind die Morphe, die aus 2 bzw. 3 Phonemen bestehen; sowohl die ein- als auch die mehrphonemigen sind dagegen fast immer seltener.
Die Untersuchungen zu Morphlängen sind insgesamt gesehen noch nicht sehr zahlreich.[6] Immerhin kann gezeigt werden, dass bei Morphlängen in 42 deutschen Prosatexten die Hyperpoisson-Verteilung ein gutes Modell ist. Bei anderen Sprachen und anderen Textarten sind andere Modelle möglich. Creutz (2003)[7] etwa zeigt, dass im finnischen Wörterbuch verschiedene Verteilungen angewendet werden müssen, je nachdem, ob man Morph-Types oder Morph-Token verwendet. Es spricht damit bisher aber nichts gegen die allgemeine Hypothese, dass sprachliche Einheiten beliebiger Art sich in Texten oder Wörterbüchern gemäß bestimmten Gesetzen verteilen.
Siehe auch
BearbeitenLiteratur
Bearbeiten- Karl-Heinz Best: Morphlängen in Fabeln von Pestalozzi. In: Göttinger Beiträge zur Sprachwissenschaft 3, 2000, Seite 19–30.
- Karl-Heinz Best: Morphlänge. In: Reinhard Köhler, Gabriel Altmann, & Rajmund G. Piotrowski (Hrsg.): Quantitative Linguistik - Quantitative Linguistics. Ein internationales Handbuch. de Gruyter, Berlin/New York 2005, ISBN 3-11-015578-8, Seite 255–260.
- Karl-Heinz Best: Wie viele Morphe enthalten Wörter in deutschen Pressetexten? In: Glottometrics 13, 2006, Seite 47–58 (PDF Volltext).
- Karl-Heinz Best: Silben-, Wort- und Morphlängen bei Lichtenberg. In: Glottometrics 21, 2011, Seite 1–13 (PDF Volltext).
- Emmerich Kelih, Peter Zörnig: Models of morph lengths: Discrete and continuous approaches. In: Glottometrics 24, 2012, Seite 70–78 (PDF Volltext).
- Ioan-Iovitz Popescu, Karl-Heinz Best, Gabriel Altmann: Unified Modelling of Length in Language. RAM-Verlag, Lüdenscheid 2014. ISBN 978-3-942303-26-2. (Kapitel "Morph length" Seite 11–13.)
- Regina Pustet & Gabriel Altmann: Morpheme Length Distribution in Lakota. In: Journal of Quantitative Linguistics 12, 2005, Seite 53–63.
Weblinks
BearbeitenEinzelnachweise
Bearbeiten- ↑ Best, Karl-Heinz: Silben-, Wort- und Morphlängen bei Lichtenberg. In: Glottometrics 21, 2011, Seite 1–13; zu Morphlängen Seite 8–11. (PDF Volltext). Die Tabelle ergibt sich, wenn man die Morphlängen der einzelnen Texte addiert.
- ↑ Karl-Heinz Best: Morphlängen in Fabeln von Pestalozzi. In: Göttinger Beiträge zur Sprachwissenschaft 3, 2000, Seite 19–30.
- ↑ Karl-Heinz Best: Zur Länge von Morphen in deutschen Texten. In: Karl-Heinz Best (Hrsg.): Häufigkeitsverteilungen in Texten (Seiten 1–14). Göttingen: Peust & Gutschmidt, 2001.
- ↑ Gejza Wimmer, Gabriel Altmann: The Theory of Word Length Distribution: Some Results and Generalizations. In: Peter Schmidt (Hrsg.): Glottometrika 15. Wissenschaftlicher Verlag Trier, Trier 1996, S. 112–133; Gejza Wimmer, Reinhard Köhler, Rüdiger Grotjahn & Gabriel Altmann: Towards a Theory of Word Length Distribution. In: Journal of Quantitative Linguistics 1, 1994, 98–106
- ↑ Karl-Heinz Best: Zur Länge von Morphen in deutschen Texten. In: Karl-Heinz Best (Hrsg.): Häufigkeitsverteilungen in Texten (S. 1–14). Göttingen: Peust & Gutschmidt, 2001, S. 9
- ↑ Morph length ( vom 15. Oktober 2013 im Internet Archive)
- ↑ Mathias Creutz: Unsupervised Segmentation of Words Using Prior Distributions of Morph Length and Frequency. In: 41st Annual Meeting of the Association for Computational Linguistics, Proceedings of the Conference. Bd. 3, 2003: 280–287