- Gesetz der Verteilung von Wortlängen
-
Das Gesetz der Verteilung von Wortlängen bedeutet, dass Wörter unterschiedlicher Länge in Texten und/oder in Wörterbüchern nicht chaotisch, sondern gesetzmäßig verteilt sind.
Die Wortlänge kann man verschieden definieren; am geläufigsten wird sie durch die Zahl der Buchstaben, Laute, Morphe oder der Silben je Wort angegeben. Gleich, welche Wahl man trifft, ist zu erwarten, dass die Häufigkeiten, mit denen die nach Länge geordneten Wörter in einem Text oder im Lexikon vertreten sind, gesetzmäßig verteilt sind. Das Gesetz der Verteilung von Wortlängen ist einer von vielen Gesetzesvorschlägen der Quantitativen Linguistik. Das entsprechende Gesetz haben zuletzt Altmann, Wimmer u.a. [1] abgeleitet; die Vorschläge zu diesem Gesetz, die seit den 40er Jahren des vorigen Jahrhunderts [2] zuerst von Sergej Grigor'evič Čebanov (1947), William Palin Elderton (1949)[3] und Wilhelm Fucks (1955) gemacht wurden, sind in dieser neuen Theorie als Spezialfälle enthalten. Eine Fülle von Überprüfungen an deutschen und über 50 weiteren Sprachen (über 4000 Texte und einige Wörterbücher) bestätigen die Theorie (Best 1997, 2001, 2003; Schmidt 1997). Wortlängen sind damit die bei weitem am besten erforschte Sprachgröße. Zur Geschichte des Gesetzes von den 1940er Jahren an und zu seiner Kritik vergleiche Grzybek (2006). Es hat sich gezeigt, dass die Hyperpoisson-Verteilung ein besonders häufig anwendbares Modell ist. Je nach Sprache, Autor, Zeit, Textsorte müssen aber oft auch andere Modelle eingesetzt werden.
Das Gesetz gilt analog für andere Spracheinheiten wie Morphe, rhythmische Einheiten, Sätze und Silben (siehe Gesetz der Verteilung von Morphlängen, Gesetz der Verteilung rhythmischer Einheiten verschiedener Länge, Gesetz der Verteilung von Satzlängen, Gesetz der Verteilung von Silbenlängen).
Inhaltsverzeichnis
Untersuchungen zu Wortlängenverteilungen im Deutschen
Der empirische Befund für das Deutsche ist, dass die einsilbigen Wörter immer, von althochdeutscher Zeit an, bei allen Autoren, in allen Textsorten etc. am häufigsten sind, es folgen als nächsthäufige die zweisilbigen, usw. Bei knapp 2000 Texten gab es immer dasselbe Ergebnis. Alle Texte bis auf 5 entsprechen der Hyperpoisson-Verteilung.
Ein Beispiel für eine Wortlängenverteilung (gemessen als Zahl der Silben pro Wort) in einem Brief von Kurt Tucholsky [4]:
x n(x) NP(x) 1 522 521.4 2 250 247.56 3 87 92.69 4 32 28.64 5 7 7.53 6 2 2.18 (Dabei ist x: Zahl der Silben pro Wort, n(x) die in diesem Text beobachtete Zahl der Silben pro Wort; NP(x) die Zahl der Silben pro Wort, die berechnet wird, wenn man die Hyperpoisson-Verteilung an die beobachteten Daten anpasst. Ergebnis: die Hyperpoisson-Verteilung ist für diesen Text ein gutes Modell mit dem Testkriterium P = 0.85, wobei P als gut erachtet wird, wenn es größer/ gleich 0.05 ist. Für ausführlichere Erläuterungen sei auf die angegebene Literatur verwiesen.)
Die Wortlängenverteilung dieses Textes ist für das Deutsche recht typisch: am häufigsten sind die Wörter, die aus nur einer Silbe bestehen; es folgen die zwei-, dann die dreisilbigen usw. Nur bei den seltenen Klassen der langen Wörter treten Unregelmäßigkeiten auf.
Weitere Befunde
In anderen Sprachen sind oft nicht die einsilbigen Wörter die häufigsten, sondern die zwei- oder gar erst die dreisilbigen. Dies ist abhängig von der Morphologie der Sprachen. Zu den Sprachen, bei denen nicht die einsilbigen Wörter am häufigsten in Texten vorkommen, gehören unter anderen Finnisch und Latein. Ein weiteres Beispiel dafür ist das Japanische. Sanada[5] untersuchte einen Ausschnitt des Wörterbuchs des Japanischen, indem sie die Wortlängen gemäß der Zahl der Moren pro Wort bestimmte und feststellte, dass die 1-verschobene Binomialverteilung ein gutes Modell für dieses Phänomen abgibt:
x n(x) NP(x) 1 6 9.06 2 109 129.36 3 661 615.47 4 954 976.10 (Dabei ist x: Zahl der Moren pro Wort, n(x) die in diesem Text beobachtete Zahl der Moren pro Wort; NP(x) die Zahl der Moren pro Wort, die berechnet wird, wenn man die 1-verschobene Binomialverteilung an die beobachteten Daten anpasst. Ergebnis: Die Binomialverteilung ist für diesen Text ein gutes Modell mit dem Testkriterium C = 0.0047, wobei C als gut erachtet wird, wenn es kleiner/ gleich 0.01 ist. Das Testkriterium C wird hier bevorzugt, da die Gesamtzahl der Wörter n(x) recht hoch ist; P eignet sich eher bei einer deutlich geringeren Gesamtzahl.)
Die sehr umfangreichen Befunde zu den Wortlängenverteilungen in vielen verschiedenen Sprachen und Sprachstadien unterstützen in besonderem Maße die allgemeine Hypothese der Quantitativen Linguistik, dass in Sprachsystem und –verwendung ebenso wie im Sprachwandel theoretisch begründbare Gesetze gelten.
Es ist inzwischen durch etliche Untersuchungen gesichert, dass es zwischen der Wortlänge und anderen Spracheigenschaften innerhalb einzelner Sprachen eine ganze Reihe von gesetzmäßigen Abhängigkeiten gibt; vergleiche dazu vor allem den Artikel Linguistische Synergetik. Speziell zur Abhängigkeit der Wortlänge von der Worthäufigkeit siehe [6].
Literatur
- Karl-Heinz Best (Hrsg.): Glottometrika 16. The Distribution of Word and Sentence Length. Wissenschaftlicher Verlag Trier, Trier 1997. ISBN 3-88476-276-1
- Karl-Heinz Best: Quantitative Linguistik. Eine Annäherung. 3., stark überarb. u. erg. Aufl. Peust & Gutschmidt, Göttingen 2006. ISBN 3-933043-17-4
- Karl-Heinz Best: Wortlänge. In: Reinhard Köhler, Gabriel Altmann, & Rajmund G. Piotrowski (Hrsg.): Quantitative Linguistik - Quantitative Linguistics. Ein internationales Handbuch. de Gruyter, Berlin/ N.Y. 2005, S. 260-273. ISBN 3-11-015578-8
- Karl-Heinz Best: Wortlängen im Deutschen. In: Göttinger Beiträge zur Sprachwissenschaft 13, 2006, 23-49.
- Peter Grzybek: History and Methodology of Word Length Studies. The State of the Art. In: Peter Grzybek (Hrsg.): Contributions to the Theory of Text and Language. Word Length Studies and Related Issues. Springer, Dordrecht (NL), 2006, S. 15-90. ISBN 1-4020-4067-9 (HB)
- Peter Schmidt (Hrsg.): Glottometrika 15. Issues in General Linguistic Theory and the Theory of Word Length. Wissenschaftlicher Verlag Trier, Trier 1996, S. 102-111. ISBN 3-88476-228-1
- Gejza Wimmer, Gabriel Altmann: Thesaurus of univariate discrete probability distributions. Stamm, Essen 1999. ISBN 3-87773-025-6
- Gejza Wimmer, Gabriel Altmann: Towards a Unified Derivation of Some Linguistic Laws. In: Peter Grzybek (ed.): Contributions to the Science of Text and Language: Word length studies and related issues. Springer, Dordrecht 2006, S. 329-337. ISBN 1-4020-4067-9 (HB)
- Gejza Wimmer, Viktor Witkovský, Gabriel Altmann: Modification of Probability Distributions Applied to Word Length Research. In: Journal of Quantitative Linguistics 6, 1999, 257-268.
Einzelnachweise
- ↑ Gejza Wimmer, Reinhard Köhler, Rüdiger Grotjahn & Gabriel Altmann: Towards a Theory of Word Length Distribution. In: Journal of Quantitative Linguistics 1, 1994, 98-106; Gejza Wimmer, Gabriel Altmann: The Theory of Word Length Distribution: Some Results and Generalizations. In: Peter Schmidt (Hrsg.): Glottometrika 15. Wissenschaftlicher Verlag Trier, Trier 1996, S. 112-133
- ↑ Karl-Heinz Best, Sergej Viktorovič Čebanov: Biographische Notiz: Sergej Grigor‘evič Čebanov (1897-1966). In: Karl-Heinz Best (Hrsg.): Häufigkeitsverteilungen in Texten. Peust & Gutschmidt, Göttingen 2001, S. 281-283; Sergej Viktorovič Čebanov: O podčinenii rečevych ukladov ‘indoevropejskoj’ gruppy zakonu Puassona. In: Doklady Akademii Nauk SSSR. Tom 55/2, 1947, S. 103-106. (= On conformity of language structures within the Indoeuropean family to Poisson’s law.); William P. Elderton: A few statistics on the length of English words. In: Journal of the Royal Statistical Society, Series A (General), Volume CXII, Part IV, 1949, S. 436-445.; Wilhelm Fucks: Theorie der Wortbildung. In: Mathematisch-Physikalische Semesterberichte. Bd. 4, 1955, S. 195-212.
- ↑ http://en.wikipedia.org/wiki/William_Palin_Elderton; Best, Karl-Heinz (2009): William Palin Elderton (1877-1962). In: Glottometrics 19, p. 99-101.
- ↑ Stefan Ammermann: Zur Wortlängenverteilung in deutschen Briefen über einen Zeitraum von 500 Jahren. In: Karl-Heinz Best (Hrsg.): Häufigkeitsverteilungen in Texten. Peust & Gutschmidt , Göttingen 2001, S. 59-91. S. 81
- ↑ Haruko Sanada: Investigations in Japanese Historical Lexicology (Revised Edition). Peust & Gutschmidt, Göttingen 2008, S. 96f. ISBN 978-3-933043-12-2.
- ↑ http://lql.uni-trier.de/index.php/Word_length_and_frequency
Siehe auch
Weblinks
Wiktionary: Wortlänge – Bedeutungserklärungen, Wortherkunft, Synonyme, ÜbersetzungenWiktionary: Wortlängenverteilung – Bedeutungserklärungen, Wortherkunft, Synonyme, Übersetzungen- http://wwwuser.gwdg.de/~kbest - Bibliographien und weitere Informationen zum Göttinger Projekt Quantitative Linguistik
- http://www-gewi.uni-graz.at/quanta/ - Grazer Projekt zur Quantitativen Textanalyse (QuanTA)
Kategorien:- Linguistische Morphologie
- Quantitative Linguistik
Wikimedia Foundation.