Gesetz der Verteilung von Wortlängen

Gesetz der Verteilung von Wortlängen

Das Gesetz der Verteilung von Wortlängen bedeutet, dass Wörter unterschiedlicher Länge in Texten und/oder in Wörterbüchern nicht chaotisch, sondern gesetzmäßig verteilt sind.

Die Wortlänge kann man verschieden definieren; am geläufigsten wird sie durch die Zahl der Buchstaben, Laute, Morphe oder der Silben je Wort angegeben. Gleich, welche Wahl man trifft, ist zu erwarten, dass die Häufigkeiten, mit denen die nach Länge geordneten Wörter in einem Text oder im Lexikon vertreten sind, gesetzmäßig verteilt sind. Das Gesetz der Verteilung von Wortlängen ist einer von vielen Gesetzesvorschlägen der Quantitativen Linguistik. Das entsprechende Gesetz haben zuletzt Altmann, Wimmer u.a. [1] abgeleitet; die Vorschläge zu diesem Gesetz, die seit den 40er Jahren des vorigen Jahrhunderts [2] zuerst von Sergej Grigor'evič Čebanov (1947), William Palin Elderton (1949)[3] und Wilhelm Fucks (1955) gemacht wurden, sind in dieser neuen Theorie als Spezialfälle enthalten. Eine Fülle von Überprüfungen an deutschen und über 50 weiteren Sprachen (über 4000 Texte und einige Wörterbücher) bestätigen die Theorie (Best 1997, 2001, 2003; Schmidt 1997). Wortlängen sind damit die bei weitem am besten erforschte Sprachgröße. Zur Geschichte des Gesetzes von den 1940er Jahren an und zu seiner Kritik vergleiche Grzybek (2006). Es hat sich gezeigt, dass die Hyperpoisson-Verteilung ein besonders häufig anwendbares Modell ist. Je nach Sprache, Autor, Zeit, Textsorte müssen aber oft auch andere Modelle eingesetzt werden.

Das Gesetz gilt analog für andere Spracheinheiten wie Morphe, rhythmische Einheiten, Sätze und Silben (siehe Gesetz der Verteilung von Morphlängen, Gesetz der Verteilung rhythmischer Einheiten verschiedener Länge, Gesetz der Verteilung von Satzlängen, Gesetz der Verteilung von Silbenlängen).

Inhaltsverzeichnis

Untersuchungen zu Wortlängenverteilungen im Deutschen

Der empirische Befund für das Deutsche ist, dass die einsilbigen Wörter immer, von althochdeutscher Zeit an, bei allen Autoren, in allen Textsorten etc. am häufigsten sind, es folgen als nächsthäufige die zweisilbigen, usw. Bei knapp 2000 Texten gab es immer dasselbe Ergebnis. Alle Texte bis auf 5 entsprechen der Hyperpoisson-Verteilung.

Ein Beispiel für eine Wortlängenverteilung (gemessen als Zahl der Silben pro Wort) in einem Brief von Kurt Tucholsky [4]:

x
n(x)
NP(x)
1
522
521.4
2
250
247.56
3
87
92.69
4
32
28.64
5
7
7.53
6
2
2.18

(Dabei ist x: Zahl der Silben pro Wort, n(x) die in diesem Text beobachtete Zahl der Silben pro Wort; NP(x) die Zahl der Silben pro Wort, die berechnet wird, wenn man die Hyperpoisson-Verteilung an die beobachteten Daten anpasst. Ergebnis: die Hyperpoisson-Verteilung ist für diesen Text ein gutes Modell mit dem Testkriterium P = 0.85, wobei P als gut erachtet wird, wenn es größer/ gleich 0.05 ist. Für ausführlichere Erläuterungen sei auf die angegebene Literatur verwiesen.)

Die Wortlängenverteilung dieses Textes ist für das Deutsche recht typisch: am häufigsten sind die Wörter, die aus nur einer Silbe bestehen; es folgen die zwei-, dann die dreisilbigen usw. Nur bei den seltenen Klassen der langen Wörter treten Unregelmäßigkeiten auf.

Weitere Befunde

In anderen Sprachen sind oft nicht die einsilbigen Wörter die häufigsten, sondern die zwei- oder gar erst die dreisilbigen. Dies ist abhängig von der Morphologie der Sprachen. Zu den Sprachen, bei denen nicht die einsilbigen Wörter am häufigsten in Texten vorkommen, gehören unter anderen Finnisch und Latein. Ein weiteres Beispiel dafür ist das Japanische. Sanada[5] untersuchte einen Ausschnitt des Wörterbuchs des Japanischen, indem sie die Wortlängen gemäß der Zahl der Moren pro Wort bestimmte und feststellte, dass die 1-verschobene Binomialverteilung ein gutes Modell für dieses Phänomen abgibt:

x
n(x)
NP(x)
1
6
9.06
2
109
129.36
3
661
615.47
4
954
976.10

(Dabei ist x: Zahl der Moren pro Wort, n(x) die in diesem Text beobachtete Zahl der Moren pro Wort; NP(x) die Zahl der Moren pro Wort, die berechnet wird, wenn man die 1-verschobene Binomialverteilung an die beobachteten Daten anpasst. Ergebnis: Die Binomialverteilung ist für diesen Text ein gutes Modell mit dem Testkriterium C = 0.0047, wobei C als gut erachtet wird, wenn es kleiner/ gleich 0.01 ist. Das Testkriterium C wird hier bevorzugt, da die Gesamtzahl der Wörter n(x) recht hoch ist; P eignet sich eher bei einer deutlich geringeren Gesamtzahl.)

Die sehr umfangreichen Befunde zu den Wortlängenverteilungen in vielen verschiedenen Sprachen und Sprachstadien unterstützen in besonderem Maße die allgemeine Hypothese der Quantitativen Linguistik, dass in Sprachsystem und –verwendung ebenso wie im Sprachwandel theoretisch begründbare Gesetze gelten.

Es ist inzwischen durch etliche Untersuchungen gesichert, dass es zwischen der Wortlänge und anderen Spracheigenschaften innerhalb einzelner Sprachen eine ganze Reihe von gesetzmäßigen Abhängigkeiten gibt; vergleiche dazu vor allem den Artikel Linguistische Synergetik. Speziell zur Abhängigkeit der Wortlänge von der Worthäufigkeit siehe [6].

Literatur

  • Karl-Heinz Best (Hrsg.): Glottometrika 16. The Distribution of Word and Sentence Length. Wissenschaftlicher Verlag Trier, Trier 1997. ISBN 3-88476-276-1
  • Karl-Heinz Best: Quantitative Linguistik. Eine Annäherung. 3., stark überarb. u. erg. Aufl. Peust & Gutschmidt, Göttingen 2006. ISBN 3-933043-17-4
  • Karl-Heinz Best: Wortlänge. In: Reinhard Köhler, Gabriel Altmann, & Rajmund G. Piotrowski (Hrsg.): Quantitative Linguistik - Quantitative Linguistics. Ein internationales Handbuch. de Gruyter, Berlin/ N.Y. 2005, S. 260-273. ISBN 3-11-015578-8
  • Karl-Heinz Best: Wortlängen im Deutschen. In: Göttinger Beiträge zur Sprachwissenschaft 13, 2006, 23-49.
  • Peter Grzybek: History and Methodology of Word Length Studies. The State of the Art. In: Peter Grzybek (Hrsg.): Contributions to the Theory of Text and Language. Word Length Studies and Related Issues. Springer, Dordrecht (NL), 2006, S. 15-90. ISBN 1-4020-4067-9 (HB)
  • Peter Schmidt (Hrsg.): Glottometrika 15. Issues in General Linguistic Theory and the Theory of Word Length. Wissenschaftlicher Verlag Trier, Trier 1996, S. 102-111. ISBN 3-88476-228-1
  • Gejza Wimmer, Gabriel Altmann: Thesaurus of univariate discrete probability distributions. Stamm, Essen 1999. ISBN 3-87773-025-6
  • Gejza Wimmer, Gabriel Altmann: Towards a Unified Derivation of Some Linguistic Laws. In: Peter Grzybek (ed.): Contributions to the Science of Text and Language: Word length studies and related issues. Springer, Dordrecht 2006, S. 329-337. ISBN 1-4020-4067-9 (HB)
  • Gejza Wimmer, Viktor Witkovský, Gabriel Altmann: Modification of Probability Distributions Applied to Word Length Research. In: Journal of Quantitative Linguistics 6, 1999, 257-268.

Einzelnachweise

  1. Gejza Wimmer, Reinhard Köhler, Rüdiger Grotjahn & Gabriel Altmann: Towards a Theory of Word Length Distribution. In: Journal of Quantitative Linguistics 1, 1994, 98-106; Gejza Wimmer, Gabriel Altmann: The Theory of Word Length Distribution: Some Results and Generalizations. In: Peter Schmidt (Hrsg.): Glottometrika 15. Wissenschaftlicher Verlag Trier, Trier 1996, S. 112-133
  2. Karl-Heinz Best, Sergej Viktorovič Čebanov: Biographische Notiz: Sergej Grigor‘evič Čebanov (1897-1966). In: Karl-Heinz Best (Hrsg.): Häufigkeitsverteilungen in Texten. Peust & Gutschmidt, Göttingen 2001, S. 281-283; Sergej Viktorovič Čebanov: O podčinenii rečevych ukladov ‘indoevropejskoj’ gruppy zakonu Puassona. In: Doklady Akademii Nauk SSSR. Tom 55/2, 1947, S. 103-106. (= On conformity of language structures within the Indoeuropean family to Poisson’s law.); William P. Elderton: A few statistics on the length of English words. In: Journal of the Royal Statistical Society, Series A (General), Volume CXII, Part IV, 1949, S. 436-445.; Wilhelm Fucks: Theorie der Wortbildung. In: Mathematisch-Physikalische Semesterberichte. Bd. 4, 1955, S. 195-212.
  3. http://en.wikipedia.org/wiki/William_Palin_Elderton; Best, Karl-Heinz (2009): William Palin Elderton (1877-1962). In: Glottometrics 19, p. 99-101.
  4. Stefan Ammermann: Zur Wortlängenverteilung in deutschen Briefen über einen Zeitraum von 500 Jahren. In: Karl-Heinz Best (Hrsg.): Häufigkeitsverteilungen in Texten. Peust & Gutschmidt , Göttingen 2001, S. 59-91. S. 81
  5. Haruko Sanada: Investigations in Japanese Historical Lexicology (Revised Edition). Peust & Gutschmidt, Göttingen 2008, S. 96f. ISBN 978-3-933043-12-2.
  6. http://lql.uni-trier.de/index.php/Word_length_and_frequency

Siehe auch

Einsilbler

Weblinks

Wiktionary Wiktionary: Wortlänge – Bedeutungserklärungen, Wortherkunft, Synonyme, Übersetzungen
Wiktionary Wiktionary: Wortlängenverteilung – Bedeutungserklärungen, Wortherkunft, Synonyme, Übersetzungen

Wikimedia Foundation.

Игры ⚽ Поможем написать курсовую

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Gesetz der Verteilung von Schriftzeichen verschiedener Komplexität — Das Gesetz der Verteilung von Schriftzeichen verschiedener Komplexität sagt aus, dass Schriftzeichen verschiedener Komplexitätsgrade in Texten gemäß einem theoretisch begründbaren Sprachgesetz verwendet werden. Inhaltsverzeichnis 1 Komplexität… …   Deutsch Wikipedia

  • Gesetz der Verteilung von Satzlängen — Das Gesetz der Verteilung von Satzlängen behandelt die Frage, wie oft Sätze verschiedener Komplexität in Texten verwendet werden. Ein besonders einfaches Kriterium für Satzkomplexität ist ihre Länge, die verschieden definiert werden kann: als die …   Deutsch Wikipedia

  • Gesetz der Verteilung von Morphlängen — Die Länge eines Morphs kann verschieden definiert werden: als die Zahl der Buchstaben, Laute oder Phoneme. Untersucht man nun für eine Reihe von Texten, wie häufig Morphe verschiedener Länge in ihnen vorkommen, so kann man feststellen, dass sie… …   Deutsch Wikipedia

  • Gesetz der Verteilung von Silbenlängen — Die Länge von Silben kann verschieden bestimmt werden nach der Zahl der Buchstaben, Laute oder Phoneme. Speziell für die gesprochene Sprache kann die Silbenlänge auch danach bemessen werden, wie lange eine Person benötigt, um sie auszusprechen,… …   Deutsch Wikipedia

  • Gesetz der Verteilung rhythmischer Einheiten verschiedener Länge — In der Sprachwissenschaft wird die Länge rhythmischer Einheiten danach bestimmt, wie viele Silben zwischen zwei betonten Silben in einem Satz oder Text vorkommen. Folgen zwei betonte Silben aufeinander, hat man eine rhythmische Einheit der Länge… …   Deutsch Wikipedia

  • Wortlänge — wird danach bestimmt, aus wie vielen kleineren Einheiten ein Wort besteht. So ist es möglich, die Wortlänge entsprechend der Zahl der Buchstaben, Laute, Phoneme, Morphe, Silben oder Moren zu definieren. Eine weitere Möglichkeit besteht darin, die …   Deutsch Wikipedia

  • Sergei Tschebanow — Sergei Grigorjewitsch Tschebanow (russisch Сергей Григорьевич Чебанов, wiss. Transliteration Sergej Grigor evič Čebanov; * 1897 in Sankt Petersburg, † 1966 ebenda) war ein russischer Militärarzt und Linguist. Leben Als Soldat der Roten Armee… …   Deutsch Wikipedia

  • Sergej Grigor'evič Čebanov — Sergei Grigorjewitsch Tschebanow (russisch Сергей Григорьевич Чебанов, wiss. Transliteration Sergej Grigor evič Čebanov; * 1897 in Sankt Petersburg, † 1966 ebenda) war ein russischer Militärarzt und Linguist. Leben Als Soldat der Roten Armee… …   Deutsch Wikipedia

  • Sergej Grigorevitsch Cebanov — Sergei Grigorjewitsch Tschebanow (russisch Сергей Григорьевич Чебанов, wiss. Transliteration Sergej Grigor evič Čebanov; * 1897 in Sankt Petersburg, † 1966 ebenda) war ein russischer Militärarzt und Linguist. Leben Als Soldat der Roten Armee… …   Deutsch Wikipedia

  • Tschebanow — Sergei Grigorjewitsch Tschebanow (russisch Сергей Григорьевич Чебанов, wiss. Transliteration Sergej Grigor evič Čebanov; * 1897 in Sankt Petersburg, † 1966 ebenda) war ein russischer Militärarzt und Linguist. Leben Als Soldat der Roten Armee… …   Deutsch Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”