Größte Wahrscheinlichkeit

Größte Wahrscheinlichkeit

Die Maximum-Likelihood-Methode (von engl. maximale Wahrscheinlichkeit) bezeichnet in der Statistik ein parametrisches Schätzverfahren.

Inhaltsverzeichnis

Motivation

Einfach gesprochen bedeutet die Maximum-Likelihood-Methode folgendes: Wenn man statistische Untersuchungen durchführt, untersucht man in der Regel eine Stichprobe mit einer bestimmten Anzahl von Objekten einer Population. Da die Untersuchung der gesamten Population in den meisten Fällen hinsichtlich der Kosten und des Aufwandes unmöglich ist, sind die wichtigen Kennwerte der Population unbekannt. Solche Kennwerte sind z. B. der Erwartungswert oder die Standardabweichung. Da man diese Kennwerte jedoch zu den statistischen Rechnungen, die man durchführen möchte, benötigt, muss man die unbekannten Kennwerte der gesamten Population anhand der bekannten Stichprobe schätzen.

Die Maximum-Likelihood-Methode wird nun in Situationen benutzt, in denen die Elemente der Population als Realisierung eines Zufallsexperiments interpretiert werden können, das von einem unbekannten Parameter abhängt, bis auf diesen aber eindeutig bestimmt und bekannt ist. Entsprechend hängen die interessanten Kennwerte ausschließlich von diesem unbekannten Parameter ab, lassen sich also als Funktion von ihm darstellen. Als Maximum-Likelihood-Schätzer wird nun derjenige Parameter bezeichnet, der die Wahrscheinlichkeit, die Stichprobe zu erhalten, maximiert.

Die Maximum-Likelihood-Methode ist aufgrund ihrer Vorteile gegenüber anderen Schätzverfahren (beispielsweise Kleinste-Quadrate- und Momentenmethode) das wichtigste Prinzip zur Gewinnung von Schätzfunktionen für die Parameter einer Verteilung.

Eine heuristische Herleitung

Es wird nun folgendes Beispiel betrachtet: Es gibt eine Urne mit einer großen Anzahl von Kugeln, die entweder schwarz oder rot sind. Da die Untersuchung aller Kugeln praktisch unmöglich erscheint, wird eine Stichprobe von zehn Kugeln gezogen. In dieser Stichprobe seien nun eine rote und neun schwarze Kugeln. Ausgehend von dieser einen Stichprobe soll nun die wahre Wahrscheinlichkeit, eine rote Kugel in der Gesamtpopulation (Urne) zu ziehen, geschätzt werden.

Verlauf der Kurve für f(p)=B(10;1,p)

Die Maximum-Likelihood-Methode versucht diese Schätzung nun so zu erstellen, dass das Ergebnis unserer Stichprobe damit am wahrscheinlichsten wird. Dazu könnte man „herumprobieren“, bei welchem Schätzer die Wahrscheinlichkeit für unser Stichprobenergebnis maximal wird.

„Probiert“ man beispielsweise 0,2 als Schätzer für die Wahrscheinlichkeit einer roten Kugel, so kann man mit Hilfe der Binomialverteilung B(10|1, 0,2) die Wahrscheinlichkeit des beobachteten Ergebnisses (eine rote Kugel) berechnen - das Ergebnis ist 0,2684.
„Probiert“ man es mit 0,1 als Schätzer, berechnet also B(10|1, 0,1) für den Fall, dass eine rote Kugel gezogen wird, ist das Ergebnis 0,3874. Die Wahrscheinlichkeit, dass das beobachtete Ergebnis (1x rot, 9x schwarz) in der Stichprobe durch eine Populationswahrscheinlichkeit für rote Kugeln von 0,1 verursacht wurde, ist also größer als bei 0,2 als geschätzte Wahrscheinlichkeit. Damit wäre nach der Maximum-Likelihood-Methode 0,1 ein besserer Schätzer für den Anteil roter Kugeln in der Population.

Definition

Bei der Maximum-Likelihood-Methode wird von einer Zufallsvariablen X\; ausgegangen, deren Dichte- bzw. Wahrscheinlichkeitsfunktion f(x) \; von einem Parameter q\; abhängt. Liegt eine einfache Zufallsstichprobe mit n\; unabhängigen und identisch verteilten Realisationen vor, so lässt sich die Dichtefunktion bzw. Wahrscheinlichkeitsfunktion wie folgt faktorisieren:


f(x_1,x_2,...,x_n;q)=\prod_{i=1}^n {f_X}_i(x_i;q)

Statt nun für einen festen Parameter q\; die Dichte für beliebige Werte x_1,\ldots,x_n auszuwerten, kann umgekehrt für beobachtete und somit feste Realisationen x_1,\ldots,x_n die Dichte als Funktion von q\; betrachtet werden. Dies führt zur Likelihood-Funktion


L(q)=\prod_{i=1}^n {f_X}_i(x_i;q)

Wird diese Funktion in Abhängigkeit von q\; maximiert, so erhält man die Maximum-Likelihood-Schätzung für q\;. Es wird also der Wert von q\; gesucht, bei dem die Stichprobenwerte x_1,\ldots,x_n die größte Dichte- bzw. Wahrscheinlichkeitsfunktion haben. Der Maximum-Likelihood-Schätzer ist in diesem Sinne der plausibelste Parameterwert für die Realisierungen x_1,\ldots,x_n der Zufallsvariablen X\;. Die Maximierung dieser Funktion erfolgt, indem man die erste Ableitung nach q\; bildet und diese dann Null setzt. Da dieses bei Dichtefunktionen mit komplizierten Exponentenausdrücken sehr aufwändig werden kann, wird häufig die logarithmierte Likelihood-Funktion verwendet, da sie an derselben Stelle wie die nicht-logarithmierte Dichtefunktion ein Maximum besitzt, jedoch einfacher zu berechnen ist:


l(q)=\ln\left(\prod_{i=1}^n {f_X}_i(x_i;q)\right)= \sum_{i=1}^n \ln f_{X_i}(x_i;q)

Beispiel

Diskrete Verteilung, endlicher Parameterraum

Eine Urne enthält N=8\; Kugeln, die entweder rot oder schwarz sind. Die genaue Anzahl M\; der roten Kugeln ist nicht bekannt. Nacheinander werden n=4\; Kugeln gezogen und jeweils wieder zurück in die Urne gelegt. Beobachtet werden x_1=1\; (erste Kugel ist rot), x_2=1\; (zweite Kugel ist rot), x_3=0\; (dritte Kugel ist schwarz) und x_4=1\; (vierte Kugel ist rot).

Gesucht ist nun die nach dem Maximum-Likelihood-Prinzip plausibelste Zusammensetzung der Kugeln in der Urne.

Die möglichen Parameter der Wahrscheinlichkeitsfunktion p=\frac{M}{N} sind 0,\frac{1}{8},\frac{2}{8},\dots,\frac{7}{8},1. Hier entspricht die Erfolgswahrscheinlichkeit p\; einer Ziehung gerade dem Parameter q\; der Likelihood-Funktion.

Die zugehörige Likelihood-Funktion ist bis auf den Binomialkoeffizienten  {4 \choose 3}


L(p)= p^3\, (1-p)

Nun können wir die Funktionswerte berechnen:


  p \frac{0}{8}=0 \frac{1}{8} \frac{2}{8} \frac{3}{8} \frac{4}{8} \frac{5}{8} \frac{6}{8} \frac{7}{8} \frac{8}{8}=1
L(p) 0 0,002 0,012 0,033 0,063 0,092 0,105 0,084 0


Damit ist p=\frac{6}{8}=0,75 der plausibelste (größte) Parameterwert für die Realisation drei roter Kugeln bei vier Ziehungen und somit der Schätzwert für p\; nach der Maximum-Likelihood-Methode, d.h. 0,75\cdot8=6 rote Kugeln sind die wahrscheinlichste Anzahl.


Dies kann auch direkt über die Ableitung nach p der Likelihoodfunktion 
L'(p)= 3p^2\, -4p^3
berechnet werden:
Die Nullstellen der Ableitung sind bei p=\frac{3}{4} und 0; überprüfen zeigt, dass das Maximum nicht an den Randpunkten sondern für p=\frac{3}{4} angenommen wird. Wir haben damit das gewünschte Ergebnis.

Stetige Verteilung, kontinuierlicher Parameterraum

Zu der Normalverteilung \mathcal{N}(\mu, \sigma^2), die die Wahrscheinlichkeitsdichte

f(x\mid \mu,\sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}}\ 
                               \exp{\left(-\frac {(x-\mu)^2}{2\sigma^2} \right)},

hat, ist die Likelihoodfunktion

f(x_1,\ldots,x_n \mid m,s^2) = \prod_{i=1}^{n} f( x_{i}\mid  m, s^2) = \left( \frac{1}{2\pi s^2} \right)^{n/2} \exp\left( -\frac{ \sum_{i=1}^{n}(x_i-m)^2}{2 s^2}\right),

oder umgeschrieben

f(x_1,\ldots,x_n \mid m,s^2) = \left( \frac{1}{2\pi s^2} \right)^{n/2} \exp\left(-\frac{ \sum_{i=1}^{n}(x_i-\bar{x})^2+n(\bar{x}- m)^2}{2 s^2}\right),

wobei  \bar{x} der Mittelwert ist.

Diese Familie von Verteilungen hat zwei Parameter: q=( m, s), wir maximieren die Likelihoodfunktion  L(m,s) = f(x_1,\ldots,x_n \mid m, s) nach diesen beiden Parametern.

Da der Logarithmus eine streng monoton wachsende Funktion ist, können wir auch den Logarithmus der Likelihoodfunktion maximieren.

Wir bilden die partiellen Ableitungen


\frac{\partial}{\partial m} \log \left( \left( \frac{1}{2\pi s^2} \right)^{n/2} \exp\left(-\frac{ \sum_{i=1}^{n}(x_i-\bar{x})^2+n(\bar{x}-m)^2}{2 s^2}\right) \right)


 = \frac{\partial}{\partial m} \left( \log\left( \frac{1}{2\pi s^2} \right)^{n/2} - \frac{ \sum_{i=1}^{n}(x_i-\bar{x})^2+n(\bar{x}-m)^2}{2 s^2} \right)


 = 0 - \frac{-2n(\bar{x}-m)}{2 s^2}

und

  \frac{\partial}{\partial s} \log \left( \left( \frac{1}{2\pi s^2} \right)^{n/2} 
\exp\left(-\frac{ \sum_{i=1}^{n}(x_i-m)^2} {2 s^2}\right)\right)


 = \frac{\partial}{\partial s} \left( \frac{n}{2}\log\left( \frac{1}{2\pi s^2} \right) - \frac{ \sum_{i=1}^{n}(x_i-m)^2}{2 s^2} \right)


 = -\frac{n}{s} + \frac{ \sum_{i=1}^{n}(x_i-m)^2}{s^3} .

Wir setzen beide Gleichungen gleich null und erhalten

m= \bar{x} = \frac{1}{n}\sum^{n}_{i=1}x_i

und

s^2 = \frac{1}{n}\sum_{i=1}^n(x_i-m)^2.

Tatsächlich hat die Funktion L an dieser Stelle ihr Maximum.

Wir berechnen noch die Erwartungswerte von m und s:

 E \left[ m \right] = \mu,

das heißt der Maximum-Likelihood-Schätzer m ist erwartungstreu.

Aber

E \left[ s^2  \right]= \frac{n-1}{n}\sigma^2, denn
E \left[ s^2  \right]= E \left(\frac {1}{n}\sum_{i=1}^n  x_i^2-\frac{1}{n^2}\left(\sum_{i=1}^n x_i\right)^2\right)

=E \left(\frac{1}{n } \sum_{i=1}^n  x_i^2-\frac {1}{n^2}\sum_{i=1}^n x_i^2 -\frac {1}{n^2}\sum_{i=1}^n \sum_{j \neq i} x_i x_j\right)

=E \left(\frac{n-1}{n^2 } \sum_{i=1}^n  x_i^2-\frac {1}{n^2}\sum_{i=1}^n \sum_{j \neq i} x_i x_j\right)

=\left(\frac{n-1}{n^2 } \sum_{i=1}^n  E(x_i^2)-\frac {1}{n^2}\sum_{i=1}^n \sum_{j \neq i} E(x_i) E(x_j)\right)

=\frac{n-1}{n^2 } \sum_{i=1}^n  E(x_i^2)-\frac {n-1}{n}\mu^2

=\frac{n-1}{n^2 } \sum_{i=1}^n  E(x_i^2-\mu^2)

=\frac{n-1}{n^2 } \sum_{i=1}^n  E(x_i-\mu)^2+2 \mu E(x_i)-2 \mu^2

=\frac{n-1}{n^2 } \sum_{i=1}^n  E(x_i-\mu)^2

=\frac{n-1}{n} \sigma^2

Der Schätzer s ist also nicht erwartungstreu.

Maximum-Likelihood-Schätzung

Als Maximum-Likelihood-Schätzung bezeichnet man in der Statistik eine Parameterschätzung, die nach der Maximum-Likelihood-Methode berechnet wurde. In der englischen Fachliteratur ist die Abkürzung MLE (maximum likelihood estimate) dafür sehr verbreitet. Eine Schätzung, bei der Vorwissen in Form einer a priori-Wahrscheinlichkeit einfließt, wird Maximum-A-Posteriori-Schätzung (MAP) genannt.

Existenz und asymptotische Eigenschaften von Maximum-Likelihood-Schätzern

Die besondere Qualität von Maximum-Likelihood-Schätzern äußert sich darin, dass sie in der Regel die effizienteste Methode zur Schätzung bestimmter Parameter darstellt.

Es lässt sich zum einen unter bestimmten Regularitätsannahmen beweisen, dass Maximum-Likelihood-Schätzer existieren, was aufgrund ihrer impliziten Definition als eindeutiger Maximalstelle einer nicht näher bestimmten Wahrscheinlichkeitsfunktion nicht offensichtlich ist. Die für diesen Beweis benötigten Voraussetzungen bestehen im Prinzip ausschließlich aus Annahmen zur Vertauschbarkeit von Integration und Differentiation, was in den meisten betrachteten Modellen erfüllt ist.

Zum anderen sind Maximum-Likelihood-Schätzer, sofern sie unter den oben angesprochenen Bedingungen existieren, asymptotisch effizient, d. h. sie konvergieren in Verteilung gegen eine normalverteilte Zufallsvariable, deren Varianz das Inverse der Fisher-Information ist. Formal gesprochen sei \hat{\vartheta} der Maximum-Likelihood-Schätzer für einen Parameter \vartheta und I_{1}(\vartheta) die Matrix der Fisher-Information von f_{\vartheta}(x). Dann gilt die folgende Konvergenzaussage \sqrt n (\hat{\vartheta} - \vartheta) \rightarrow \mathcal N (0, I_{1}(\vartheta)^{-1}).

Dieser Grenzwertsatz ist speziell deswegen von Bedeutung, weil als Konsequenz aus der Cramer-Rao-Ungleichung das Inverse der Fisher-Information die bestmögliche Varianz für die Schätzung eines unbekannten Parameters darstellt. In dieser Hinsicht ist die Maximum-Likelihood-Methode bezüglich asymptotischer Betrachtungen optimal.

Nachteil

Diese wünschenswerten Eigenschaften des Maximum-Likelihood-Ansatzes beruhen jedoch auf der entscheidenden Annahme über den datenerzeugenden Prozess, das heißt auf der unterstellten Dichtefunktion der untersuchten Zufallsvariable. Der Nachteil von Maximum-Likelihood besteht deshalb, weil eine konkrete Annahme über die gesamte Verteilung der Zufallsvariable getroffen werden muss. Wenn diese jedoch verletzt ist, kann es sein, dass die Maximum-Likelihood-Schätzer inkonsistent sind. Nur in einigen Fällen ist es unerheblich, ob die Zufallsvariable tatsächlich der unterstellten Verteilung gehorcht, allerdings gilt dies nicht im Allgemeinen. Per Maximum-Likelihood gewonnene Schätzer, die konsistent sind, auch wenn die zu Grunde gelegte Verteilungsannahme verletzt wird, sind sogenannte Pseudo-Maximum-Likelihood-Schätzer. Diese Schätzer können Effizienzprobleme in kleinen Stichproben aufweisen.

Anwendungsbeispiel: Maximum-Likelihood in der molekularen Phylogenie

Das Maximum-Likelihood-Kriterium gilt als eine der Standardmethoden zur Berechnung von phylogenetischen Bäumen, um Verwandtschaftsbeziehungen zwischen Organismen – meist anhand von DNA- oder Proteinsequenzen – zu erforschen. Als explizite Methode ermöglicht Maximum-Likelihood die Anwendung verschiedener Evolutionsmodelle, die in Form von Substitutionsmatrizen in die Stammbaumberechnungen einfließen. Entweder werden empirische Modelle verwendet (Proteinsequenzen) oder die Wahrscheinlichkeiten für Punktmutationen zwischen den verschiedenen Nucleotiden werden anhand des Datensatzes geschätzt und hinsichtlich des Likelihood-Wertes (-lnL) optimiert (DNA-Sequenzen). Allgemein gilt ML als die zuverlässigste und am wenigsten Artefakt-anfällige Methode unter den phylogenetischen Baumkonstruktionsmethoden. Dies erfordert jedoch ein sorgfältiges Taxon-„Sampling“ und meist ein komplexes Evolutionsmodell.

Literatur

  • Schwarze, Jochen: Grundlagen der Statistik – Band 2: Wahrscheinlichkeitsrechnung und induktive Statistik, 6. Auflage, Berlin; Herne: Verlag Neue Wirtschaftsbriefe, 1997
  • Blobel, Volker und Lohrmann, Erich: Statistische und numerische Methoden der Datenanalyse, Stuttgart; Leipzig: Teubner Studienbücher, 1998
  • Felsenstein, Joseph: Inferring Phylogenies. Sinauer Associates, 2003
  • Internet-Lexikon der Methoden der empirischen Sozialforschung: Maximum Likelihood-Schätzung ILMES

Wikimedia Foundation.

Игры ⚽ Поможем написать курсовую

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Maximale Wahrscheinlichkeit — Die Maximum Likelihood Methode (von engl. maximale Wahrscheinlichkeit) bezeichnet in der Statistik ein parametrisches Schätzverfahren. Inhaltsverzeichnis 1 Motivation 2 Eine heuristische Herleitung 3 Definition 4 Beispiel …   Deutsch Wikipedia

  • Konfidenzintervall einer unbekannten Wahrscheinlichkeit — Ein Konfidenzintervall einer unbekannten Wahrscheinlichkeit ist ein Konfidenzintervall (Vertrauensbereich) für den Parameter p der Binomialverteilung (nach Beobachtung von k Treffern in einer Stichprobe der Länge n). Vergleich der in diesem… …   Deutsch Wikipedia

  • Heiratsproblem — Die Artikel Odds Strategie und Sekretärinnenproblem überschneiden sich thematisch. Hilf mit, die Artikel besser voneinander abzugrenzen oder zu vereinigen. Beteilige dich dazu an der Diskussion über diese Überschneidungen. Bitte entferne diesen… …   Deutsch Wikipedia

  • Sekretärinnen-Problem — Die Artikel Odds Strategie und Sekretärinnenproblem überschneiden sich thematisch. Hilf mit, die Artikel besser voneinander abzugrenzen oder zu vereinigen. Beteilige dich dazu an der Diskussion über diese Überschneidungen. Bitte entferne diesen… …   Deutsch Wikipedia

  • Sekretärinnenproblem — Dieser Artikel wurde auf der Qualitätssicherungsseite des Portals Mathematik eingetragen. Dies geschieht, um die Qualität der Artikel aus dem Themengebiet Mathematik auf ein akzeptables Niveau zu bringen. Bitte hilf mit, die Mängel dieses… …   Deutsch Wikipedia

  • Maximum a posteriori — Die Maximum a posteriori Methode (= MAP) bezeichnet in der Statistik ein Schätzverfahren, das einen vorgegebenen Parameter durch den Modalwert der A posteriori Verteilung schätzt. Somit besteht eine gewisse Ähnlichkeit zur Maximum Likelihood… …   Deutsch Wikipedia

  • Flow (Psychologie) — Dieser Artikel wurde aufgrund von inhaltlichen Mängeln auf der Qualitätssicherungsseite des Wikiprojekts Psychologie eingetragen. Dies geschieht, um die Qualität der Artikel aus dem Themengebiet Psychologie auf ein akzeptables Niveau zu bringen.… …   Deutsch Wikipedia

  • Entropie — Maß der Unordnung; Maß für den Informationsgehalt * * * En|tro|pie 〈f. 19〉 1. 〈Phys.〉 Zustandsgröße der Thermodynamik 2. Maß für die „Unordnung“ in einem abgeschlossenen System 3. 〈Kommunikationstheorie〉 Größe des Nachrichtengehaltes einer nach… …   Universal-Lexikon

  • Likelihood-Quotienten-Test — Der Likelihood Quotienten Test oder Likelihood Ratio Test ist ein statistischer Test, der zu den typischen Hypothesentests in parametrischen Modellen gehört. Viele klassische Tests wie der F Test für den Varianzenquotienten oder der Zwei… …   Deutsch Wikipedia

  • Der Rattenfänger von Hameln — Darstellung des Rattenfängers von Hameln in einer Kopie einer Glasmalerei in Marktkirche zu Hameln (Reisechronik des Augustin von Moersperg 1592, aquarell) Der Rattenfänger von Hameln ist eine der bekanntesten deutschen Sagen. Sie wurde in mehr… …   Deutsch Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”