Effektstärke

Effektstärke oder Effektgröße bezeichnet ein (standardisiertes) statistisches Maß, das die (relative) Größe eines Effektes angibt. Ein Effekt (oder auch Wirkung) liegt vor, wenn in einem (zugehörigen) statistischen Test die Nullhypothese (=kein Effekt) abgelehnt wird. Aus diesem Grund kann die Effektstärke auch zur Verdeutlichung einer gewissen praktischen Relevanz von signifikanten Ergebnissen herangezogen werden, die aus randomisierten (zufälligen) Stichproben durch Teststatistiken gewonnen wurden. Z. B. führen bei steigenden Stichprobenumfängen immer kleinere Effekte zur Ablehnung der Nullhypothese. In der empirischen Forschung interessiert jedoch nicht nur, ob ein Effekt da ist (Ablehnung der Nullhypothese) oder nicht (Annahme der Nullhypothese), sondern auch wie groß der Effekt ist.

Definition

Nach Cohen^[1] sollte für eine Effektstärke gelten:

sie ist eine dimensionslose Zahl,
sie hängt nicht von der Maßeinheit der Ursprungsdaten ab,
sie ist unabhängig von der Stichprobengröße (im Gegensatz zu Teststatistiken!) und
ihr Wert sollte nahe bei Null liegen, wenn die Nullhypothese des zugehörigen Tests nicht abgelehnt werden konnte.

Beispiel

Verglichen wird die Intelligenzleistung von Kindern, die nach einer neuen Methode unterrichtet wurden, mit Kindern, die nach der herkömmlichen Methode unterrichtet wurden. Wenn eine sehr große Anzahl von Kindern pro Stichprobe erfasst wurde, können schon Unterschiede von beispielsweise 0.1 IQ-Punkten zwischen den Gruppen signifikant werden. Ganz offensichtlich bedeuten 0.1 IQ-Punkte Unterschied aber trotz eines signifikanten Testergebnisses kaum eine Verbesserung.

Wenn nur der Test und dessen signifikantes Ergebnis einbezogen würde, lautete die Schlussfolgerung, dass die neue Methode eine bessere Intelligenzleistung bewirkt und die alte Lehrmethode würde unter hohem Kostenaufwand abgeschafft werden. Wird hingegen mit einbezogen, dass die neue Lehrmethode nur eine Verbesserung um 0.1 Punkte bewirkt hat, würde sicherlich weiterhin nach der ursprünglichen Methode unterrichtet werden.

Verwendung in der Forschung

Effektstärke bezeichnet bei Experimenten (insbesondere in der Medizin, den Sozialwissenschaften und der Psychologie) das Ausmaß der Wirkung eines experimentellen Faktors. Bei Regressionsmodellen dient sie als Indikator für den Einfluss einer Variablen auf die erklärte Variable.

Die Effektgröße kann einerseits nach einer Untersuchung berechnet werden, um Unterschiede zwischen Gruppen in einem standardisierten Maß vergleichen zu können. Oft werden Effektgrößen bei Metaanalysen berechnet, um die Ergebnisse von verschiedenen Studien in einem einheitlichen Maß - der Effektgröße - miteinander vergleichen zu können.

Oft wird eine Effektgröße aber auch als Mindesteffektgröße vor der Durchführung einer Untersuchung oder vor der Durchführung eines Tests aufgestellt. Wird ein statistischer Test durchgeführt, so kann praktisch immer die Nullhypothese zurückgewiesen werden, wenn nur eine genügend große Anzahl von Messergebnissen einbezogen sind. Der Test wird bei genügend großem Stichprobenumfang also praktisch immer signifikant.

Um die Größe des Unterschiedes zu berücksichtigen, wird vor der Untersuchung eine Mindesteffektgröße festgelegt. Ein signifikantes Testergebnis wird nur dann akzeptiert, wenn die Effektgröße mindestens 0.4 (mittlere Effektgröße) beträgt.

Effektstärke und statistische Signifikanz

Die Effektstärke ist nicht identisch mit der statistischen Signifikanz eines Tests. Effektstärke und Signifikanz hängen allerdings insoweit miteinander zusammen, als geringe Effektstärken größere Versuchsgruppen erfordern, damit die Ergebnisse statistisch signifikant werden. Über Formeln kann bestimmt werden, wie groß die untersuchten Stichproben mindestens sein müssen, um bei festgelegter Effektgröße, Alpha- und Betafehler ein gesichertes Ergebnis zu erhalten.

Berechnung der Effektstärke

In der Fisher'schen Testtheorie kann der p-Wert eine Effektgröße darstellen, da ein kleiner p-Wert als hohe Wahrscheinlichkeit für das Zutreffen der Forschungshypothese interpretiert wird. Bedingt durch die Standardisierung der Teststatistiken kann jedoch durch Vergrößern der Stichprobe jeder Effekt signifikant gemacht werden. Unter Neyman-Pearson ist allerdings der Tatsache Rechnung zu tragen, dass ein Annehmen der Forschungshypothese immer mit einem Ablehnen der Nullhypothese einhergeht. Ein Ergebnis, dass unter der Nullhypothese hochsignifikant wird, kann unter der Forschungshypothese noch viel unwahrscheinlicher sein, da sich die Teststärke extrem reduziert. Als Effektgröße ist der p-Wert somit nicht geeignet, da der Effekt in der Forschungshypothese zu klein sein kann, um von praktischer Bedeutung zu sein.

Bravais-Pearson Korrelation r

Die Bravais-Pearson Korrelation $r$ ist eine der meistgenutzten und ältesten Effektstärken (siehe auch t-Test). Sie erfüllt in natürlicher Weise die Anforderungen, die Cohen an eine Effektstärke stellte.

Nach Cohen^[1] indiziert $r = 0,1$ einen kleinen Effekt, $r = 0,3$ einen mittleren und $r = 0,5$ einen starken Effekt.

Alternativ kann das Bestimmtheitsmaß $R 2$ benutzt werden.

Cohens d

Cohens d^[1] ist die Effektgröße für Mittelwertunterschiede zwischen zwei Gruppen mit gleichen Gruppengrößen $n$ sowie gleichen Gruppenvarianzen $σ 2$ und hilft bei der Beurteilung der praktischen Relevanz eines signifikanten Mittelwertunterschieds (siehe auch t-Test):

$D = \frac{|\mu_1 - \mu_2|}{\sigma}.$

Als Schätzer wurde von Cohen

$d = \frac{\bar{x}_1-\bar{x}_2}{\sqrt{(s_1^2+s_2^2) /2}}$

mit $\bar{x}_i$ der jeweilige Mittelwert aus den beiden Stichproben und $s_i^2$ die geschätzten Varianzen aus den beiden Stichproben nach der Gleichung $s_i^2 = \frac{1}{n-1} \sum_{j=1}^{n}{(x_{ji}-\bar{x}_i)^2}$ bestimmt.

Nach Cohen^[1] indiziert $d = 0,2$ einen kleinen Effekt, $d = 0,5$ einen mittleren und $d = 0,8$ einen starken Effekt.

Ungleiche Gruppengrößen und Gruppenvarianzen

Andere Autoren als Cohen schätzen die Standardabweichung $σ$ mit der Hilfe der gepoolten Varianz ^[2] als

$s = \sqrt{\frac{(n_1-1)s^2_1 + (n_2-1)s^2_2}{n_1+n_2-2}}$

mit

$s_i^2 = \frac{1}{n_i-1} \sum_{j=1}^{n_i} (x_{j,i} - \bar{x}_i)^2.$

Umrechnung in $r$

Wird die Zugehörigkeit zu der einen Stichprobe mit Null und zu der anderen mit Eins kodiert, so kann ein Korrelationskoeffizient $r$ berechnet werden. Er ergibt sich aus Cohens $d$ als

$r=\frac{d}{\sqrt{d^2+\frac{(n_1+n_2)^2}{n_1 n_2}}}$ .

Im Gegensatz zu Cohens $d$ ist der Korrelationskoeffizient $r$ nach oben durch Eins beschränkt. Von einem schwachen Effekt spricht man hier ab einem r=0,10, einem mittleren Effekt ab einem r=0,30 und einem starken Effekt ab r=0,50.

Glass's Δ

Glass (1976) schlug vor, nur die Standardabweichung der zweiten Gruppe zu benutzen

$\Delta = \frac{\bar{x}_1 - \bar{x}_2}{s_2}.$

Die zweite Gruppe wird hier als Kontrollgruppe betrachtet. Wenn Vergleiche mit mehreren Experimentalgruppen durchgeführt werden, dann ist es besser $σ$ aus der Kontrollgruppe zu schätzen, damit die Effektstärke nicht von den geschätzten Varianzen der Experimentalgruppen abhängt.

Unter der Annahme von gleichen Varianzen in beiden Gruppen ist jedoch die gepoolte Varianz der bessere Schätzer.

Hedges g

Hedges^[3] schlug 1981 eine weitere Modifikation vor. Mit

$g = \frac{\bar{x}_1 - \bar{x}_2}{s^*}$

und

$s^* = \sqrt{\frac{(n_1-1)s_1^2 + (n_2-1)s_2^2}{n_1+n_2-2}}$

ergibt einen verzerrten Schätzer der Effektstärke. Mit

$g^* = J(n_1+n_2-2) g \approx \left(1-\frac{3}{4(n_1+n_2)-9}\right) g$

und

$J(a) = \frac{\Gamma(a/2)}{\sqrt{a/2}\Gamma((a-1)/2)}$

ergibt einen unverzerrten Schätzer, der zur Berechnung der Konfidenzintervalle der Effekt-Stärken von Stichprobenunterschieden besser geeignet ist als Cohens d, welcher die Effekt-Stärke in der Grundgesamtheit schätzt. $Γ$ bezeichnet hierbei die Gamma-Funktion.

Cohens f²

Cohens $f 2$ ist ein Maß für die Effektstärke im Rahmen der ANOVA beziehungsweise des F-Tests und der Regressionsanalyse.

Regressionsanalyse

Die Effektstärke $f 2$ berechnet sich

$f^2=\frac{R_{included}^2-R_{excluded}^2} {1-R_{included}^2}$

mit den Bestimmtheitsmaßen $R_{included}^2$ mit allen Variablen des Regressionsmodells und $R_{excluded}^2$ ohne die zu testende Variable. Ist nur der gemeinsame Effekt aller Variablen von Interesse, reduziert sich die obige Formel zu

$f^2=\frac{R^2} {1-R^2}.$

Nach Cohen^[1] indiziert $f 2 = 0,02$ einen kleinen Effekt, $f 2 = 0,15$ einen mittleren und $f 2 = 0,35$ einen starken Effekt.

F-Test bzw. ANOVA

Die Effektstärke $f$ berechnet sich für $k$ Gruppen als

$f=\frac{\sqrt{\frac{1}{k} \sum_{i=1}^k (\bar{x}_i - \bar{x})^2 }}{s}$

mit $s$ ein Schätzer für die Gesamtvarianz des Datensatzes. Nach Cohen^[1] indiziert $f = 0,10$ einen kleinen Effekt, $f = 0,25$ einen mittleren und $f = 0,40$ einen starken Effekt.

Cramers $ϕ$ , Cramers V und Cohens $w$

Aus der Teststatistik des $χ 2$ Unabhängigkeitstest kann als Maß für die Effektstärke Cramers V abgeleitet werden

$V=\sqrt{ \frac{\chi^2}{n(k - 1)}}$

mit $n$ die Anzahl der Beobachtungen und $k$ das Minimum der Zeilen und Spalten der Kontingenztabelle. Für den Fall einer 2x2-Kontingenztabelle ergibt sich Cramers $ϕ$

ϕ

$= \sqrt{ \frac{\chi^2}{n}}.$

Das Effektstärkemaß Cohens $w$ ist definiert als^[1]^[4]

$w = V * \sqrt{(k - 1)}$ .

Für Cohens $w$ gelten konventionell der Wert 0,1 als klein, 0,3 als mittel und 0,5 als groß.

Cramér's $ϕ$ wird auch benutzt im Falle des $χ 2$ -Anpassungstests. In diesem Fall ist es ein Maß für das Auftretens einer Ausprägung (von $k$ möglichen).

Kleine, mittlere und große Effektstärken

Die vorher angegebenen Werte für kleinere, mittlere oder große Effektstärken hängen stark vom Sachgebiet ab. Cohen hat die Werte im Rahmen seiner Analysen und dem sozialwissenschaftlichen Usus gewählt.

“This is an elaborate way to arrive at the same sample size that has been used in past social science studies of large, medium, and small size (respectively). The method uses a standardized effect size as the goal. Think about it: for a "medium" effect size, you'll choose the same n regardless of the accuracy or reliability of your instrument, or the narrowness or diversity of your subjects. Clearly, important considerations are being ignored here. "Medium" is definitely not the message! ”

„Dies ist ein komplizierter Weg um zu den gleichen Stichprobenumfängen zu gelangen, die in der Vergangenheit in großen, mittleren und kleinen sozialwissenschaftlichen Studien benutzt worden sind. Diese Methode hat eine standardisierte Effektstärke zum Ziel. Denken wir darüber nach: Für eine "mittlere" Effektstärke wählen wir den gleichen Stichprobenumfang unabhängig von der Genauigkeit oder der Verlässlichkeit des Instrumentes, die Ähnlichkeit oder die Unterschiede der Untersuchungsobjekte. Natürlich werden hier wichtige Aspekte der Untersuchung ignoriert. "Mittel" ist kaum die Botschaft!“

– R.V. Lenth: ^[5]

Sie werden daher von vielen Forschern nur als Richtwerte akzeptiert.

Einzelnachweise

↑ ^a ^b ^c ^d ^e ^f ^g Cohen, J. (1988): Statistical Power Analysis for the Behavioral Sciences, 2. Aufl., Hillsdale: Lawrence Erlbaum Associates. ISBN 978-0805802832
↑ Hartung, J., Knapp, G., Sinha, B.K. (2008), Statistical Meta-Analysis with Application, Wiley, New Jersey, ISBN 978-0470290897
↑ Hedges, L.V. (1981). Distribution theory for Glass's estimator of effect size and related estimators". Journal of Educational Statistics 6 (2): S. 107–128.
↑ Volker, Martin A. (2006): Reporting effect size estimates in school psychology research. Psychology in the Schools, Vol. 43(6), 653-672. http://www.ed.utah.edu/users/daniel.olympia/Prelim%20Readings/Articles/School%20Psychology%20Research/Volker%20%282006%29.pdf
↑ Lenth, R.V. (2006) Java applets for power and sample size, Division of Mathematical Sciences, the College of Liberal Arts or The University of Iowa, Zugriff am 26. Dezember 2008

Literatur

Chin, Wynne W. (1998): The Partial Least Squares Approach to Structural Equation Modeling, in: Marcoulides, George A. (Hrsg.): Modern Methods for Business Research, Mahwah: Lawrence Erlbaum Associates, Inc., Seite 295-336.
Cohen, Jacob (1992): A power primer. Psychological Bulletin, 112, 155-159.
Huber, Oswald (2000): Das psychologische Experiment. Bern u.a.
Maier-Riehle, Brigitte, Zwingmann, Christian (2000): Effektstärkevarianten beim Eingruppen-Prä-Post-Design: Eine kritische Betrachtung. Rehabilitation, 39, S. 189-199.
Schnell, Rainer, Hill, Paul B., Esser, Elke (1999): Methoden der empirischen Sozialforschung. München, Wien.

Siehe auch

Weblinks

Berechnung der Effektstärke Cohens d online

Kategorien:

Wikimedia Foundation.

Игры ⚽ Нужно решить контрольную?

Schlagen Sie auch in anderen Wörterbüchern nach:

Elektro-Konvulsions-Therapie — Die Neutralität dieses Artikels oder Abschnitts ist umstritten. Eine Begründung steht auf der Diskussionsseite im Abschnitt „Neutralität Sachlichkeit“. Die Elektrokrampftherapie (EKT) (auch Elektrokonvulsionstherapie, früher auch (heute abwertend … Deutsch Wikipedia
Elektro-Krampf-Therapie — Die Neutralität dieses Artikels oder Abschnitts ist umstritten. Eine Begründung steht auf der Diskussionsseite im Abschnitt „Neutralität Sachlichkeit“. Die Elektrokrampftherapie (EKT) (auch Elektrokonvulsionstherapie, früher auch (heute abwertend … Deutsch Wikipedia
Elektrokonvulsionstherapie — Die Neutralität dieses Artikels oder Abschnitts ist umstritten. Eine Begründung steht auf der Diskussionsseite im Abschnitt „Neutralität Sachlichkeit“. Die Elektrokrampftherapie (EKT) (auch Elektrokonvulsionstherapie, früher auch (heute abwertend … Deutsch Wikipedia
Elektroschockbehandlung — Die Neutralität dieses Artikels oder Abschnitts ist umstritten. Eine Begründung steht auf der Diskussionsseite im Abschnitt „Neutralität Sachlichkeit“. Die Elektrokrampftherapie (EKT) (auch Elektrokonvulsionstherapie, früher auch (heute abwertend … Deutsch Wikipedia
Signifikanz (Statistik) — Unterschiede zwischen Messgrößen oder Variablen in der Statistik heißen signifikant (wesentlich), wenn die Wahrscheinlichkeit, dass sie durch Zufall so zustande kommen würden, nur gering ist. Damit weist Signifikanz auf einen möglichen… … Deutsch Wikipedia
Signifikanzniveau — Unterschiede zwischen Messgrößen oder Variablen in der Statistik heißen signifikant (wesentlich), wenn die Wahrscheinlichkeit, dass sie durch Zufall so zustande kommen würden, nur gering ist. Damit weist Signifikanz auf einen möglichen… … Deutsch Wikipedia
Signifkant — Unterschiede zwischen Messgrößen oder Variablen in der Statistik heißen signifikant (wesentlich), wenn die Wahrscheinlichkeit, dass sie durch Zufall so zustande kommen würden, nur gering ist. Damit weist Signifikanz auf einen möglichen… … Deutsch Wikipedia
Effektgröße — Die Artikel Effektstärke und Effektgröße überschneiden sich thematisch. Hilf mit, die Artikel besser voneinander abzugrenzen oder zu vereinigen. Beteilige dich dazu an der Diskussion über diese Überschneidungen. Bitte entferne diesen Baustein… … Deutsch Wikipedia
Elektrokrampftherapie — Die Elektrokrampftherapie (EKT) (auch Elektrokonvulsionstherapie; die alte Bezeichnung Elektroschocktherapie ist dagegen mehrdeutig und führt zu Verwechslungen) wird in der Psychiatrie zur Behandlung psychischer Störungen eingesetzt. Das… … Deutsch Wikipedia
Freiheit des Willens — Für den Begriff freier Wille oder Willensfreiheit gibt es keine allgemein anerkannte Definition. Verschiedene Philosophen definieren diesen Begriff unterschiedlich; umgangssprachlich versteht man etwas anderes darunter als im juristischen oder… … Deutsch Wikipedia

Academic dictionaries and encyclopedias

Effektstärke

Inhaltsverzeichnis

Definition

Beispiel

Verwendung in der Forschung

Effektstärke und statistische Signifikanz