Kontingenztafel

Kontingenztafel

Kontingenztafeln (auch: Kontingenztabellen oder Kreuztabellen) sind Tabellen, die die absoluten oder relativen Häufigkeiten (Häufigkeitstabellen) von Kombinationen bestimmter Merkmalsausprägungen enthalten. Kontingenz hat dabei die Bedeutung des gemeinsamen Auftretens von zwei Merkmalen. Das bedeutet, es werden Häufigkeiten für mehrere miteinander durch „und“ oder „sowie“ (Konjunktion) verknüpfte Merkmale dargestellt. Diese Häufigkeiten werden ergänzt durch deren Randsummen, die die sogenannten Randhäufigkeiten bilden. Der häufige Spezialfall einer Kontingenztabelle mit zwei Merkmalen ist eine Konfusionsmatrix.

Inhaltsverzeichnis

Aufbau und Anwendung

Im Gegensatz zu einer normalen ("flachen") Tabelle, die in der 1. Zeile Attributnamen und in allen weiteren Zeilen Ausprägungen dieser Attribute besitzt, enthalten in einer Kreuztabelle sowohl Zeilen- als auch Spaltenüberschriften Merkmalsausprägungen und am Schnittpunkt der entsprechenden Spalte und Zeile wird ein Wert dargestellt, der von den in der jeweiligen Spalte und Zeile angegebenen Merkmalen abhängt.

Y\X x1 x2 \ldots xJ Randhäufigkeit
von Y
y1 h11 h12 \ldots h1J h_{1\bullet}
y2 h21 h22 \ldots h2J h_{2\bullet}
\vdots \vdots \vdots \ddots \vdots \vdots
yK hK1 hK2 \ldots hKJ h_{K\bullet}
Randhäufigkeit
von X
h_{\bullet 1} h_{\bullet 2} \ldots h_{\bullet J} h_{\bullet\bullet}

Eine allgemeine Kreuztabelle für zwei Variablen X und Y ist rechts dargestellt. Die Merkmalsausprägungen x1, ..., xJ der Variablen X und y1, ..., yK der Variablen Y sind oben und links angegeben. Die Anzahl der Ausprägungen J und K kann für beide Variablen unterschiedlich sein. Ist sie gleich spricht man von quadratischen Kreuztabellen.

In der Tabelle findet man die absoluten Häufigkeiten hjk, d.h. die Anzahl der Beobachtungen in denen sowohl die Merkmalsausprägung xj und yk auftritt. Rechts sind die Randhäufigkeiten h_{j\bullet} = h_{j1}+\ldots+h_{jK} bzw. unten die Randhäufigkeiten h_{\bullet k} = h_{1k}+\ldots+h_{Jk} abgetragen.

Rechts unten findet sich schließlich die Summe der Randhäufigkeiten

h_{\bullet\bullet}=h_{1\bullet}+\ldots+h_{K\bullet}=h_{\bullet 1}+\ldots+h_{\bullet J}=n

mit n die Zahl der Beobachtungen im Datensatz.

Anstelle von absolute Häufigkeiten können auch relativen Häufigkeiten dargestellt werden. In diesem Fall wird statt h oft f benutzt und es gilt natürlich f_{\bullet\bullet}=1.

Vierfeldertafel

Eine Vierfeldertafel ist eine Spezialform einer zweidimensionalen Kontingenztafel. Beide Variablen haben nur zwei Merkmalsausprägungen und sie ist wie folgt aufgebaut:

Merkmal \!\, A  \bar{A} Summe
\!\, B  h({A}\cap{B})  h({\bar{A}}\cap{B}) \!\, h(B)
 \bar{B}  h({A}\cap{\bar{B}})  h({\bar{A}}\cap{\bar{B}})  h({\bar{B}})
Summe \!\, h(A)  h({\bar{A}}) \!\, 1

Beispiel für eine zweidimensionale Kontingenztafel

Es werden 2000 Personen darüber befragt, ob sie Produkt A oder B bevorzugen. Das Ergebnis wird nach Geschlecht des Befragten ausgewertet. Es ergibt sich folgende Vierfeldertafel mit absoluten Häufigkeiten:

Markenwahl weiblich männlich Summe
Produkt A 660 340 1000
Produkt B 340 660 1000
Summe 1000 1000 2000

und mit relativen Häufigkeiten

Markenwahl weiblich männlich Summe
Produkt A 0,33 0,17 0,5
Produkt B 0,17 0,33 0,5
Summe 0,5 0,5 1

Der Schein kann trügen

Auf den ersten Blick ist zu ersehen, dass die weiblichen Kunden dem Produkt A, die männlichen Kunden dagegen dem Produkt B zuneigen. Dies kann eine interessante Information sein – es kann aber auch nur ein Trugschluss sein. Die Auswertung der Befragung hinsichtlich des Alters der Kunden ergibt:

Markenwahl bis 40 Jahre über 40 Jahre Summe
Produkt A 700 300 1000
Produkt B 300 700 1000
Summe 1000 1000 2000

Das Kaufverhalten hängt also nicht nur vom Geschlecht, sondern auch vom Alter der Befragten ab. Das Bedürfnis, beide Informationen über Abhängigkeiten in einen realistischen Bezug zueinander zu bringen, erzwingt die Erarbeitung einer dreidimensionalen Kontingenztafel.

Um aus den Zusammenhängen in den untersuchten Stichproben auf Eigenschaften der zugrundeliegenden Grundgesamtheiten schließen zu können, können (unter gewissen Bedingungen) Chi-Quadrat-Tests verwendet werden. Der Exakte Fisher-Test ist ein statistischer Test auf Unabhängigkeit in der Kontingenztafel auch für kleine Stichproben.

Kategorien, die in Kontingenztafeln verwendet werden sollen

Insbesondere durch die statischen Verfahren, die auf der Kontingenztabelle aufbauen, werden Anforderungen an die Kategorien (eine einzelne Merkmalsausprägung oder eine Zusammenfassung von verschiedenen Merkmalsausprägungen) gestellt:

  • Streng genommen müssen alle Kategorien voneinander völlig unabhängig sein. Zum Beispiel kann eine Person nicht gleichzeitig "weiblich" und "männlich" sein (außer in seltenen Fällen von Intersexualität, die hier vernachlässigt werden); aber bei "hat Grundschule besucht" und "hat Berufslehre abgeschlossen" kann man die Mitglieder der letzteren Gruppe eigentlich auch in die erste einfügen – da der Besuch der Grundschule für jeden Menschen obligatorisch ist. Das Problem ist, dass die Randhäufigkeiten sich dann nicht zu n oder 1 aufaddieren.
  • Des Weiteren sollte es in der Kontingenztabelle keine Zeile oder Spalten geben in denen sich die Häufigkeiten zu Null aufaddieren. Zum Beispiel darf eine solche Tafel nicht die Kategorien "männlich" und "weiblich" besitzen, wenn man eine ausschließlich männliche oder ausschließlich weibliche Grundgesamtheit untersucht. Das Problem ist, dass in der statischen Auswertung der Kehrwert dieser Summe auftritt und 1/0=\infty ist.
  • Zusätzlich sollte man so selten wie möglich eine Kategorie "Sonstige" einsetzen; beispielsweise wie in "fährt Opel", "fährt Peugeot", "fährt Toyota", "fährt anderen Personenwagen". Dieser "Sammeltopf" sollte, falls er doch notwendig wird, durch eine durchdachte Konzipierung so klein wie möglich gehalten werden.

Dreidimensionale Kontingenztafel

Für eine dreidimensionale Tafel (drei Merkmale) fügt man zusätzliche Spalten in die Tabelle ein:

Geschlecht weiblich Geschlecht männlich
Markenwahl bis 40 Jahre über 40 Jahre bis 40 Jahre über 40 Jahre Summe
Produkt A 630 ( 70%) 30 ( 30%) 70 ( 70%) 270 ( 30%) 1000
Produkt B 270 ( 30%) 70 ( 70%) 30 ( 30%) 630 ( 70%) 1000
Summe 900 (100%) 100 (100%) 100 (100%) 900 (100%) 2000

Die in Klammern zugesetzten Prozentwerte sollen nur den Blick darauf lenken, dass die Produktneigung keinesfalls vom Geschlecht abhängig war. Sondern dem Produkt A sind gleichermaßen 70% der jüngeren Frauen wie auch der Männer und 30% der älteren Frauen wie auch der Männer zugeneigt; bei Produkt B genau umgekehrt.

Um dieses Phänomen geistig klarer zu machen, lohnt sich wieder eine (diesmal wieder zweidimensionale) Kontingenztafel:

Markenwahl bis 40 Jahre über 40 Jahre Summe
Weiblich 900 100 1000
Männlich 100 900 1000
Summe 1000 1000 2000

Hier wird deutlich, dass unter den jüngeren Befragten nunmal eine übergroße Mehrheit von 90% weiblich war. Und die jüngeren Kunden bevorzugen das Produkt A – nicht etwa die weiblichen! Dagegen bevorzugen die Älteren (in der Befragung vornehmlich Männer) das Produkt B. Es handelt sich bei der Geschlechterrelation aus dem Beispiel um ein rein scheinbares Verhältnis, das aufgrund der unausgewogenen statistischen Menge entstehen konnte.

Graphische Darstellung

Zur grafischen Darstellung zweidimensionaler Kontigenztabellen bieten sich 3D-Balkendiagramme an. Ein Nachteil solcher Diagramme ist jedoch, dass je nach Blickwinkel Balken verdeckt werden können. Zudem führt die 3D-Darstellung eine Perspektive ein, die es dem Betrachter schwierig machen kann, die Höhe der Balken miteinander zu vergleichen, um zu erkennen, in welcher Zelle nun mehr Beobachtungen sind.[1]

Besser ist es einen Mosaikplot zu verwenden, in dem die Flächen den Häufigkeiten für jede Kombination von Merkmalsausprägungen entsprechen. Zudem kann leicht die Unabhängigkeit von zwei oder mehr Variablen angezeigt werden.

Statistische Auswertung

Bei komplexer werdenden Kontingenztafeln lassen sich Relationen nicht mehr einfach mit dem Auge ablesen. Die Statistik setzt zur systematischen Analyse eine Reihe von Verfahren ein:

Siehe auch

Einzelnachweise

  1. Heiner Abels: Handbuch des statistischen Schaubilds: Konstruktion, Interpretation und Manipulation von graphischen Darstellungen (German Edition). Verlag Neue Wirtschafts-Briefe, 1981, ISBN 978-3482565816.

Weblinks


Wikimedia Foundation.

Игры ⚽ Поможем сделать НИР

Schlagen Sie auch in anderen Wörterbüchern nach:

  • Häufigkeitstabelle — Kontingenztafeln (Kontingenztabellen) sind Kreuztabellen. Sie enthalten die absoluten Häufigkeiten oder relativen Häufigkeiten(Häufigkeitstabellen) von Kombinationen bestimmter Merkmalsausprägungen. Kontingenz hat dabei die Bedeutung des… …   Deutsch Wikipedia

  • Kontingenztabelle — Kontingenztafeln (Kontingenztabellen) sind Kreuztabellen. Sie enthalten die absoluten Häufigkeiten oder relativen Häufigkeiten(Häufigkeitstabellen) von Kombinationen bestimmter Merkmalsausprägungen. Kontingenz hat dabei die Bedeutung des… …   Deutsch Wikipedia

  • Kreuztabelle — Kontingenztafeln (Kontingenztabellen) sind Kreuztabellen. Sie enthalten die absoluten Häufigkeiten oder relativen Häufigkeiten(Häufigkeitstabellen) von Kombinationen bestimmter Merkmalsausprägungen. Kontingenz hat dabei die Bedeutung des… …   Deutsch Wikipedia

  • Vier-Felder-Tafel — Kontingenztafeln (Kontingenztabellen) sind Kreuztabellen. Sie enthalten die absoluten Häufigkeiten oder relativen Häufigkeiten(Häufigkeitstabellen) von Kombinationen bestimmter Merkmalsausprägungen. Kontingenz hat dabei die Bedeutung des… …   Deutsch Wikipedia

  • Vierfeldertafel — Kontingenztafeln (Kontingenztabellen) sind Kreuztabellen. Sie enthalten die absoluten Häufigkeiten oder relativen Häufigkeiten(Häufigkeitstabellen) von Kombinationen bestimmter Merkmalsausprägungen. Kontingenz hat dabei die Bedeutung des… …   Deutsch Wikipedia

  • Randwahrscheinlichkeit — Als Randhäufigkeiten, Marginalhäufigkeiten oder marginale Häufigkeiten bezeichnet man die Randsummen der Häufigkeiten einer Kontingenztafel, die man am Rand der Tafel ablesen kann. Eine Kontingenztafel enthält Häufigkeiten für… …   Deutsch Wikipedia

  • Fleiss' Kappa — Cohens Kappa ist ein statistisches Maß für die Interrater Reliabilität von Einschätzungen von (in der Regel) zwei Beurteilern (Ratern), das Jacob Cohen 1960 vorschlug. Die Gleichung für Cohens Kappa lautet wobei p0 der gemessene… …   Deutsch Wikipedia

  • Fleiss' kappa — Cohens Kappa ist ein statistisches Maß für die Interrater Reliabilität von Einschätzungen von (in der Regel) zwei Beurteilern (Ratern), das Jacob Cohen 1960 vorschlug. Die Gleichung für Cohens Kappa lautet wobei p0 der gemessene… …   Deutsch Wikipedia

  • Kontingenzanalyse — Der Kontingenzkoeffizient C (nach Karl Pearson) ist ein statistisches Zusammenhangsmaß. Der Pearsonsche Kontingenzkoeffizient drückt die Stärke des Zusammenhangs zwischen zwei (oder mehreren) nominalen oder ordinalen Variablen aus. Er basiert auf …   Deutsch Wikipedia

  • Kontingenzkoeffizient — Der Kontingenzkoeffizient C (nach Karl Pearson) ist ein statistisches Zusammenhangsmaß. Der Pearsonsche Kontingenzkoeffizient drückt die Stärke des Zusammenhangs zwischen zwei (oder mehreren) nominalen oder ordinalen Variablen aus. Er basiert auf …   Deutsch Wikipedia

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”