grammis 2.0
das grammatische informationssystem des instituts für deutsche sprache (ids)
                                                                                              Mitarbeiter Literatur
Korpusgrammatik Grammatik in
Fragen und Antworten
Systematische
Grammatik
Grammatische
Fachbegriffe
Grammatisches
Wörterbuch
Grammatische
Bibliografie
                                                                             
                                   
Datenbasis für Untersuchungen zur grammatischen Variabilität im Standarddeutschen Statistische Methoden der Korpusgrammatik Verlässlichkeit grammatischer Annotationen Vorhersage von Fugenelementen in nominalen Komposita Variation der starken Genitivmarkierung AcI-Konstruktionen und Wie-Komplementsätze Ressource: GenitivDB

[Impressum] [Datenschutzerklärung]

                                                                           
Schlagwörter: Chi-Quadrat Kontingenztabelle Medium Teilkorpus

Verfahren Fragestellung 1 (X in den Teilkorpora)

Wir gehen von einem Phänomen X aus, das insgesamt 1000 Mal im Korpus vorkommt. Nun wird für jede Kategorie, mit der das Korpus in Teilkorpora aufgeteilt werden kann, die Verteilung auf die Teilkorpora geprüft. Wir gehen davon aus, dass sich z.B. für die Kategorie „Medium“ eine Verteilung von je 100 Treffern in „Publikumspresse“, „Bücher“, „Internet/Wikipedia“ und „sonstige Printpublikationen“, sowie von 700 Treffern in „Gesprochenes“ ergeben haben. Diese Werte sind in Tabelle 1 ersichtlich, wobei zusätzlich für jedes Teilkorpus die Gesamtgröße in Anzahl laufender Wortformen (Spalte „Total“) und daraus abgeleitet die Anzahl laufender Wortformen, die nicht zu Phänomen X gehören (Spalte ¬X) eingetragen sind.

Teilkorpus X ¬X Total
Publikumspresse 100 3999900 4000000
Bücher 100 3999900 4000000
Internet/Wikipedia 100 3999900 4000000
Gesprochenes 700 3999300 4000000
Sonstige Printmedien 100 3999900 4000000
Total 1100 19998900 20000000

Tabelle 1: Beobachtete Werte von Phänomen X in den Teilkorpora

Zusätzlich zur Tabelle mit den beobachteten Werten wird eine Tabelle mit den erwarteten Werten erstellt. Grundsätzlich könnte diese Tabelle beliebige Erwartungen an die Verteilung widerspiegeln. In unserem Fall gehen wir davon aus, dass die Treffer gleichmäßig auf die Teilkorpora verteilt sind. Die insgesamt 1100 Treffer müssten dann im Verhältnis zur jeweiligen Größe des Teilkorpus gleichmäßig auf die Teilkorpora verteilt sein, wie das in Tabelle 2 ersichtlich ist.1 Da die Teilkorpora alle gleich groß sind, erwarten wir, dass die 1100 gleichmäßig auf die Teilkorpora verteilt sein müssten.

Teilkorpus X ¬X Total
Publikumspresse 220 3999780 4000000
Bücher 220 3999780 4000000
Internet 220 3999780 4000000
Gesprochenes 220 3999780 4000000
Sonstige Printmedien 220 3999780 4000000
Total 1100 19998900 20000000

Tabelle 2: Erwartete Werte von Phänomen X in den Teilkorpora

Der Chi-Quadrat-Wert (X2) wird nun wie folgt berechnet, wobei O für die beobachteten und E für die erwarteten Werte stehen:

Für jede Zelle der Kontingenztabelle wird also der beobachtete vom erwarteten Wert subtrahiert, quadriert und durch den erwarteten Wert dividiert. Die Summe über alle Zellen ergibt Chi-Quadrat.

Jetzt kann geprüft werden, mit welcher Wahrscheinlichkeit p die Nullhypothese H0, die eine zufällige Verteilung behauptet, verworfen werden kann. Dafür müssen die Freiheitsgrade df bestimmt werden, die sich wie folgt berechnen lassen: (Zeilenzahl – 1) * (Spaltenzahl – 1).2 Für die oben dargestellte Kontingenztabelle beträgt dieser Wert3 also 4. Die Tabelle der kritischen Werte für X2 gibt dann Auskunft über die minimale Höhe, die X2 für ein bestimmtes Signifikanzniveau haben muss, um H0 verwerfen zu können.

Im Fall der oben genannten Werte ergibt X2 den Wert 1309 und liegt damit über dem kritischen Wert von 18,467 für das Signifikanzniveau p = 0,001 und df = 4. Die Verteilung ist also mit einer Wahrscheinlichkeit von 99,9% nicht zufällig bzw. gleichmäßig.

Die Höhe des Chi-Quadrat-Wert sagt nichts über die Stärke der Korrelation zwischen Teilkorpus und Frequenz des Phänomens aus, da der Wert von der Größe der Kontingenztabelle abhängig ist. Deshalb wird der Phi-Koeffizient verwendet, um den Wert um die Größe der Kontintenztabelle zu bereinigen:

Im Falle der Berechnungen oben ergibt Phi den Wert 0,008. Da sich Phi immer zwischen 0 (keine Korrelation) und 1 (starke Korrelation) bewegt, muss die Korrelation im Beispiel oben als sehr schwach eingestuft werden.

Der Chi-Quadrat-Test sagt allerdings nur aus, dass die Treffer in irgendeinem oder mehreren Teilkorpora signifikant über oder unter den erwarteten Werten liegen, nicht aber, in welchen Teilkorpora das der Fall ist. Dazu kann nun ein paarweiser Vergleich durchgeführt werden (Sheskin 2007, S. 650): Es werden für alle Kombinationen Publikumspresse/Bücher, Publikumspresse/Internet, Publikumspresse/Gesprochenes, Bücher/Publikumspresse etc. Tests berechnet, so dass angegeben werden kann, welche Teilkorpora signifikant von den erwarteten Werten abweichen.

Publikumspresse Bücher Internet/Wikipedia Gesprochenes
Bücher 1 - - -
Internet/Wikipedia 1 1 - -
Gesprochenes <2E-16 <2E-16 <2E-16 -
Sonstige Printmedien 1 1 1 <2E-16

Tabelle 3: Paarweiser Vergleich, Werte für p (mit Bonferroni-Korrektur)

Resultate des paarweisen Vergleichs und gibt für jede Kombination der Teilkorpora den Wert für p an. Wie man sieht, sind nur die Frequenzunterschiede zwischen dem Teilkorpus „Gesprochenes“ und den anderen hoch signifikant (p < 2e-16), die Unterschiede zwischen den anderen Teilkorpora sind nicht signifikant (p = 1).

Im Beispiel oben wurde das zu zählende Phänomen nicht weiter bestimmt: Es könnte sich um ein bestimmtes Wort, eine Konstruktion oder eine andere sprachliche Einheit handeln. Davon hängt aber ab, in welche Relation die Frequenz des Phänomens gesetzt werden soll: Sind die Summen in den Kontingenztabellen Frequenzen laufender Wortformen (wie im Beispiel oben) oder muss eine andere Einheit gewählt werden? Die Anzahl von Fällen von Verbzweitstellung in Nebensätzen hängt ja beispielsweise weniger von der Anzahl laufender Wortformen im Korpus ab, sondern von der Anzahl der Nebensätze im jeweiligen Korpus. Gibt es in einem Korpus nur sehr wenige Nebensätze, sind auch nicht viele Fälle von Verbzweitstellung zu erwarten, auch wenn das Korpus sehr viele laufende Wortformen umfasst.

Daher ist es sinnvoll, die zu zählenden Elemente flexibel zu halten. Der Einfachheit halber werden aber bei der statistischen Standardauswertung entweder die Anzahl laufender Wortformen oder die Anzahl an Sätzen berücksichtigt. Ist das bei einer bestimmten Fragestellung problematisch, kann dies manuell verändert werden.



1Der Wert für "Publikumspresse" berechnet sich z.B. in einem Dreisatz wie folgt: 400.000 * 1100 / 20.000.000 = 220. [zurück]

2Die Total-Zeile und -Spalte wird jeweils nicht mit gezählt. [zurück]

3Vgl. z. B. Manning/Schütze (2002, S. 609). [zurück]

© IDS Mannheim. Zuletzt geändert am 18.01.2012 15:28.