grammis 2.0
das grammatische informationssystem des instituts für deutsche sprache (ids)
                                                                                              Mitarbeiter Literatur
Korpusgrammatik Grammatik in
Fragen und Antworten
Systematische
Grammatik
Grammatische
Fachbegriffe
Grammatisches
Wörterbuch
Grammatische
Bibliografie
                                                                             
                                   
Datenbasis für Untersuchungen zur grammatischen Variabilität im Standarddeutschen Statistische Methoden der Korpusgrammatik Verlässlichkeit grammatischer Annotationen Vorhersage von Fugenelementen in nominalen Komposita Variation der starken Genitivmarkierung AcI-Konstruktionen und Wie-Komplementsätze Ressource: GenitivDB

[Impressum] [Datenschutzerklärung]

                                                                           
Schlagwörter: Chi-Quadrat Kontingenztabelle Teilkorpus

Verfahren Fragestellung 3 (Verhältnis der Verteilungen von X in Korpus A und B)

Bei Fragestellung 3 geht es darum, die Verteilung eines Phänomens X, das wir aber in zwei unterschiedlichen Korpora mit jeweils gleicher Untergliederung in Teilkorpora messen, zu vergleichen. Dieses Problem stellt sich typischerweise, wenn die Verteilung eines Phänomens im ausgewogenen Korpus mit der Verteilung im Gesamtkorpus verglichen werden soll. Wenn das ausgewogene Korpus eine zufällige Stichprobe aus dem Gesamtkorpus wäre, müsste die Verteilung der Frequenzen von X auf die Teilkorpora sehr ähnlich sein. Der Kontingenztabelle von Phänomen X im Gesamtkorpus wird eine Tabelle der erwarteten Werte gegenübergestellt, die auf der Verteilung des Phänomens X im ausgewogenen Korpus entspricht.

Gehen wir von zwei Korpora A und B aus. Die Treffer von X in Korpus A entspricht der Tabelle 1 oben. Korpus B sei nun insgesamt 10 Mal größer als Korpus A und bezüglich Teilkorpora gleich strukturiert. Nun seien die Treffer für X in Korpus B idealerweise ebenfalls jeweils das Zehnfache der Treffer in Korpus A, so dass die Kontingenztabelle 6 erstellt werden kann.

Korpus B beobachtet X ¬X Total
Publikumspresse 1000 39999000 40000000
Bücher 1000 39999000 40000000
Internet/Wikipedia 1000 39999000 40000000
Gesprochenes 7000 39993000 40000000
Sonstige Printmedien 1000 39999000 40000000
Total 11000 199989000 200000000

Tabelle 7: Beobachtete Werte von Phänomen X in den Teilkorpora von Korpus B

Da wir die beobachteten Werte von X in Korpus A kennen (Tabelle 1), können wir nun daraus die für Korpus B erwarteten Werte berechnen. Sie sind (da Korpus B das Zehnfache von Korpus A umfasst und bezüglich Teilkorpora gleich strukturiert ist) einfach zehnmal so hoch wie in Korpus A und entsprechen deshalb genau den beobachteten Werten.

Korrekterweise folgt daraus X2 = 0 und p = 1 (df = 4); die Verteilung unterscheidet sich also überhaupt nicht von jener in Korpus A.

Falls aber ein signifikanter Unterschied zu den erwarteten Werten feststellbar wäre, könnte wieder über einen paarweisen Vergleich festgestellt werden, welche Teilkorpora von den erwarteten Werten signifikant abweichen.

Würden wir in Korpus B aber die Werte Publikumspresse = 1000, Bücher = 1050, Internet/Wikipedia = 950, Gesprochenes = 7000 und Sonstige Printmedien = 1070 beobachten, würde sich auf der Basis der erwarteten Werte ein leicht signifikanter Unterschied von p = 0,04 in der Verteilung der Treffer auf die Teilkorpora im Vergleich zu Korpus A ergeben.

Bei einer ganz anderen Zusammensetzung des Untersuchungskorpus im Vergleich zu Korpus A wird die Kontingenztabelle der erwarteten Werte entsprechend angepasst: Tabelle 8 zeigt angenommene beobachtete Werte für ein Phänomen X in einem Korpus C.

Korpus C beobachtet X ¬X Total
Publikumspresse 45000 1999955000 2000000000
Bücher 11000 499989000 500000000
Internet/Wikipedia 4500 199995500 200000000
Gesprochenes 1600 9998400 10000000
Sonstige Printmedien 9000 399991000 400000000
Total 71100 3109928900 3110000000

Tabelle 8: Beobachtete Werte von Phänomen X in den Teilkorpora von Korpus C

Die erwarteten Werte für Tabelle 8 widerspiegeln nun die Verteilung der beobachten Werte von Tabelle 1 Teilkorpora (Publikumspresse = 100, Bücher = 100, Internet/Wikipedia = 100, Gesprochenes = 700, Sonstige Printmedien = 100, Total = 1100), allerdings angepasst an die Trefferzahl von 71100 und die anderen Verhältnisse der Größen der Teilkorpora zueinander (Tabelle 9).1

Korpus C erwartet X ¬X Total
Publikumspresse 44858 1999955142 2000000000
Bücher 11215 499988785 500000000
Internet/Wikipedia 4486 199995514 200000000
Gesprochenes 1570 9998430 10000000
Sonstige Printmedien 8972 399991028 400000000
Total 71100 3109928900 3110000000

Tabelle 9: Erwartete Werte von Phänomen X in den Teilkorpora von Korpus C auf der Basis der beobachteten Werte von X in Korpus A (vgl. Tabelle 1)

Der Chi-Quadrat-Test ergibt nun p = 0,26 (X2 = 5,259, df = 4), also keine signifikante Abweichung von der Verteilung in Korpus A. Die Verteilung der Frequenzen in Tabelle C auf die Teilkorpora weichen kaum von der Verteilung in Korpus A ab



1Der erwartete Wert einer Zelle berechnet sich in zwei Schritten über eine Hilfstabelle A', die die Verteilung von Tabelle A in den Teilkorpusgrößen von Tabelle C widerspiegelt: A'E = A * Zeilensumme C / Zeilensumme A. Die eigentliche Kontingenztabelle für Korpus C basiert dann auf Tabelle A' und interpoliert die Werte daraus auf die Summe der Fälle für X in Tabelle C: CE = A'E * Spaltensumme C / Spaltensumme A'E. [zurück]

© IDS Mannheim. Zuletzt geändert am 18.01.2012 15:25.