grammis 2.0
das grammatische informationssystem des instituts für deutsche sprache (ids)
                                                                                              Mitarbeiter Literatur
Korpusgrammatik Grammatik in
Fragen und Antworten
Systematische
Grammatik
Grammatische
Fachbegriffe
Grammatisches
Wörterbuch
Grammatische
Bibliografie
                                                                             
                                   
Datenbasis für Untersuchungen zur grammatischen Variabilität im Standarddeutschen Statistische Methoden der Korpusgrammatik Verlässlichkeit grammatischer Annotationen Vorhersage von Fugenelementen in nominalen Komposita Variation der starken Genitivmarkierung AcI-Konstruktionen und Wie-Komplementsätze Ressource: GenitivDB

[Impressum] [Datenschutzerklärung]

                                                                           
Schlagwörter: Chi-Quadrat Teilkorpus

Chi-Quadrat-Tests für die Frequenzvergleiche zwischen Teilkorpora

Um den Chi-Quadrat-Test durchzuführen, kann in R die Funktion chisq.test() benutzt werden. Sie liest die Daten der beobachteten Werte als Matrix ein und gibt den Chi-Quadrat-Wert und p aus. Mit folgenden Befehlen wird die Matrix erstellt und die Statistik berechnet (ausgehend von den Daten aus Tabelle 1):

1:   x <- matrix(c(100,100,100,700,100,3999900,3999900,
        3999900,3999900,3999900),5,2)
2:   dimnames(x) < list(c("Publikumspresse","Bücher","Internet/Wikipedia",
        "Gesprochenes","Sonstige Printmedien"), c("X","-X"))
3:   chisq.test(x)
4:   Pearson's Chi-squared test 
     data:  x 
     X-squared = 1308.901, df = 4, p-value < 2.2e-16

In Zeile 1 wird eine Matrix mit den Daten der Kontingenztabelle erstellt, die 4 Zeilen und 2 Spalten aufweist. In Zeile 2 werden den Zeilen und Spalten der besseren Übersichtlichkeit wegen sprechende Namen hinzugefügt. In Zeile 3 erfolgt schließlich der Chi-Quadrat-Test auf der Basis der Daten. Zeile 4 zeigt die Ausgabe des Tests.

Im Anschluss werden noch die Assoziationsstärke Phi berechnet (Zeile 5) und bei Tabellen, in denen ein signifikanter Frequenzunterschied feststellbar ist, ein paarweiser Vergleich gemacht (Zeile 6):

5:	sqrt(
		chisq.test(x)$statistic
		/
		sum(x)*(min(dim(x))-1)
  	)
6:	pairwise.prop.test(x, p.adjust.method="bonferroni")

Für Fragestellung 3 muss die R-Funktion für die Berechnung des Chi-Quadrat-Tests zusätzlich mit den Angaben der angepassten erwarteten Werte aufgerufen werden (ausgehend von den Daten aus Tabellen 8 und 9):

7:	x <- c(45000, 11000, 4500, 1600, 9000)
8:	p <- c(44858, 11215, 4486, 1570, 8972)
9:	chisq.test(x, p = p, rescale.p = TRUE)

Die benötigten R-Befehle werden von einem PHP-Script erzeugt, sobald der Benutzer in der Kogra-DB die statistische Standardauswertung aufruft. Die Resultate der Berechnungen werden als HTML-Seite an den Benutzer zurückgegeben (vgl. Abbildung 3). Neben den Zahlenwerten werden zudem die relativen Frequenzen als Balkendiagramme visualisiert.

© IDS Mannheim. Zuletzt geändert am 17.01.2012 21:32.