grammis 2.0
das grammatische informationssystem des instituts für deutsche sprache (ids)
                                                                                              Mitarbeiter Literatur
Korpusgrammatik Grammatik in
Fragen und Antworten
Systematische
Grammatik
Grammatische
Fachbegriffe
Grammatisches
Wörterbuch
Grammatische
Bibliografie
                                                                             
                                   
Datenbasis für Untersuchungen zur grammatischen Variabilität im Standarddeutschen Statistische Methoden der Korpusgrammatik Verlässlichkeit grammatischer Annotationen Vorhersage von Fugenelementen in nominalen Komposita Variation der starken Genitivmarkierung AcI-Konstruktionen und Wie-Komplementsätze Ressource: GenitivDB

[Impressum] [Datenschutzerklärung]

                                                                           
Schlagwörter: Frequenz Korpus Teilkorpus

Frequenzvergleiche zwischen Teilkorpora

Die Projektkorpora bestehen aus dem kleineren ausgewogenen Korpus und dem Gesamtkorpus. Beide lassen sich bezüglich verschiedener Metadaten in Teilkorpora unterteilen, so etwa medial oder regional (vgl. Kapitel "Die Korpusbasis des Projekts"). Die Korpusdatenbank gibt bei einer Recherche für jedes dieser Teilkorpora die Trefferzahl und die jeweilige Gesamtanzahl der Wörter und Sätze in den Teilkorpora zurück. Damit lassen sich nun eine Reihe von Frequenzvergleichen durchführen:

  1. Fragestellung: Ist das Phänomen X gleichmäßig über die Teilkorpora verteilt oder gibt es in einem oder mehreren Teilkorpora unerwartet viele oder wenige Treffer?
  2. Fragestellung: Wie verhalten sich die Treffer der Phänomene X und Y zueinander? Ist der Unterschied generell oder in bestimmten Teilkorpora unerwartet hoch?
  3. Fragestellung: Wir kennen die Verteilung eines Phänomens X in einem Korpus A. Verteilt sich dieses Phänomen X in ähnlicher Weise auf die Teilkorpora von Korpus B oder gibt es in einem oder mehreren Teilkorpora unerwartet hohe Unterschiede?

Um Frequenzunterschiede zwischen Korpora zu messen, kann der nicht-parametrische Pearsons Chi-Quadrat-Test verwendet werden (Manning/Schütze 2002, S. 169f.; Sheskin 2007, S. 619ff.). Kilgarriff (2001, S. 121ff.) zeigt, dass der Chi-Quadrat-Test gerade für den Vergleich von Frequenzen im Korpora gut geeignet ist. Grundlage für den Chi-Quadrat-Test sind Kontingenztafeln, die die beobachteten und erwarteten Frequenzwerte für das Phänomen in den Teilkorpora enthalten (Sheskin 2007, S. 622ff.). Dabei wird geprüft, ob für die Grundgesamtheit auf der Basis der Zufallsauswahl die Nullhypothese gilt:

H0: Für jede Zelle der Kontingenztafel gilt, dass sich die beobachteten nicht von den erwarteten Werten unterscheiden.

Entsprechend lautet die Alternativhypothese:

H1: Mindestens für eine Zelle der Kontingenztafel unterscheidet sich der beobachtete vom erwarteten Wert.

Im Folgenden wird an den drei Fragestellungen gezeigt, wie die statistischen Berechnungen erfolgen. Es werden dabei fingierte Frequenzen verwendet, um die Berechnungen an einfachen Zahlenverhältnissen nachvollziehbar zu machen.

© IDS Mannheim. Zuletzt geändert am 29.04.2017 01:39.