grammis 2.0
das grammatische informationssystem des instituts für deutsche sprache (ids)
                                                                                              Mitarbeiter Literatur
Korpusgrammatik Grammatik in
Fragen und Antworten
Systematische
Grammatik
Grammatische
Fachbegriffe
Grammatisches
Wörterbuch
Grammatische
Bibliografie
                                                                             
                                   
Datenbasis für Untersuchungen zur grammatischen Variabilität im Standarddeutschen Statistische Methoden der Korpusgrammatik Verlässlichkeit grammatischer Annotationen Vorhersage von Fugenelementen in nominalen Komposita Variation der starken Genitivmarkierung AcI-Konstruktionen und Wie-Komplementsätze Ressource: GenitivDB

[Impressum] [Datenschutzerklärung]

                                                                           
Schlagwörter: Statistik

Statistische Methoden der Korpusgrammatik

Für die korpusgestützte Forschung zur deutschen Grammatik, wie sie im Rahmen des Projektes "Korpusgrammatik" betrieben wird, sind statistische Methoden elementar. Dabei sollen nicht nur simple Frequenzberechnungen zur Anwendung kommen, sondern auch avanciertere Methoden der deskriptiven und schließenden Statistik. Zudem sollen die Recherchen in den Projektkorpora bis zu einem gewissen Maß vereinheitlicht werden: Ziel ist es, jeweils eine Reihe von immer gleichen statistischen Tests auf die Analyseresultate anzuwenden, um systematisch zu prüfen, ob die Verteilung der Treffer über die verschiedenen Teilkorpora in einem Bereich statistisch auffällig ist oder nicht. Dies dient dazu, ein Phänomen rasch einschätzen zu können: Handelt es sich um ein Randphänomen oder ist es in den Daten weit verbreitet? Ist es nur in bestimmten Textbereichen gebräuchlich? Aufgrund dieses "Schnelltests" können dann weitere Analysen vorgenommen werden.

Die Ausgangslage

Um ein systematisches Vorgehen bei den Recherchen zu begünstigen, wurde die prototypische Korpusdatenbank KoGra-DB um ein Modul der statistischen Analyse ergänzt, das automatisiert eine Reihe von Analysen durchführt. Diese Analysen geben bei der Recherche einen ersten Eindruck über die Verbreitung des Phänomens in den Daten und dienen als Basis für weitere Analysen.

Grundsätzlich wird bei diesen statistischen Analysen von zwei möglichen Rechercheszenarien ausgegangen:

  1. Recherche nach einem bestimmten Phänomen (z.B. Verbzweitstellung in Nebensätzen)
  2. Recherche nach zwei zusammenhängenden Phänomenen (z.B. Präteritum-Formen fragte vs. frug.

Bei beiden Szenarien interessiert man sich dafür, wie hoch die Trefferzahl im Korpus ist und wie sich die Belege über das Korpus verteilen: Sind die Frequenzen in Bezug zur Korpusgröße eher hoch, mittel oder niedrig? Gibt es in einem oder mehreren der Teilkorpora, die über die Kriterien „Medium“, „Region“, „Domäne“ etc. (siehe "Die Korpusbasis des Projekts") definiert sind, eine auffällige Häufung der Treffer? Oder ist das Phänomen gleichmäßig über das Korpus verteilt? Es handelt sich also um Fragen der Varianz eines Phänomens in den Daten (vgl. "Variabilität bezüglich eines grammatischen Phänomens").

Beim zweiten Szenario, bei dem zwei Phänomene miteinander verglichen werden, interessiert zusätzlich noch das Verhältnis der Frequenzen zwischen den beiden Phänomenen. Ist das eine Phänomen durchgehend häufiger als das andere oder gibt es Teilkorpora, in denen das Verhältnis umgekehrt ist? Ausgangspunkt ist also ein Phänomen der Variation (vgl. "Variabilität bezüglich mehrerer grammatischer Phänomene").

Diese Fragen sollen über einen „statistischen Schnelltest“ bei jeder Recherche automatisch vom Korpusabfragesystem beantwortet werden. Die Beantwortung dieser Fragen gehört zum Standardrepertoire von Korpusanalysen (vgl. etwa Gries 2008b, S. 103ff./153ff.; Oakes 1998; Albert/Koster 2002, S. 74ff.). Nachfolgend wird dargestellt, welche statistischen Tests verwendet werden, um diesen "Schnelltest" durchzuführen und wie sie technisch in R implementiert wurden.

© IDS Mannheim. Zuletzt geändert am 10.11.2016 10:55.