grammis 2.0
das grammatische informationssystem des instituts für deutsche sprache (ids)
                                                                                              Mitarbeiter Literatur
Korpusgrammatik Grammatik in
Fragen und Antworten
Systematische
Grammatik
Grammatische
Fachbegriffe
Grammatisches
Wörterbuch
Grammatische
Bibliografie
                                                                             
                                   
Datenbasis für Untersuchungen zur grammatischen Variabilität im Standarddeutschen Statistische Methoden der Korpusgrammatik Verlässlichkeit grammatischer Annotationen Vorhersage von Fugenelementen in nominalen Komposita Variation der starken Genitivmarkierung AcI-Konstruktionen und Wie-Komplementsätze Ressource: GenitivDB

[Impressum] [Datenschutzerklärung]

                                                                           
Schlagwörter: Frequenz Korpus

Verteilung über das Gesamtkorpus

Die oben dargestellten statistischen Tests können verwendet werden, um eine unregelmäßige Verteilung über die Teilkorpora zu entdecken. Trotzdem kann mit diesen Tests noch nicht ausgeschlossen werden, dass innerhalb eines Teilkorpus eine sehr ungleichmäßige Verteilung der Treffer herrscht. Im Extremfall kann sich ein Phänomen auf nur einen Text (z.B. einen längeren Roman) beschränken und für die hohe Frequenz im entsprechenden Teilkorpus verantwortlich sein (vgl. dazu das Beispiel zu frug in Kapitel "Variabilität bezüglich eines grammatischen Phänomens").

Auf dieses Problem der „Clumpiness“ verweisen verschiedene Autoren (Church/Gale 1995; Kilgarriff 2001, S. 107; Gries 2008a). Es gibt verschiedene statistische Maße, um die Gleichmäßigkeit der Verteilung eines Phänomens auf ein Korpus zu messen, wobei dafür das Korpus immer in kleinere Einheiten, z.B. Texte oder beliebige andere Abschnitte, unterteilt wird. Gries (2008a) diskutiert statistische Maße, die die Streuung der Frequenzen in den jeweiligen Korpusteilen bemisst (z.B. Juilland et al.'s D, Rosengrens S etc.) bzw. erwartete mit beobachteten Frequenzen in den Korpusteilen miteinander in Beziehung setzen.

Dabei zeigt sich, dass keines dieser Maße befriedigend ist, da sie meistens davon ausgehen, dass die einzelnen Korpusteile gleich groß sind, keine normalisierten Werte ausgeben oder zu über- bzw. unterempfindlich gegenüber Häufungsschwankungen in Korpusdaten sind (vgl. für Details Gries 2008a). Deshalb schlägt Gries ein Maß vor, das speziell für Korpusdaten geeignet ist: Gries DP und DPnorm ('Deviation of Proportions'). Es wird folgendermaßen berechnet:

  • Für jedes Teilkorpus wird in Prozent in Relation zur Korpusgröße die erwartete Frequenz des Phänomens berechnet.
  • Für jedes Teilkorpus wird in Prozent in Relation zur Korpusgröße die beobachtete Frequenz des Phänomens berechnet.
  • Die Differenzen zwischen erwarteten und beobachteten Prozentwerten werden pro Teilkorpus berechnet und die Differenzen aller Teilkorpora summiert und durch 2 dividiert.
  • In einem letzten Schritt wird der berechnete Wert DP normiert, um zu ermöglichen, dass der Wert die theoretischen Maxima und Minima 1 und 0 erreichen kann: DP/(1-min(s)), wobei min(s) die Größe des kleinsten Teilkorpus ausdrückt (DPnorm ist in Lijffijt/Gries gegenüber Gries 2008a korrigiert).

DPnorm ergibt immer einen Wert zwischen 0 und 1. Je naher der Wert bei 0 liegt, desto gleichmäßiger ist das Phänomen verteilt.

Zur Illustration dienen nachfolgende Berechnungen von verschiedenen Verteilungsmaßen für Recherchen im DeReKo. Es wurde mit unterschiedlichen Korpora gearbeitet: Das erste Korpus ('10%-Korpus') umfasst im eine Zufallsauswahl von 10% der Anzahl Wörter des gesamten DeReKo und damit 374.521.682 Wörter und 1.547.513 Texte. In Ergänzung dazu wurde für einzelne Lexeme auch im kompletten DeReKo recherchiert. Zudem wurden Teilkorpora von Pressetexten in Deutschland (D), Österreich (A) und der Schweiz (CH) erstellt, die jeweils alle entsprechenden Zeitungen aus dem DeReKo verwenden.1

Im DeReKo sind mehrere Texte zu „Dokumenten“ zusammengefasst (z.B. alle Zeitungsartikel aus einem Monat einer Zeitung). Im Fall des Untersuchungskorpus handelt es sich um 3068 Dokumente. Pro Dokument wird die Frequenz des Phänomens berechnet. Die Ergebnisse für verschiedene Maße werden mit einem R-Script2 von Gries berechnet (Gries 2008a, 2009). In Tabelle 10 sind die Ergebnisse für Gries DP im Vergleich zu anderen Maßen angegeben.

Suche SD VC Chi-Quadrat Juillands D DPnorm Frequenz/Mio.
aber (10%) 203,84 0,79 26735,77 0,99 0,07 2105,10
aber 2068,84 0,88 245816,4 0,99 0,07 2110,07
diskutieren (10%)3 11,30 1,05 6352526 0,98 0,16 88,35
dieses Jahres (10%) 5,07 1,14 7875384 0,98 0,27 36,55
diesen Jahres (10%) 0,98 2,19 3774208 0,95 0,59 3,68
parken (10%) 4,10 1,80 7711566 0,95 0,38 18,61
parkieren (10%) 0,80 5,02 8200104 0,91 0,92 1,30
parken CH 2,31 0,87 429,1861 0,94 0,30 1,36
parkieren CH 14,71 0,63 856,6168 0,97 0,16 14,62
fragte (10%) 4,63 1,37 21923,85 0,96 0,29 27,60
frug (10%) 0,15 10,70 5328926 0,77 0,98 0,11

Tabelle 10: Verschiedene Maße zur Berechnung der Verteilung von Verben und anderen Phänomenen in unterschiedlichen Korpora:
Standardabweichung (SD), Variationskoeffizient (VC), Chi-Quadrat-Test, Juilland et al.s D für unterschiedlich große Korpusteile, Gries DPnorm (vgl. Gries 2008a, S. 407/415ff.).
Der Zusatz '10%' bedeutet: 10%-Zufallsauswahl des DeReKo; Länderkürzel CH, D, A: Schweizer, deutsches und österreichische Pressekorpora aus dem DeReKo; ohne zusätzliche Angabe: komplettes DeReKo.

An DPnorm ist ersichtlich, dass aber mit einem Wert von 0,07 sehr gleichmäßig über die Dokumente verteilt ist. Dies gilt sowohl für die Recherche im Gesamtkorpus des DeReKo als auch in der 10%-Zufallsauswahl. Allerdings weichen die Standardabweichung und der Chi-Quadrat-Wert bei aber in den beiden Korpora massiv voneinander ab, was zeigt, dass diese beiden Maße definitionsgemäß stark von der Korpusgröße abhängig sind. Etwas weniger gleichmäßig verteilt ist diskutieren. Die beiden Wörter dienen uns im Vergleich zu den anderen Ausdrücken als Referenzpunkt, von denen – insbesondere bei aber – nicht erwartet wird, dass sie bezüglich irgendeines Faktors unregelmäßig im Korpus anzutreffen wären. Bei diskutieren mag es im Vergleich zu aber in bestimmten Texten aufgrund inhaltlicher Verwendungsbeschränkungen bereits zu etwas stärker gehäufter Verwendung kommen.

Wie verhalten sich die grammatisch interessanteren Ausdrücke zu diesen beiden Referenzpunkten? Alle sind weniger gleichmäßig verteilt als aber und diskutieren. Der Ausdruck diesen Jahres ist weniger gleichmäßig verteilt (DPnorm = 0,59) als dieses Jahres (DPnorm = 0,27).4 Sehr ungleichmäßig ist der Helvetismus parkieren verteilt (DPnorm = 0,92), da das Lexem wahrscheinlich nur in Schweizer Quellen benutzt wird. Wenn die Suche auf die im Korpus verfügbaren Schweizer Zeitungen beschränkt wird, ergibt sich erwartungsgemäß ein sehr kleiner DPnorm-Wert von 0,16 (vgl. parkieren CH in Tabelle 10); in der Schweiz ist das Verb also ziemlich gleichmäßig in den Daten verteilt. Am ungleichmäßigsten ist der Ausdruck frug verteilt, eine heutzutage eindeutig standardferne Präteritalform (DPnorm = 0,98).

Die Ausdrücke fragte und parken sind mit einem DPnorm-Wert von 0,28 bzw. 0,38 relativ gleichmäßig verteilt, jedoch noch immer ungleichmäßiger als aber und diskutieren. Die Rangfolge der fünf Suchausdrücke von sehr gleichmäßig bis nicht gleichmäßig (aber > diskutieren > dieses Jahres > fragte > parken > diesen Jahres > parkieren > frug) scheint plausibel zu sein; von den oben berechneten Maßen widerspiegelt nur der Variationskoeffizient diese Reihenfolge. Die Standardabweichung und der Chi-Quadrat-Wert sind stark von der absoluten Frequenz der Treffer abhängig, deshalb weist aber den höchsten Wert auf. Juilland et al.s D zeigt sich wenig empfindlich gegenüber den unterschiedlichen Frequenzschwankungen.

Abbildung 1 bildet die Ausdrücke aus Tabelle 10 als Korrelation zwischen DPnorm und Frequenz im Korpus ab. Die Visualisierung macht deutlich, dass Wörter, die im unteren Bereich der Grafik liegen, eher zum Standard gehören, während die Wörter im oberen Bereich eher standardfern sind. Zudem sind Wörter im linken Bereich niedrig- und im rechten Bereich hochfrequent im Korpus.

Abbildung 1: Plot einiger Lexeme aus Tabelle 10 auf den Achsen DPnorm und relativer Frequenz im Korpus

In Tabelle 11 (visualisiert in Abbildung 2) sind die Werte für zwei Komposita aufgeführt: Antragsteller und Schweinebraten jeweils mit den s-Fugen-Varianten Antragssteller und Schweinsbraten.

Suche SD VC Chi-Quadrat Juillands D DPnorm Frequenz/Mio.
Antragsteller (10%) 0,93 2,14 5557407 0,93 0,61 3,55
Antragssteller (10%) 0,16 8,22 4083908 0,82 0,97 0,16
Antragsteller CH 2,54 0,98 430 0,94 0,33 1,63
Antragssteller CH 0,77 1,78 231 0,88 0,65 0,27
Schweinebraten (10%) 0,29 4,72 4732783 0,89 0,92 0,50
Schweinsbraten (10%) 0,25 5,65 5572 0,86 0,95 0,36
Schweinebraten 1,01 1,94 6610378 0,95 0,59 0,47
Schweinsbraten 1,21 3,16 10725 0,94 0,77 0,34
Schweinebraten D 1,20 1,49 4404427 0,96 0,53 0,57
Schweinsbraten D 0,52 2,99 4302002 0,91 0,84 0,12
Schweinebraten A 0,57 2,81 950 0,87 0,80 0,19
Schweinsbraten A 1,35 1,6 874957 0,93 0,49 1,53

Tabelle 11: Verschiedene Maße zur Berechnung der Verteilung von Komposita in unterschiedlichen Korpora:
Standardabweichung (SD), Variationskoeffizient (VC), Chi-Quadrat-Test, Juilland et al.s D für unterschiedlich große Korpusteile, Gries DPnorm (vgl. Gries 2008a, S. 407/415ff.).
Der Zusatz '10%' bedeutet: 10%-Zufallsauswahl des DeReKo; Länderkürzel CH, D, A: Schweizer, deutsches und österreichische Pressekorpora aus dem DeReKo; ohne zusätzliche Angabe: komplettes DeReKo.

Komposita erscheinen im Korpus insgesamt deutlich seltener und sind dadurch auch von vornherein nicht so gleichmäßig verteilt. Das unumstritten standarddeutsche Antragsteller ist sogar etwas ungleichmäßiger verteilt (DPnorm = 0,61) als das tendenziell nur standardnahe diesen Jahres aus Tabelle 10. Dennoch ist der Abstand zum eher als standardfern einzustufenden Antragssteller (DPnorm = 0,97) noch sehr deutlich (lediglich in der Schweiz ist dieses etwas gleichmäßiger verteilt – DPnorm = 0,65). Aufschlussreich erscheint hier also vor allem der Vergleich von Komposita und deren Varianten untereinander, was DPnorm für die Ausdrücke Schweinebraten und Schweinsbraten besonders gut illustrieren kann: Schweinebraten ist im Gesamtkorpus ähnlich verteilt (DPnorm = 0,59) wie Antragsteller und gleichmäßiger als Schweinsbraten (DPnorm = 0,77). Der Abstand zwischen den beiden Varianten ist in den Quellen aus Deutschland noch deutlicher. In den österreichischen Quellen kehrt sich das Verhältnis zwischen den Varianten aber um – der Ausdruck Schweinsbraten erreicht hier sogar den niedrigsten DPnorm-Wert in Tabelle 11 überhaupt. In den Schweizer Quellen schließlich liegen die DPnorm-Werte für beide Varianten nah beieinander, wobei Schweinebraten etwas gleichmäßiger verteilt erscheint.

Abbildung 2: Plot einiger Lexeme aus Tabelle 11 auf den Achsen DPnorm und relativer Frequenz im Korpus

Abbildung 2 bildet die Ausdrücke aus Tabelle 11 als Korrelation zwischen DPnorm und Frequenz im Korpus ab. Die Rangfolge der Ausdrücke von gleichmäßig (unten) bis nicht gleichmäßig (oben) Schweinsbraten A > Schweinebraten D > Antragsteller > Schweinebraten > Schweinsbraten > Schweinebraten CH > Schweinebraten A > Schweinsbraten CH > Schweinsbraten D > Antragssteller scheint erneut plausibel in Bezug auf die Überlegungen zur Standardzugehörigkeit zu sein, da der Ausdruck Schweinsbraten bekanntlich insbesondere im süddeutschen Raum Verwendung findet. Lediglich die etwas gleichmäßigere Verteilung von Schweinebraten in den Schweizer Quellen kann als linguistisch erklärungsbedürftig erscheinen.

Die in Abbildung 2 dargestellten Werte für Schweinebraten und Schweinsbraten beziehen sich nicht auf das 10%-Korpus, sondern auf das komplette DeReKo. Anders als bei aber in Tabelle 10 hat sich nämlich bei niedrigfrequenten Phänomenen gezeigt, dass mitunter der DPnorm-Wert je nach Korpusgröße stark schwankt. Schweinebraten ergibt im 10%-Korpus einen DPnorm-Wert von 0,92 (statt 0,59 im gesamten DeReKo) und Schweinsbraten von 0,95 (statt 0,77). Zwar ist es auch im 10%-Korpus so, dass Schweinebraten etwas gleichmäßiger verteilt ist als Schweinsbraten, der Unterschied ist aber minim und die Werte im Vergleich zu den anderen Phänomenen sehr hoch. Warum dies so ist, muss noch genauer untersucht werden. Jedoch scheint es gerade bei niedrigfrequenten Phänomenen wichtig zu sein, mit möglichst großen Datenmengen zu arbeiten.

Es kann an dieser Stelle keine ausführliche Evaluation der unterschiedlichen Maße erfolgen. Die Studien von Gries zu unterschiedlichen Lexemen im British National Corpus (Gries 2008a, S. 419ff.) sind jedoch ermutigend, Gries DP als Kontrollmaß anzuwenden, um zu überprüfen, ob ein bestimmtes Phänomen in bestimmten Dokumenten gehäuft vorkommt. Die weiteren Studien im Projekt werden den Nutzen des Maßes überprüfen.



1 Die Korpora umfassen die folgenden Zeitungen: Schweiz: St. Galler Tagblatt, Zürcher Tages-Anzeiger, Südostschweiz (1.206.430 Texte, 347.497.072 Wörter); Deutschland: alle im DeReKo verfügbaren deutschen Zeitungen ab 1980 (11.261.444 Texte, 2.811.488.592 Wörter); Österreich: Bürgenländische Volkszeitung, Die Presse, Kleine Zeitung, Neue Kronen-Zeitung, Niederösterreichische Nachrichten, Oberösterreichische Nachrichten, Salzburger Nachrichten, Tiroler Tageszeitung, Voralberger Nachrichten (3.366.977 Texte, 618.878.022 Wörter). [zurück]

2Zu R vgl. Ihaka/Gentleman (1996) und Kapitel "Implementierung in R". [zurück]

3Inkl. Konjugationsformen. [zurück]

4Obwohl beide Varianten korrekt sind, urteilt die „Grammatik in Fragen und Antworten“ dazu: „Aus sprachtheoretischer Sicht lässt sich die eingangs gestellte Frage nicht eindeutig beantworten. Wer sich damit nicht zufriedengeben will, mag eine praktische Entscheidung treffen: Kritik zieht man sich allenfalls zu, wenn man diesen verwendet. Die Form dieses wird in Verbindung mit jedem Nomen im Genitiv überall und jederzeit fraglos akzeptiert.“ (Grammis 2009, “Anfang diesen Jahres oder Ende dieses Jahres?”). [zurück]

© IDS Mannheim. Zuletzt geändert am 14.02.2012 12:46.