grammis 2.0
das grammatische informationssystem des instituts für deutsche sprache (ids)
                                                                                              Mitarbeiter Literatur
Korpusgrammatik Grammatik in
Fragen und Antworten
Systematische
Grammatik
Grammatische
Fachbegriffe
Grammatisches
Wörterbuch
Grammatische
Bibliografie
                                                                             
                                   
Datenbasis für Untersuchungen zur grammatischen Variabilität im Standarddeutschen Statistische Methoden der Korpusgrammatik Verlässlichkeit grammatischer Annotationen Vorhersage von Fugenelementen in nominalen Komposita Variation der starken Genitivmarkierung AcI-Konstruktionen und Wie-Komplementsätze Ressource: GenitivDB

[Impressum] [Datenschutzerklärung]

                                                                           
Schlagwörter: Frequenz Korpus Varianz

Perspektiven für die Betrachtung der Frequenz

Varianz und Variation können getrennt oder auch miteinander kombiniert betrachtet werden, sodass sich insgesamt folgende Perspektiven:

  1. Die Häufigkeit eines grammatischen Phänomens unterliegt Schwankungen (Varianz): Ein Phänomen erscheint in verschiedenen Teilkorpora unterschiedlich häufig.
  2. Mehrere grammatische Phänomene konkurrieren miteinander (Variation): Eine grammatische Variable hat mindestens zwei formal unterscheidbare Ausprägungen. Diesbezüglich kann einerseits in den Vordergrund rücken,
    • dass die Frequenzen der Varianten in einem (Teil-)Korpus in einem bestimmten Verhältnis zueinander stehen (frequenzbasierte Variationsbetrachtung), und andererseits,
    • dass sich die Varianten jeweils spezifisch auf die Teilkorpora verteilen, das heißt jeweils spezifische Varianz zeigen (varianzbasierte Variationsbetrachtung).

Bei einer frequenzbasierten Variationsbetrachtung kommt man schnell auf die Idee, dass die einen (im Vergleich zu den anderen häufigen) Varianten der Standardsprache zugerechnet werden könnten und die anderen (im Vergleich zu den anderen seltenen) Varianten unter Umständen nicht. Die Fragestellung wird allerdings etwas komplizierter, wenn man bedenkt, dass in verschiedenen Teilkorpora auch verschiedene Varianten überwiegen können. Die Möglichkeiten zur Einschätzung der Standardsprachlichkeit, die sich dabei modellhaft ergeben, werden für prototypische Fälle in Tabelle 5 gezeigt (zur Explikation möglicher statistischer Verfahren Statistische Analysen in den Projektkorpora).

Relative Frequenz des Phänomens Relative Frequenz der Variante(n) Zuordnung des Phänomens Beispiele (tentativ)
höher niedriger allgemeiner Standard fragte (vs. frug)
höher nur im Teilkorpus (z. B. regional bestimmt) niedriger im Teilkorpus Teilstandard parkieren (vs. parken) in schweizerischen Texten, parken (vs. parkieren) in bundesdeutschen und österreichischen Texten
annähernd gleich annähernd gleich Standardvariante gewunken vs. gewinkt
etwas niedriger etwas höher standardnah diesen Jahres (vs. dieses Jahres)
deutlich niedriger deutlich höher standardfern (Substandard, idiosynkratisch, Fehler etc.) frug (vs. fragte), Antragssteller (vs. Antragsteller)

Tabelle 5: Standardzugehörigkeit und Frequenz von Varianten (Tendenzen)

In Tabelle 5 wird davon ausgegangen, dass es in einem in Teilkorpora untergliederten Korpus sowohl eine allgemeine Variation geben kann, die in allen Teilkorpora deutlich ist (z. B. dieses Jahres vs. diesen Jahres, gewinkt vs. gewunken), als auch eine „lokale“ Variation, die nur in einzelnen Teilkorpora wirklich von Bedeutung ist (parkieren vs. parken in Schweizer Texten). Es wird auch angenommen, dass bei einer allgemeinen Variation das Verhältnis der Variantenfrequenzen zueinander zwischen den Teilkorpora auch deutlich variieren kann (z. B. frug in österreichischen vs. bundesdeutschen und schweizerischen Texten).

Siehe auch (Abschnitt ein-/ausblenden)

Siehe Variabilität bezüglich eines grammatischen Phänomens, vgl. auch Konopka 2010, S. 34ff.

Ist eine Variante über alle Teilkorpora hinweg im Vergleich zu anderen stark belegt, kann sie aus dieser Perspektive als allgemeiner Standard gewertet werden. Wird sie dagegen nur in einzelnen Teilkorpora häufig verwendet – immer relativ zu anderen Varianten gesehen – , so kann sie nur als Teilstandard gelten. Zur Erinnerung: Je nach Parameter des Teilkorpus kann es sich dabei um einen regionalen Standard, Textsortenstandard, medialen Standard etc. handeln. Sowohl in Bezug auf das Gesamtkorpus als auch in Bezug auf die einzelnen Teilkorpora kann man aus dieser Perspektive aufgrund von Frequenzverhältnissen standardnahe Varianten diagnostizieren und standardferne Varianten einschließlich idiosynkratischer Varianten und Fehler isolieren. Dabei muss die Auffassung gelten, dass sich der Standard in verschiedenen Bereichen des Sprachgebrauchs unterschiedlich gestalten kann.

Gerade wenn man für bestimmte Bereiche geltenden Teilstandards auf die Spur kommen will, gewinnt varianzbasierte Variationsbetrachtung an Bedeutung. Denn eine hohe Frequenz einer Variante kann z. B. über die Tatsache hinwegtäuschen, dass die Variante in bestimmten Bereichen des Sprachgebrauchs sehr häufig und in anderen sehr selten ist. Andererseits kann eine global gesehen relativ seltene Variante in bestimmten Bereichen des Sprachgebrauchs doch häufiger auftreten und dort zum Standard gehören. Und schließlich können ähnliche Frequenzen von Varianten in einem Gesamtkorpus deutliche Frequenzunterschiede in den Teilkorpora verschleiern. Die Information, ob sich eine Variante im Gesamtkorpus gleichmäßig oder nicht gleichmäßig verteilt (zum statistischen Instrumentarium siehe Verteilung über das Gesamtkorpus), hilft hier weiter und leitet eventuell die genauere Untersuchung der Teilkorpora ein.

Demonstration anhand eines Beispiels (Abschnitt ein-/ausblenden)

Die Kompositumvarianten Schweinebraten und Schweinsbraten sind im DeReKo ähnlich häufig (0,47 bzw. 0,34 Vorkommen pro eine Mio. Wörter), was ohne weiteres Nachforschen suggerieren könnte, beide als gleichberechtigt dem allgemeinen Standard zuzuordnen. Allerdings sind beide Varianten auch sehr ungleichmäßig über das DeReKo verteilt (zu Messwerten siehe Verteilung über das Gesamtkorpus). Eine Untersuchung von Teilkorpora aus länderspezifischen Pressetexten zeigt dann folgende Lage: Schweinsbraten ist in österreichischen Texten deutlich häufiger als Schweinebraten und hier auch deutlich gleichmäßiger verteilt. In Texten aus Deutschland und der Schweiz ist dagegen Schweinebraten häufiger, wobei sowohl der Frequenz- als auch der Varianzunterschied in Deutschland deutlich und in der Schweiz nur gering ausfällt (ebd.). Dies legt auf der "Länderebene" in etwa folgende Zuordnungen nahe: "Schweinsbraten ist standardsprachlich in Österreich, eine gleichberechtigte standardsprachliche Variante in der Schweiz und eine eher standardferne Variante in Deutschland. Schweinebraten hingegen ist standardsprachlich in Deutschland, eine gleichberechtigte standardsprachliche Variante in der Schweiz und eine standardferne Variante in Österreich." Die Betrachtung würde natürlich genauer, wenn man von der "Länder-" auf die "Großregionenbene" hinabstiege. Das Bild müsste insbesondere innerhalb Deutschlands differenzierter werden, da Schweinsbraten bekanntlich ein allgemein süddeutsches Phänomen ist.

Obige Ausführungen machen deutlich, dass die Dateninterpretation vielfältigen Einfluss auf die Bestimmung der Standardzugehörigkeit hat, zum einen schon durch die spezifische Zusammenstellung des Gesamtkorpus und der Teilkorpora, zum anderen dadurch, dass es natürlich keine normierten Schwellenwerte für hohe bzw. niedrige Frequenz oder für geringe bzw. hohe Varianz bei Einzelphänomenen (im Sinne von Abschnitt Variabilität bezüglich eines grammatischen Phänomens) oder für deutliche bzw. geringfügige Frequenzunterschiede zwischen Varianten gibt. Die Arbitrarität aller Festlegungen hinsichtlich der Schwellenwerte wird bei einer Variation besonders deutlich, bei der die relative Frequenz einer Variante gegenüber der Frequenz der Kovariante(n) irgendwo im Übergangsbereich zwischen üblichen relativen Frequenzen von Phänomenen, die normalerweise dem Standard zugerechnet werden, und üblichen Frequenzen von typischen Nonstandard-Phänomenen zu liegen scheint.

Demonstration anhand eines Beispiels (Abschnitt ein-/ausblenden)

Die Verbindung diesen Jahres (dazu Strecker und Heringer) hat im DeReKo einen Anteil von ca. 9% an den Verbindungen diesen Jahres und dieses Jahres. Zum Vergleich: Das standardsprachliche gewinkt hat einen Anteil von ca. 38% an allen gewinkt- und gewunken-Vorkommen und das nicht standardsprachliche frug einen Anteil von 0,35% an allen frug- und fragte-Vorkommen. Bei diesen Jahres schwanken die Sprachbenutzer in ihrem Urteil zur Standardsprachlichkeit, was inzwischen auch schon in der Fachliteratur indirekte Spuren hinterlassen hat, vgl. z. B. „Als standardsprachlich korrekt gilt jedoch vor allem bei konservativen Sprachpflegern nur Anfang dieses Jahres“ (Duden 2007, S. 234, Hervorhebung hinzugefügt).

Die Arbitrarität der Festlegungen für Schwellenwerte mindert aber nicht die Aussagekraft von Korpusuntersuchungen, wenn man sich dieser Arbitrarität bewusst ist, Festlegungen offenlegt, sie begründet und gemäß ihrer relativen Natur nicht allzu schwer gewichtet. Diese Arbitrarität ist die Kehrseite von Schwankungen der Sprachbenutzer bei der Variantenbeurteilung.

Unsere Hauptaufgabe sehen wir aber eigentlich darin, relevante Frequenzergebnisse zu liefern, sie zu analysieren und nach Möglichkeit die Faktoren zu ermitteln, die sie steuern. Wenn dies korrekt geschehen ist, kann sich jeder, der die Projektergebnisse weiterführend interpretieren und mit Schwellenwerten arbeiten will, eigene Schwellenwerte setzen und diesen entsprechend zuverlässigt einen strengeren oder lockereren Standard ermitteln.

© IDS Mannheim. Zuletzt geändert am 28.04.2017 14:50.