grammis 2.0
das grammatische informationssystem des instituts für deutsche sprache (ids)
                                                                                              Mitarbeiter Literatur
Korpusgrammatik Grammatik in
Fragen und Antworten
Systematische
Grammatik
Grammatische
Fachbegriffe
Grammatisches
Wörterbuch
Grammatische
Bibliografie
                                                                             
                                   
Datenbasis für Untersuchungen zur grammatischen Variabilität im Standarddeutschen Statistische Methoden der Korpusgrammatik Verlässlichkeit grammatischer Annotationen Vorhersage von Fugenelementen in nominalen Komposita Variation der starken Genitivmarkierung AcI-Konstruktionen und Wie-Komplementsätze Ressource: GenitivDB

[Impressum] [Datenschutzerklärung]

                                                                           
Schlagwörter: Korpus Statistik Text Varianz

Variabilität bezüglich eines grammatischen Phänomens

Von der Variation im oben beschriebenen Sinn muss eine Variabilität unterschieden werden, die nur ein Phänomen betrifft. Gemeint sind damit hier die Schwankungen der Häufigkeit eines grammatischen Phänomens (relativ zur Anzahl von Textwörtern, Sätzen o. Ä.), die von Text zu Text, Texttyp zu Texttyp etc. feststellbar sind. Auf diese soll im Weiteren mit Varianz referiert werden.1

Beispiel (Abschnitt ein-/ausblenden)

So erscheint z. B. das Kommunikantenpronomen du, das allein schon aus sprachsystematischer Sicht zweifelsohne als standarddeutsch zu bezeichnen ist, in einem über Cosmas II recherchierbaren Spezialkorpus zur Belletristik („DIV Belletristik des 20. und 21. Jahrhunderts: Diverse Schriftsteller“) mit einer Häufigkeit von ca. 4.600 Vorkommen pro eine Million Wörter. Dagegen kommt es im Cosmas-II-Archiv W, in dem alle Korpora geschriebener Sprache zusammengefasst werden und Pressetexte deutlich überwiegen, nur 155-mal pro eine Million Wörter vor. Der deutliche Unterschied ist natürlich unmittelbar einleuchtend, da direkte Rede und informell gestaltete Textpassagen in der Belletristik stark ausgeprägt sind, in Fachtexten dagegen sehr selten.

Bei umfangreichen Korpora, die für Vorhaben wie das unsere erforderlich sind, erscheint es sinnvoll, die Varianz vorrangig auf der Ebene verschiedener Korpusteile zu betrachten bzw. – präziser – auf der Ebene von Teilkorpora, die verschiedene Ausprägungen eines für die Schwankungen potenziell relevanten Parameters repräsentieren wie z. B. ‚Region‘ oder ‚inhaltliche Domäne‘.2 Um die Vergleichbarkeit von ggf. unterschiedlich großen Teilkorpora untereinander zu gewährleisten, müssen die Häufigkeitswerte für die einzelnen Teilkorpora normalisiert werden, d. h. auf einen gemeinsamen Nenner, z. B. eine Million Wörter, gebracht werden wie schon im oben angeführten Beispiel. Eine durchgehende Betrachtung der Varianz auf Einzeltextebene erscheint hingegen kaum handhabbar. Eine bedarfsfallartige Überprüfung der Häufigkeitswerte für einzelne Texte kann dennoch erhellend sein und manche Verzerrung vermeiden helfen.

Beispiel (Abschnitt ein-/ausblenden)

Die Präteritalform frug, für die kaum einer postulieren würde, dass sie standardsprachlich sei, hatte im Cosmas-II-Archiv W in österreichischen Texten einen unerwartet hohen Anteil von 2,4% an allen Vorkommen der 3. P. Prät. Sg. von fragen (0,14% in bundesdeutschen und 0,06% in schweizerischen Texten). Eine genaue Überprüfung der Fundstellen ergab allerdings, dass 191 der 222 österreichischen frug-Belege auf ein und denselben Zeitungsredakteur zurückgehen, was das ursprüngliche Recherche-Ergebnis stark relativiert.

Kommt die Sprache auf die Frequenz von Phänomenen, so rückt auch schnell die Frage in den Blick, ob man die Frequenz nicht zur Hilfe nehmen könnte, wenn es darum geht zu ermitteln, ob ein Phänomen dem Standard zugeordnet werden kann oder nicht. Diese Frage ist wohl grundsätzlich zu bejahen, wenn auch zu bedenken ist, dass die Häufigkeit, mit der grammatische Phänomene gebraucht werden, nicht unbedingt immer im direkten Verhältnis zu ihrer Akzeptabilität steht, da sie auch von schwer greifbaren sprachimmanenten und außersprachlichen (darunter stilistischen) Faktoren abhängen kann3 (vgl. z. B. Conrad 2010, S. 237). Für prototypische Fälle zumindest jedenfalls könnte eine frequenzbasierte Annäherung an die Einschätzung ihrer Standardzugehörigkeit modellhaft nach dem in Tabelle 4 präsentierten Muster ablaufen.

Frequenz des Phänomens >Varianz >Zuordnung Beispiele4 (tentativ)
hoch gering allgemeiner Standard Konnektor aber, starke Flexion von dies- wie in dieses Jahres, schwaches Präteritum fragte, Kompositum Antragsteller
hoch nur im Teilkorpus (z. B. regional bestimmt) gering5 im Teilkorpus Teilstandard parken in bundesdeutschen und österreichischen Texten, parkieren in Schweizer Texten
mittel mittel standardnah schwache Flexion von dies- wie in diesen Jahres
niedrig hoch standardfern (auch unbeabsichtigte Fehler) Fugenelement s in Antragssteller
hoch in einzelnen Texten/bei einem Autor hoch standardfern-idiosynkratisch starkes Präteritum frug

Tabelle 4: Standardzugehörigkeit und Varianz eines Einzelphänomens (Tendenzen)

In Tabelle 4 wird – gemäß den Überlegungen weiter oben – angenommen, dass manche standardsprachliche Phänomene in verschiedenen Teilkorpora mit ähnlichen, andere mit sehr unterschiedlichen Häufigkeiten auftreten. Genauer gesagt wird davon ausgegangen, dass grammatische Phänomene, die als standardsprachlich erscheinen, zum Teil in allen Einsatzbereichen der Standardsprache (ähnlich) häufig, zum Teil in den einen häufig und in den anderen selten sein können. Diese Konzeption läuft auf einen Standard hinaus, der sich in verschiedenen Bereichen des standardsprachlichen Gebrauchs unterschiedlich gestalten kann, und trägt damit den Postulaten der bisherigen Forschung Rechnung (z. B. Ammon 2005, Dürscheid/Elspaß/Ziegler 2011, S. 123ff. zu national/regional unterschiedlichen Standardvarietäten). Ist die Varianz eines hochfrequenten Phänomens im gesamten Korpus oder in einem Teilkorpus gering, kann es im jeweiligen Bereich zum Standard erklärt werden, sodass man einerseits von allgemeinem, andererseits von regionalem Standard, Textsorten-Standard, medialen Standard etc. sprechen muss, wobei Letztere alle als „Teilstandards“ gesehen werden könnten. In jedem Fall muss jedoch die Häufigkeit eines jeden Standardkandidaten in seinem Geltungsbereich „stabil“ erscheinen. Im nächsten Schritt kann man aufgrund von Frequenz- und Varianzwerten standardnahe und standardferne Phänomene – sei es wieder in Bezug auf das Gesamtkorpus oder in Bezug auf die Teilkorpora – diagnostizieren, und schließlich sogar idiosynkratische Varianten isolieren.

Das in Tabelle 4 präsentierte Zuordnungsmodell ist bei niedrigfrequenten Phänomenen etwas schwieriger zu handhaben, denn bei diesen ist die Varianz naturgemäß deutlich höher als bei hochfrequenten Phänomenen. Um die Höhe der Varianz niedrigfrequenter Phänomene richtig einzuschätzen, müssen diese in Relation zu strukturell ähnlichen Phänomenen gesetzt werden, bei denen prinzipiell eine Frequenz der gleichen Rangordnung zu erwarten ist. Da die Varianzunterschiede zwischen den einzelnen Phänomenen hier auch etwas kleiner sind, muss das Gesamtbild quasi unter einem Vergrößerungsglas betrachtet werden.

Beispiel (Abschnitt ein-/ausblenden)

Das eindeutig standarddeutsche Kompositum Antragsteller variiert in ähnlichem Ausmaß wie die umstrittene Fügung diesen Jahres. Allerdings ist Antragsteller/Antragssteller im DeReKo mit etwa vier Vorkommen in einer Mio. Wörter, über zehnmal seltener als dieses Jahres/diesen Jahres (zu den konkreten Varianz- und Frequenzwerten siehe Verteilung über das Gesamtkorpus). Im Bereich der Komposita wirkt Antragsteller dennoch hochfrequent. Es ist auch zehnmal häufiger als Antragssteller, dessen Varianz sich auf dem Niveau von standardfernen frug bewegt (ebd.).

1 Ob bei Varianzuntersuchungen auch die Varianz im Sinne des statischen Streuungsmaßes angewandt oder auf ein anderes Messverfahren zurückgegriffen wird, bleibt vorerst offen. Genaueres dazu in Verteilung über das Gesamtkorpus. [zurück]

2 Zu im Projektkorpus tatsächlich verwendeten Varianzparametern vgl. Die Korpusbasis des Projekts. [zurück]

3 Dies illustriert schon das oben angeführte Beispiel frug. [zurück]

4 Zugegebenermaßen scheinen Beispiele wie aber, parken/parkieren, fragte/frug nicht so sehr ein Ergebnis grammatischer Regularitäten als idiosynkratische lexikalische Phänomene zu sein. Sie werden dennoch herangezogen, da sie in ihrer Prototypenrolle für die frequenzbasierte Standardzuordnung unmittelbar einleuchtend sind. Dem Abschnitt Verteilung über das Gesamtkorpus können konkrete Varianzmesswerte zu einigen hier präsentierten Beispielen entnommen werden. [zurück]

5 Die Varianz innerhalb der Teilkorpora muss anhand von Häufigkeitswerten für ihre Teile gemessen werden. [zurück]

© IDS Mannheim. Zuletzt geändert am 28.04.2017 15:12.