grammis 2.0
das grammatische informationssystem des instituts für deutsche sprache (ids)
                                                                                              Mitarbeiter Literatur
Korpusgrammatik Grammatik in
Fragen und Antworten
Systematische
Grammatik
Grammatische
Fachbegriffe
Grammatisches
Wörterbuch
Grammatische
Bibliografie
                                                                             
                                   
Datenbasis für Untersuchungen zur grammatischen Variabilität im Standarddeutschen Statistische Methoden der Korpusgrammatik Verlässlichkeit grammatischer Annotationen Vorhersage von Fugenelementen in nominalen Komposita Variation der starken Genitivmarkierung AcI-Konstruktionen und Wie-Komplementsätze Alternation von zu- und dass-Komplementen - logistische Regressionsanalyse
Ressource: GenitivDB

[Impressum] [Datenschutzerklärung]

                                                                           
Schlagwörter: Korpus

Die Korpusbasis

Die Repräsentativität unseres Korpus im Sinne eines Spiegelbilds des Sprachgebrauchs anzustreben, erscheint problematisch, da – wie bereits angesprochen – prinzipiell unklar ist, in welchem Verhältnis zueinander die anzusetzenden Teilkorpora stehen müssten. Eine wie auch immer geartete Lösung in diesem Bereich stichhaltig zu begründen wäre nicht nur sehr umständlich, sondern die Begründung wäre auf Dauer mit Sicherheit auch nur schwer haltbar. Im vorliegenden Vorhaben soll es darüber hinaus nicht um das Standarddeutsche an sich gehen, sondern primär um die grammatische Variabilität in diesem. Der Repräsentativitätsaspekt ist hier also nur auf die Differenziertheit des Sprachgebrauchs zu beziehen.

Wichtig ist daher vor allem, dass im primären Untersuchungskorpus (im Weiteren: „Gesamtkorpus“) verschiedenartige Bereiche des Standarddeutschen gebührend berücksichtigt werden, damit ein Spektrum an Variation sichtbar wird, und weniger, dass die „realen“ Proportionen zwischen diesen Bereichen eingehalten werden. Um Varianz und Variation aufzuspüren, brauchen diese Bereiche im Gesamtkorpus nicht durch gleich große Teilkorpora vertreten zu sein. Die Teilkorpora sollten nur – jedes für sich – groß genug sein, um auch seltene Erscheinungen auffindbar zu machen und stichhaltige Aussagen zu den untersuchten Erscheinungen innerhalb eines Teilkorpus zuzulassen. Diese Lösung führt selbstverständlich auch zu einem sehr umfangreichen Gesamtkorpus. Eine ähnliche Alternative zu den klassischen „repräsentativen“ Korpora sieht auch Hunston (2008, S. 162), die folgende Möglichkeit erwägt: "[…] to seek to include texts from as many different sources as possible in the corpus but to treat the resulting corpus as a collection of sub-corpora rather than as a single entity. This is feasible only when each sub-corpus is of a reasonable size."

Um Häufigkeitsangaben zu einer Erscheinung in verschiedenen Teilkorpora eines solchen Gesamtkorpus miteinander vergleichbar zu machen, können die Angaben normalisiert, also durch Hochrechnungen auf einen Nenner gebracht werden, was inzwischen auch das allgemein übliche Verfahren ist (z. B. Leech/Rayson/Wilson 2001, Biber et al. 2006). Statistisch stichhaltiger und damit aussagekräftiger für Vergleiche könnte allerdings die Benutzung eines sekundären Untersuchungskorpus (im Weiteren: „ausgewogenes Korpus“), das die Ausgewogenheit anstrebt und gleich große Teilkorpora umfasst. In einem solchen Korpus sollte man etwa gezielt der Bedeutung der mutmaßlichen Variabilitätsparameter nachgehen können, nach denen die Teilkorpora auszurichten wären. Mit der Einrichtung mehrerer Korpora ginge das Vorhaben einen Weg, der bereits von den Projekten BNC und DWDS gewählt wurde (wenn auch mit teilweise anderem Hintergrund, siehe Wie werden Korpora zu Sprachen oder Varietäten im Allgemeinen aufgebaut?).

Im vorliegenden Vorhaben wurde bei der Bildung der Untersuchungskorpora auf die IDS-eigene Ressourcen, vor allem das Deutsche Referenzkorpus (DeReKo, Release 2011-II), zurückgegriffen (künftige Ergänzungen aus anderen Quellen vorbehalten). Die Korpusbasis des Projekts bestand bis 2014 aus

  • dem Gesamtkorpus, das auf DeReKo-Texten basiert, die nach 1955 bzw. – bei Pressetexten – nach 1990 entstanden sind (ursprünglich ca. 4,3 Mrd. Wörter bzw. 16 Mio. Texte), und
  • dem ausgewogenen Korpus, das im Hinblick auf die Parameter "Medium", "Register", "Region" und "inhaltliche Domäne" soweit möglich ausgewogen ist und einen Ausschnitt des Gesamtkorpus darstellt (ca. 19 Mio. Wörter bzw. 19 Tsd. Texte).

Bei dieser Zweiteilung ging man davon aus, dass das Gesamtkorpus durch seinen großen Umfang insbesondere für die vorbereitenden Recherchen, Analysen zu grammatischen Variabilitätsbedingungen und Untersuchungen zu seltenen Phänomenen geeignet ist, während das ausgewogene Korpus eine systematische Überprüfung der grammatikexternen Distributions- und der Variationsparameter erlaubt. Der genaueren Darstellung der beiden Korpora ist vorauszuschicken, dass eine Korpuszusammenstellung, um mit Nelson (2010, S. 60) zu sprechen, immer "a compromise between the hoped for and the achievable" ist.

2015 erfuhr das Gesamtkorpus basierend auf dem DeReKo-Release 2014-I eine Erweiterung auf ca. 8 Mrd. Token. Allerdings wurde das ausgewogene Korpus nicht mehr erweitert, auch seine Pflege wurde 2015 eingestellt. Dafür gibt es wichtige Gründe:

Zum einen zeigten Pilotstudien im Rahmen des Projekts Korpusgrammatik (wie Konopka/Waßner 2013 oder Konopka/Fuß, erschienen 2016) schnell, dass Variationsbetrachtungen Untersuchungen niedrigfrequenter Phänomene (etwa seltener Varianten) involvieren und dass solche Phänomene in einem knapp 20 Mio. Token großen ausgewogenen Korpus mit 4 Mio. Token großen Teilkorpora oft nicht ausreichend vertreten sind. Zum anderen stellte sich heraus, dass regelmäßige Korpuserweiterungen, die notwendig sind, wenn man die Gegenwartssprache beschreiben und dabei den aktuellen Sprachgebrauch nicht aus den Augen verlieren will, zwar für ein „opportunistisches“ Gesamtkorpus gut möglich, für ein ausgewogenes Korpus aber nicht praktikabel sind. Deutliche Erweiterungen des ausgewogenen Korpus, welche allmählich für Abhilfe bei niedrigfrequenten Phänomenen hätten sorgen können, wären bei manchen Teilkorpora mit großen Problemen bei der Beschaffung einer ausreichenden Anzahl passender Texte verbunden. Die entsprechende Suche und eine präzise Auswahl von Texten, die gleich große Gesamtanzahlen der Tokens pro Teilkorpus aufweisen, hätten einen personellen Aufwand verursacht, der im Projekt Korpusgrammatik nicht zu leisten ist. Als Alternativen zu einem ausgewogenen Korpus verbleiben die weiter oben erwähnten Hochrechnungen von Häufigkeitsdaten und – wann immer möglich – eine auf die gerade bearbeitete grammatische Fragestellung zugeschnittene Bildung von virtuellen Teilkorpora (ähnlich wie in COSMAS II).

© IDS Mannheim. Zuletzt geändert am 02.02.2018 09:52.