grammis 2.0
das grammatische informationssystem des instituts für deutsche sprache (ids)
                                                                                              Mitarbeiter Literatur
Korpusgrammatik Grammatik in
Fragen und Antworten
Systematische
Grammatik
Grammatische
Fachbegriffe
Grammatisches
Wörterbuch
Grammatische
Bibliografie
                                                                             
                                   
Datenbasis für Untersuchungen zur grammatischen Variabilität im Standarddeutschen Statistische Methoden der Korpusgrammatik Verlässlichkeit grammatischer Annotationen Vorhersage von Fugenelementen in nominalen Komposita Variation der starken Genitivmarkierung AcI-Konstruktionen und Wie-Komplementsätze Ressource: GenitivDB

[Impressum] [Datenschutzerklärung]

                                                                           
Schlagwörter: Korpus

Die Korpusbasis des Projekts

Die Repräsentativität unseres Korpus im Sinne eines Spiegelbilds des Sprachgebrauchs anzustreben, erscheint problematisch, da – wie bereits angesprochen – prinzipiell unklar ist, in welchem Verhältnis zueinander die anzusetzenden Teilkorpora stehen müssten. Eine wie auch immer geartete Lösung in diesem Bereich stichhaltig zu begründen wäre nicht nur sehr umständlich, sondern die Begründung wäre auf Dauer mit Sicherheit auch nur schwer haltbar. Im vorliegenden Vorhaben soll es darüber hinaus nicht um das Standarddeutsche an sich gehen, sondern primär um die grammatische Variabilität in diesem. Der Repräsentativitätsaspekt ist hier also nur auf die Differenziertheit des Sprachgebrauchs zu beziehen. Wichtig ist daher vor allem, dass im primären Untersuchungskorpus (im Weiteren: „Gesamtkorpus“) verschiedenartige Bereiche des Standarddeutschen gebührend berücksichtigt werden, damit ein Spektrum an Variation sichtbar wird, und weniger, dass die „realen“ Proportionen zwischen diesen Bereichen eingehalten werden. Um Varianz und Variation aufzuspüren, brauchen diese Bereiche im Gesamtkorpus nicht durch gleich große Teilkorpora vertreten zu sein. Die Teilkorpora sollten nur – jedes für sich – groß genug sein, um auch seltene Erscheinungen auffindbar zu machen und stichhaltige Aussagen zu den untersuchten Erscheinungen innerhalb eines Teilkorpus zuzulassen. Diese Lösung führt selbstverständlich auch zu einem sehr umfangreichen Gesamtkorpus. Eine ähnliche Alternative zu den klassischen „repräsentativen“ Korpora sieht auch Hunston (2008, S. 162), die folgende Möglichkeit erwägt:

[…] to seek to include texts from as many different sources as possible in the corpus but to treat the resulting corpus as a collection of sub-corpora rather than as a single entity. This is feasible only when each sub-corpus is of a reasonable size.

Um Häufigkeitsangaben zu einer Erscheinung in verschiedenen Teilkorpora eines solchen Gesamtkorpus miteinander vergleichbar zu machen, können die Angaben normalisiert, also durch Hochrechnungen auf einen Nenner gebracht werden, was inzwischen auch das allgemein übliche Verfahren ist (z. B. Leech/Rayson/Wilson 2001, Biber et al. 2006). Statistisch stichhaltiger und damit aussagekräftiger für Vergleiche ist allerdings die Benutzung eines sekundären Untersuchungskorpus (im Weiteren: „ausgewogenes Korpus“), das die Ausgewogenheit anstrebt und (tendenziell) gleich große Teilkorpora umfasst. In diesem Korpus soll man etwa gezielt der Bedeutung der mutmaßlichen Variabilitätsparameter nachgehen können, nach denen die Teilkorpora auszurichten sind. Mit der Einrichtung mehrerer Korpora geht das Vorhaben einen Weg, der bereits von den Projekten BNC und DWDS gewählt wurde (wenn auch mit teilweise anderem Hintergrund, siehe Wie werden Korpora zu Sprachen oder Varietäten im Allgemeinen aufgebaut?).

Im vorliegenden Vorhaben wurde bei der Bildung der Untersuchungskorpora zunächst auf die IDS-eigene Ressourcen, vor allem das Deutsche Referenzkorpus (DeReKo), zurückgegriffen. Künftige Ergänzungen aus anderen Quellen sind vorbehalten. Die Korpusbasis des Projekts besteht zurzeit also aus

  • dem Gesamtkorpus, das auf DeReKo-Texten basiert, die nach 1955 bzw. – bei Pressetexten – nach 1990 entstanden sind (ca. 4,3 Mrd. Wörter bzw. 16 Mio. Texte), und
  • dem ausgewogenen Korpus, das im Hinblick auf die Parameter "Medium", "Register", "Region" und "inhaltliche Domäne" soweit möglich ausgewogen ist und einen Ausschnitt des Gesamtkorpus darstellt (ca. 19 Mio. Wörter bzw. 19 Tsd. Texte).

Die Zweiteilung erweist sich insofern als sinnvoll, als dass das Gesamtkorpus durch seinen Umfang insbesondere für die vorbereitenden Recherchen, Analysen zu grammatischen Variabilitätsbedingungen und Untersuchungen zu seltenen Phänomenen geeignet ist, während das ausgewogene Korpus eine systematische Überprüfung der grammatikexternen Distributions- und der Variationsparameter erlaubt. Der folgenden genaueren Darstellung der beiden Korpora ist noch vorauszuschicken, dass deren bisherige interne Struktur nicht jedem Anspruch Genüge leistet, der in der Konzeptionsphase erhoben wurde. Dabei ist aber zweierlei zu bedenken: Einerseits liegen die Korpora in ihrer ersten Ausbaustufe vor und sie werden noch weiterentwickelt, andererseits bleibt eine Korpuszusammenstellung, um mit Nelson (2010, S. 60) zu sprechen, immer "a compromise between the hoped for and the achievable".

© IDS Mannheim. Zuletzt geändert am 20.02.2012 14:45.