grammis 2.0
das grammatische informationssystem des instituts für deutsche sprache (ids)
                                                                                              Mitarbeiter Literatur
Korpusgrammatik Grammatik in
Fragen und Antworten
Systematische
Grammatik
Grammatische
Fachbegriffe
Grammatisches
Wörterbuch
Grammatische
Bibliografie
                                                                             
                                   
Datenbasis für Untersuchungen zur grammatischen Variabilität im Standarddeutschen Statistische Methoden der Korpusgrammatik Verlässlichkeit grammatischer Annotationen Vorhersage von Fugenelementen in nominalen Komposita Variation der starken Genitivmarkierung AcI-Konstruktionen und Wie-Komplementsätze Ressource: GenitivDB

[Impressum] [Datenschutzerklärung]

                                                                           
Schlagwörter: Korpus Medium Register Text Varianz

Wie werden Korpora zu Sprachen oder Varietäten aufgebaut?

Das Vorhaben, ein Korpus für die Untersuchung des Standarddeutschen zusammenzustellen, kann mit Projekten verglichen werden, in denen zum Zwecke verschiedener Untersuchungen Korpora aufgebaut werden, die eine bestimmte Sprache (bzw. Varietät) im Allgemeinen repräsentieren sollen (engl. general corpora, in diesem Sinne wird oft auch die Bezeichnung "Referenzkorpus" gebraucht). Beispiele für in diesem Bereich mögliche und bis jetzt eingesetzte Korpusarchitekturen sollen hier drei Korpusprojekte zur englischen Sprache1 und eines zur deutschen liefern.2

Zum Schlüsselproblem wird in allen diesen Projekten die Heterogenität des Untersuchungsobjekts, einer ganzen Sprache oder einer ganzen Varietät, zusammen mit der Frage, wie man diese Heterogenität so in ein Korpus hinübertransportiert, dass sie in den Korpusanalysen erkennbar bleibt und bei der Beschreibung der Ergebnisse adäquat berücksichtigt werden kann. Das dazu gehörige Stichwort lautet Repräsentativität3. Als nächstliegende Lösung für die Aufgabe, Repräsentativität zu erzielen, erscheint, eine Art Spiegelbild des Sprachgebrauchs anzustreben. Da es aber nicht möglich ist, den Sprachgebrauch als Ganzes zu erfassen, und die Handhabbarkeit der Korpora auch deren Größe beschränken kann, sollte man in diesem Fall vielleicht besser von der Gestaltung des Korpus als möglichst adäquates Modell des Sprachgebrauchs sprechen.

British National Corpus

Einen solchen Weg beschreiten die Autoren des British National Corpus (BNC XML).4 Eines ihrer erklärten Ziele ist es, mit dem 100 Millionen Wörter umfassenden Korpus "a microcosm of current British English in its entirety, not just of particular types" zu schaffen. Sie streben dieser Zielsetzung entsprechend prinzipiell an,

  • sowohl geschriebene als auch gesprochene Sprache einzubeziehen,
  • die geschriebene Sprache sowohl aus der Perspektive der Textrezeption als auch aus der Perspektive der Textproduktion zu betrachten und schließlich
  • bei der geschriebenen Sprache sowohl Publikationen in Form von Büchern, Periodika u. Ä. als auch kleinere Publikationsformen und nichtpublizierte Texte zu berücksichtigen.

Pragmatische Gründe führen allerdings dazu, dass in allen drei Punkten die jeweils leichter aufzuarbeitenden und zu beschaffenden Dimensionen des Sprachgebrauchs im BNC das Übergewicht bekommen. So macht die geschriebensprachliche Komponente 90% des Gesamtkorpus aus, und bei dieser überwiegen Publikationen der etablierten Form, also Bücher, Periodika u. Ä., welche vor allem für die rezipierte Sprache repräsentativ sind, kaum aber für die Gesamtheit der produzierten Sprache stehen können (vgl. Abbildung 1).

Abb. 1: Design des BNC XML (wie hier beschrieben)

Die Größe einzelner Texte der geschriebensprachlichen Komponente des BNC XML überschreitet nicht 45.000 Wörter. Um eine ausreichende sprachliche Differenzierung dieses Teilkorpus zu erreichen, werden die Texte entlang zweier unabhängiger Parameter Medium und Domäne (inhaltlicher Bereich) ausgewählt. Die prozentuellen Zielvorgaben für die dabei entstehenden Klassen sind der Abbildung 1 zu entnehmen. Sie beziehen sich immer nur auf die Gesamtkomponente und gelten nicht innerhalb der Klassen, welche die anderen Auswahlparameter auffächern. Die Domäne informative wird zusätzlich in acht Subdomänen (natural & pure science, applied science, social science, world affairs, commerce & finance, arts, belief & thought, leisure) unterteilt. Ein drittes und letztes Auswahlkriterium bildet die Zeit der Textentstehung - ab 1960 bei der imaginativen (belletristischen) und ab 1975 bei der informativen Domäne.

Neben den sich durch die Auswahlkriterien ergebenden Klassifizierungen kann es im BNC auch Zusatzinformationen zu Korpustexten geben, welche, ohne dass sie die Textauswahl bestimmen, Untersuchungen zu feinkörniger bestimmten Textgruppen erlauben können. Dazu gehören Angaben zu Autor (Geschlecht, Alter, Wohnsitz etc.), Zielgruppe, Publikationsort und Textzuschnitt (ganzer Text, Anfangsfragment etc.), wobei solche Informationen bei vielen Texten auch fehlen.

Die Auswahl der Bücher richtet sich teils nach deren Verbreitung und Popularität, indem Bestsellerlisten, Verzeichnisse preisgekrönter Titel, Ausleihstatistiken sowie Auflagezahlen ausgewertet werden, um die Rezeption zu quantifizieren, teils - mehr oder weniger zufallsgesteuert - nach einem Verzeichnis lieferbarer Bücher ("Whitaker's Books in Print"). Bei den Periodika sorgt man für eine breite regionale Streuung. Die sonstigen geschriebenen Quellen (miscellaneous sources) bestehen aus kleineren Publikationsformen (z. B. Werbezetteln), diversen nicht publizierten Texten (z. B. Essays von Schülern und Studenten) und Vorlesevorlagen (z. B. Fernsehnachrichten).

In die gesprochensprachliche Komponente des BNC wurde zum einen die spontane Sprache von nach demografischen Diversifikationskriterien wie Alter, Geschlecht, soziale Gruppe ausgewählten Sprechern aufgenommen, zum anderen monologische (40%) und dialogische (60%) Beiträge verschiedener Typen aus vier gleich stark berücksichtigten Kontextbereichen (educational, business, public/institutional, leisure).

Insgesamt wird beim BNC XML die Bemühung um eine Modellierung des gesamten Sprachgebrauchs deutlich, bei der faktisch aber die breit rezipierte geschriebene Sprache ins Zentrum rückt. Gesprochene und geschriebene Sprache, einzelne mediale Textklassen sowie einzelne Domänen werden im Korpus jeweils unterschiedlich stark gewichtet, was - abgesehen von pragmatischen Zwängen - teils mit der kulturellen Bedeutung, teils mit dem Publikationsvolumen der Texte begründet wird, die in den Korpuskomponenten zu repräsentieren sind. Man muss sich allerdings dessen bewusst sein, dass die Zielvorgaben für einzelne Komponenten wie 60% für 'Bücher', 30% für 'Periodika' etc. - auch wenn sie Intuitionen der Korpusautoren in Bezug auf den Einfluss der entsprechenden Textgruppen auf die Sprachgemeinschaft spiegeln mögen - letztlich arbiträr sind: Sie hätten bei anderen Korpusdesignern auch anders ausfallen können. Wer die im BNC XML vorgenommenen Gewichtungen nicht bedenkenfrei hinnehmen kann, hat aber dazu, das Gesamtkorpus als Modell des Sprachgebauchs zu betrachten, immerhin eine interessante Alternative: Da die Komponenten von BNC XML ausreichend groß erscheinen, kann man es auch als eine Sammlung von Teilkorpora betrachten, die untereinander vergleichbar gemacht werden können, indem die Häufigkeitsangaben für die einzelnen Teilkorpora mittels Normalisierung in Relation zur Größe des jeweiligen Teilkorpus gesetzt werden.5

Die oben angesprochene Arbitrarität der Festlegungen zu Proportionen zwischen den Teilkorpora ist charakteristisch für die Versuche, den gesamten Sprachgebrauch zu modellieren. Konzentriert man sich stärker auf die Vergleichbarkeit wie auch immer bestimmter Ausschnitte des Sprachgebrauchs untereinander, so erscheint es am günstigsten, wenn sie im Gesamtkorpus von vornherein gleich stark berücksichtigt sind.6 Das Stichwort dazu lautet Ausgewogenheit. Der Begriff wird zwar unterschiedlich und teilweise sehr vage gehandhabt (dazu Sinclair 2004, Kap. 5), aber zumindest ein sehr häufiges Verständnis davon bezieht sich auf das Gleichgewicht (bzw. die Vermeidung deutlicher Größenunterschiede) zwischen den Teilkorpora (vgl. Hunston 2008, S. 163, Clancy 2010, S. 86f.).

Die BNC-Designer haben auch diese Perspektive verfolgt. Das Ergebnis sind zwei auf BNC XML basierende kleinere Korpora:

  • der BNC Sampler, der aus einem geschriebenen und einem gesprochenen Teil mit jeweils ungefähr einer Million Wörter besteht und ansonsten das BNC XML in seinem Design spiegelt, dabei aber eine detailliertere und manuell überprüfte Part-of-Speech-Annotation aufweist, sowie
  • das BNC Baby, das aus vier Teilen mit ungefähr einer Million Wörter besteht, die jeweils ein Genre repräsentieren (academic writing, imaginative writing, newspaper texts, spontanous conversation) und aus dem BNC XML ohne Revisionen herauskopiert wurden.

International Corpus of English

Die Idee der Ausgewogenheit zwischen Korpusteilen bestimmt auch die restlichen hier vorzustellenden General-Corpus-Projekte zum Englischen sowie die Korpusbasis des Projekts "Digitales Wörterbuch der deutschen Sprache" (DWDS): Die regionalen Unterschiede stehen im Vordergrund des Vorhabens International Corpus of English (ICE), in dem primär das Ziel verfolgt wird, Material für komparative Studien zum gesprochenen und geschriebenen Englisch weltweit zu sammeln. Dieses Ziel begründet ein Korpusdesign, bei dem die Ausgewogenheit in einer spezifischen Weise und sehr weitgehend verfolgt wird. Im ICE werden zahlreiche Korpora zu den einzelnen nationalen bzw. regionalen Varietäten des Englischen zusammengestellt, wobei jedes etwa eine Million Wörter umfasst, die in 500 Texten/Textfragmenten zu je ca. 2000 Wörtern organisiert sind, und in Bezug auf die Texttypen zwar nicht direkt ausgewogen, aber dafür wie die anderen Korpora des ICE strukturiert ist (vgl. hier). Das ICE als Ganzes erscheint somit ausgewogen in Bezug auf den Parameter 'nationale bzw. regionale Varietät', und es stehen in allen Einzelkorpora auch dann gleiche Mengen an Texten und Wörtern zur Verfügung, wenn es darum geht, die Sprache innerhalb einer bestimmten Textklasse (z. B. 'geschriebene Sprache', 'Ungedrucktes', 'Briefe' oder 'Geschäftsbriefe') zu untersuchen.

Longman Spoken and Written English Corpus

Das Hauptziel des Longman Spoken and Written English Corpus (LSWE Corpus), das mit 40 Mio. Wörtern den Analysen der Longman Grammar of Spoken and Written English zugrunde liegt, lautet wiederum "to provide a systematic representation of different registers, particular focusing on the four registers of conversation, fiction, news and academic prose" (Biber et al. 1998, S. 24). Folgerichtig wird eine Ausgewogenheit im Hinblick auf den Parameter 'Register' angestrebt. Die Teilkorpora zu den vier Kernregistern umfassen zwischen 3,9 und 5,4 Mio. Wörter. Die Auswahl der Kernregister wird zum einen durch die Breite der Sprachgebrauchsabdeckung, zum anderen durch die Ökonomie von Analyse und Präsentation begründet: "The four core registers cover much of the range of variation in English, while being restricted to a manageble number of distinctions" (ebd.). Innerhalb der Register wird eine Streuung im Hinblick auf eine Reihe von weiteren Parametern angestrebt wie Geschlecht und Alter des Sprechers (conversation), nationale Varietät (fiction), Region, Thema/Ressort (news), Disziplin (academic prose), wobei es bei diesen Unterteilungen weniger um die Ausgewogenheit als vielmehr um eine Ausdifferenzierung bzw. um die Abdeckungsbreite geht. Das Korpus soll als Ganzes Gegenwartsenglisch repräsentieren und umfasst daher mehrheitlich Texte ab 1980, im Register fiction wegen deren tendenziell langer Wirkung mehrheitliche Texte ab 1950. Die Textlänge variiert von durchschnittlich 250 Wörtern bei (britischen) Zeitungsartikeln bis durchschnittlich 35.000 Wörter bei fiktionalen Texten, wobei im letzteren Fall sowohl komplette Bücher auch Teile von Büchern aufgenommen wurden. Die Kernregister werden durch zwei Zusatzregister ergänzt - non-conversational speech und general prose -, die mit ca. sechs bzw. sieben Mio. Wörtern das Korpus für Gesamtanalysen stärken bzw. bei wenigen Spezialanalysen herangezogen werden. Schließlich werden für Dialektvergleiche auch zwei Spezialkorpora zum amerikanischen Englisch (conversation, news) verwendet, wobei die Autoren betonen, dass der Dialektvergleich in der Longman Grammar of Spoken and Written English im Hintergrund stehe, da für grammatische Aspekte Registerunterschiede viel wichtiger seien als Dialektunterschiede (ebd., S. 26).

DWDS-Korpus

Eine weitgehende Ausgewogenheit, und zwar im Hinblick auf zwei Parameter 'Dekade' und 'Textsorte', zeigt schließlich das Referenzkorpus (Kernkorpus) des lexikografischen Projekts Digitales Wörterbuch der deutschen Sprache (DWDS), "das als ausgewogen und hinreichend groß in Bezug auf den Forschungsgegenstand 'deutscher Wortschatz des 20. Jahrhunderts' bewertet werden kann" (DWDS Kernkorpus): Es umfasst 100 Mio. Wörter, von denen 95% annährend gleichmäßig auf die einzelnen Dekaden und die vier Textsorten Belletristik, Zeitung, Wissenschaft und Gebrauchsliteratur (jeweils zu 20-27%) verteilt sind. Die übrig bleibenden 5% entfallen ergänzend auf transkribierte Texte gesprochener Sprache. Dem Referenzkorpus steht interessanterweise ein Ergänzungskorpus zur Seite, das "opportunistisch" angelegt ist, d. h. weniger auf Ausgewogenheit abzielt als auf Umfang und Aktualität unter Berücksichtigung leicht zugänglicher Texte.7 Es soll für viele statistische Zwecke und für selten belegte Wörter genutzt werden (Klein 2004), besteht im Wesentlichen aus Zeitungstexten ab 1980 und umfasst über 1,5 Milliarden Wörter (DWDS in Wikipedia).

Schlussfolgerungen

Bei allen oben präsentierten Korpusarchitekturen wurden als Zielpopulationen ursprünglich die Sprachen/Varietäten im Allgemeinen anvisiert. Die obigen Beispiele zeigen dabei, dass immer wieder drei Aspekte des Korpusdesigns in den Vordergrund rücken: die (intendierte) Abdeckung des Sprachgebrauchs (die tatsächliche Grundgesamtheit), die Proportionen zwischen den Teilkorpora und der Umfang der Gesamt- und Teilkorpora. Je nach Korpusbestimmung bzw. Interessenlage der Korpusdesigner können diese Aspekte spezifisch gestaltet werden. In Bezug auf die beiden ersten kommen dabei prinzipiell folgende "schablonenhafte" Lösungen vor:

  • Abdeckung: (1) der gesamte Sprachgebrauch,8 (2) durch einen Parameter (z. B. Register) strukturierte Textgruppen, (3) "opportunistisch" ausgewählte Sprachgebrauchsbereiche,
  • Proportionen zwischen Teilkorpora: (1) dem Sprachgebrauch entsprechend bzw. nachempfunden skaliert, (2) ausgewogen, (3) opportunistisch skaliert.

Was den Umfang des Gesamtkorpus angeht, so ist er bei dem Bezugsgegenstand (statistisch gesehen: der Zielpopulation) eine ganze Sprache bzw. Varietät natürlich tendenziell sehr groß, nichtsdestoweniger begegnen in den obigen Beispielen auch relativ kleine (Spezial-)Korpora wie BNC Sampler mit zwei Mio. Wörtern.

Der Begriff der Repräsentativität liegt gewissermaßen quer zu den oben genannten drei zentralen Aspekten des Korpusdesigns. Er lässt sich aber - je nach seiner genaueren Interpretation9 - mit bestimmten Lösungen in Verbindung bringen. Naheliegend ist für ein "repräsentatives" Korpus einer ganzen Sprache/Varietät etwa die Konstellation: '(tendenziell) den gesamten Sprachgebrauch abdeckend', 'dem Sprachgebrauch entsprechend skaliert' und 'möglichst groß'. Allerdings sind das Zielvorgaben, die - wie schon das BNC XML zeigt - eigentlich nie endgültig befriedigt werden können. Es sind unterschiedliche Reaktionen darauf vorstellbar: Man kann (1) trotzdem versuchen, die Zielvorgaben soweit aktuell möglich zu erfüllen und darin einen weiteren wissenschaftlichen Fortschritt sehen, (2) sich mehreren "wichtigen" Sprachgebrauchsausschnitten widmen, ohne eine Repräsentativität für die Gesamtvarietät zu postulieren und schließlich (3) - zumindest bei bestimmten Fragestellungen - "opportunistisch" vorgehen und auf Differenziertheit des Materials und schiere Korpusgröße setzen in der Hoffnung, dass sie manche "Schieflage" ausgleichen. Die präsentierten Beispiele für verschiedene Korpusprojekte zeigen, wie die Entscheidung für einen konkreten Weg bei der Korpuszusammenstellung jeweils mit einer spezifischen Konstellation von Lösungen hinsichtlich der drei zentralen Aspekte des Korpusdesigns einhergeht (siehe Tabelle 6).

Lösung Abdeckung Proportionen Umfang Korpusbeispiel
Korpus als Modell des Sprachgebrauchs der gesamte Sprachgebrauch dem Sprachgebrauch entsprechend skaliert großes Gesamtkorpus BNC XML (tendenziell)
Korpus "wichtiger" Sprachgebrauchsausschnitte durch einen Parameter strukturierte Textgruppen ausgewogen ausreichend große Teilkorpora BNC SampIer
BNC Baby
ICE
LSWE Corpus
DWDS-Referenzkorpus
"opportunistisches" Korpus "opportunistisch" ausgewählte Sprachgebrauchsbereiche zufällig skaliert extrem großes Gesamtkorpus DWDS-Ergänzungskorpus

Tabelle 6: Lösungen für das Repräsentativitätsproblem bei der Korpuszusammenstellung

Neben den Überlegungen, wie man sich mit dem Korpus am besten der Zielsprache/-varietät (z. B. "modernes Englisch" oder "Deutsch des 20. Jahrhunderts") nähert, kann schließlich auch der Charakter der Untersuchungen, die mithilfe des Korpus primär durchgeführt werden, dessen Design beeinflussen. Während BNC und ICE prinzipiell nicht auf Untersuchungen aus einem bestimmten linguistischen Bereich ausgerichtet sind, wurden das LSWE Corpus für grammatische Untersuchungen und das DWDS-Referenzkorpus für Wortschatzuntersuchungen entworfen. Auch beim vorliegenden Vorhaben ist genau zu überlegen, auf was die Korpusanalysen zum Standarddeutschen eigentlich abzielen sollen: Sie sollen eine Beschreibung von grammatischen Phänomenen ermöglichen, bei der - und das ist der Clou - ihre Variabilität im Zentrum steht. Für das Korpusdesign relevant erscheint etwa, dass

  • die Variabilität ausfindig gemacht werden muss,
  • bei Variabilität, insbesondere bei Variation, prinzipiell auch mit sehr seltenen Phänomenen gerechnet werden muss,
  • nach Variabilitätsfaktoren gesucht werden soll,
  • die Wirkung bereits in der Forschung akzeptierter Variabilitätsfaktoren wie Medium, Region, Textsorte etc. überprüft werden muss.

Das Korpus müsste folglich einerseits groß und möglichst differenziert, andererseits nach Variabilitätsfaktoren strukturierbar und insbesondere im Hinblick auf die bereits bekannten Variabilitätsfaktoren ausgewogen sein, insgesamt eine sehr komplexe Vorgabe, der in der Praxis schwer beizukommen ist. Ein großes, möglichst differenziertes Korpus macht es schwierig, eine Ausgewogenheit in Bezug auf die Variabilitätsfaktoren zu erreichen, und ein sorgfältig ausgewogenes Korpus kann nicht allzu viele Teilkorpora umfassen und wird für die Suche nach seltenen Phänomenen womöglich nicht groß genug sein.

Der in diesem Vorhaben gewählte Ausweg aus diesem Dilemma besteht darin, die beiden Zielsetzungen voneinander zu trennen und in zwei getrennten Korpora zu verfolgen: einem, das auf Größe und Heterogenität ausgerichtet ist, und einem, das auf die Ausgewogenheit der Teilkorpora setzt, die bekannten Variabilitätsfaktoren entsprechen. Wie dies im vorliegenden Vorhaben in der Praxis vonstattengeht, zeigt der Abschnitt Die Korpusbasis des Projekts.



1In dieser exemplarischen Auswahl nicht berücksichtigte, aber grundsätzlich vergleichbare Projekte sind z. B. die Bank of English und das Cambridge English Corpus. [zurück]

2Zur Korpuszusammenstellung im Allgemeinen vgl. z. B. Hunston 2008, zu den Korpora geschriebener Sprache vgl. Nelson 2010, Hundt 2008, zur Korpustypologie vgl. z. B. Scherer (2006, S. 16-31) oder Lemnitzer/ Zinsmeister (2006, S. 102-113.), die auch einen ausführlichen Überblick über deutschsprachige Korpora geben (S. 113-126). Einen Überblick über bekannte Korpora weltweit gibt Xiao 2008. [zurück]

3Eine sorgfältig reflektierte Diskussion der Repräsentativität einschließlich deren Beschränkungen liefert Hunston (2008, S. 161f.), Praktische Bemerkungen dazu, wie man ein möglichst repräsentatives Korpus baut, bietet z. B. Sinclair (2004). [zurück]

4Informationen zum BNC wurden den Benutzerhinweisen auf dieser Seite entnommen, vgl. auch Leech/Rayson/Wilson 2001, S.2ff. [zurück]

5Vgl. Hunston (2008, S. 162) zur Unausgewogenheit zwischen der gesprochensprachlichen und geschriebensprachlichen Komponente: "The spoken component comprises only 10% of the whole, which is clearly not representative either of production or of reception, but which is explained by the heavy resources required to collect spoken data in electronic form. However, 10% of 100 million words is a corpus of a respectable size that allows research to be carried out into spoken British English. The process of normalisation is used to allow valid comparisons between the written and the spoken components (Leech/Rayson/Wilson 2001). The problem of a lack of representativeness disappears." [zurück]

6Ein einleuchtender Grund ist, dass seltene Phänomene, die in größeren Teilkorpora spärlich, aber immerhin vertreten sind, aus den kleineren Teilkorpora aufgrund ihrer Seltenheit "verschwinden" können, was aber natürlich kein Beweis dafür sein kann, dass sie in dem durch das kleinere Teilkorpus repräsentierten "Texttyp" nicht existent sind (das sog. Problem der negativen Evidenz). [zurück]

7Ein mehr oder weniger "opportunistisches" Monitorkorpus liegt auch der Bank of English (BoE) zugrunde. [zurück]

8Gemeint ist hier natürlich, dass der gesamte Sprachgebrauch gespiegelt bzw. modelliert und nicht im Korpus berücksichtigt wird. [zurück]

9Zu Verschiedenheit der Repräsentativitätsauffassungen vgl. z. B. Sinclair 2004. [zurück]

© IDS Mannheim. Zuletzt geändert am 15.09.2017 11:34.