grammis 2.0
das grammatische informationssystem des instituts für deutsche sprache (ids)
                                                                                              Mitarbeiter Literatur
Korpusgrammatik Grammatik in
Fragen und Antworten
Systematische
Grammatik
Grammatische
Fachbegriffe
Grammatisches
Wörterbuch
Grammatische
Bibliografie
                                                                             
                                   
Datenbasis für Untersuchungen zur grammatischen Variabilität im Standarddeutschen Statistische Methoden der Korpusgrammatik Verlässlichkeit grammatischer Annotationen Vorhersage von Fugenelementen in nominalen Komposita Variation der starken Genitivmarkierung AcI-Konstruktionen und Wie-Komplementsätze Ressource: GenitivDB

[Impressum] [Datenschutzerklärung]

                                                                           
Schlagwörter: Korpus Medium Region

Ausgewogenes Korpus

Dieses Korpus soll aus ausgewählten Texten des Gesamtkorpus zusammengestellt und ausgewogen in Bezug auf den Parameter 'Medium' sein. Die Konstellation der Untersuchungskorpora des Projekts erinnert also an das BNC Baby mit dem 100 Mio. Wörter großen BNC XML im Hintergrund. Das BNC Baby setzt sich aus vier Teilkorpora zusammen, die jeweils ein Genre repräsentieren und eine Million Wörter umfassen. Das ausgewogene Korpus unseres Vorhabens umfasst fünf Teilkorpora, für die die Größe von jeweils 5 Mio. Wörtern anvisiert wird. Damit soll sichergestellt werden, dass die Teilkorpora groß genug sind, um aussagekräftige Analysen zur Grammatik im jeweiligen Bereich zu erlauben. Als Orientierung dienen dabei die Überlegungen von Biber (1993) zu Mindestgrößen von Korpora für Analysen von grammatischen Erscheinungen sowie das LSWE Corpus, in dem sich die Teilkorpora zu einzelnen Registern in der Größe von jeweils ca. 5 Mio. Wörtern (Biber et al. 1999: 24) bei Untersuchungen zur Grammatik des Standardenglischen bewährt haben. Die Zielgröße der Teilkorpora ist in der momentanen Ausbaustufe des ausgewogenen Korpus noch nicht erreicht (vgl. Tabelle 12), insbesondere fallen die Teilkorpora Gesprochenes und Sonstige Printmedien kleiner aus als die anderen, was längerfristig gesehen beseitigt werden soll. Zurzeit sind passende Texte aus diesen Bereichen im DeReKo noch nicht in ausreichender Anzahl vorhanden. Schon jetzt weisen sie aber eine willkommene breite Streuung im Hinblick auf Zeit sowie Regionen, Textsorten und Domänen auf.

Medium Wörter Texte
Bücher 4.000.385 350
Sonstige Printmedien 3.154.708 1.066
Publikumspresse 4.025.846 8.537
Internet/Wikipedia 4.000.102 6.897
Gesprochenes 3.416.992 1.953
Gesamt 18.598.033 18.804

Tabelle 12: Zusammensetzung des ausgewogenen Korpus

Die übrigen drei Teilkorpora umfassen zurzeit jeweils ca. vier Millionen Wörter. Diese Begrenzung soll den Größenunterschied zu den Teilkorpora 'Gesprochenes' und 'Sonstige Printmedien' akzeptabel halten. Für das Teilkorpus Bücher werden Texte manuell aus dem DeReKo ausgewählt, wobei die Metadaten noch einmal sorgfältig auf ihre Richtigkeit und Vollständigkeit überprüft werden. Innerhalb des Teilkorpus wird Ausgewogenheit in Bezug auf den Parameter Register angestrebt, sodass literarische Texte und Gebrauchstexte aktuell jeweils ca. 2 Mio. Wörter umfassen. Das Teilkorpus weist schon jetzt eine gute Streuung in Bezug auf die Parameter Zeit , Region, Register und Domäne.

Bei der Zusammenstellung des Teilkorpus Publikumspresse wird eine Ausgewogenheit im Hinblick auf den Parameter 'Region' sowie im Hinblick auf die Erscheinungsdekade (90er-Jahre vs. 2000er-Jahre) angestrebt (vgl. Tabelle 13). Bei jeder Region zuzüglich der Gruppe 'Überregional' werden 250.000 Wörtern pro Dekade angestrebt, die mittels geschichteter Stichprobe zufällig ausgewählten Texten entstammen. Diese Vorgabe kann nur für die Regionen 'Mittelost' und 'Nordwest' nicht vollständig erfüllt werden, sodass zurzeit zusätzliche überregionale Texte hinzugezogen werden müssen, um die vorläufige Gesamtgröße des Teilkorpus von 4. Mio. Wörtern zu erreichen.

Region Wörter pro Dekade
1990-99
Wörter pro Dekade
2000-09
Wörter gesamt
Mittelost 96.116
96.116
Mittelsüd 250.019 250.537 500.556
Mittelwest 251.400 250.552 501.952
Nordost 176.281 250.215 426.496
Nordwest
250.799 250.799
Südost 252.285 251.713 503.998
Südwest 250.542 202.301 452.843
überregional 651.988 641.098 1.293.086
Gesamt 1.928.631 2.097.215 4.025.846

Tabelle 13: Zusammensetzung des Teilkorpus 'Publikumspresse'

Beim Teilkorpus Internet/Wikipedia schließlich erfolgt eine Zufallsauswahl der Texte aus der Ausgabe 2005 von Wikipedia.

Somit eignet sich das ausgewogene Korpus in besonderer Weise für Untersuchungen im Hinblick auf den Parameter 'Medium'. Es verspricht aber auch eine zuverlässige Erfassung von Register- sowie zeitlichen und regionalen Unterschieden und macht schließlich eine unbeabsichtigte Übergewichtung von einzelnen Textsorten und Domänen unwahrscheinlich.

© IDS Mannheim. Zuletzt geändert am 27.02.2012 15:16.