grammis 2.0
das grammatische informationssystem des instituts für deutsche sprache (ids)
                                                                                              Mitarbeiter Literatur
Korpusgrammatik Grammatik in
Fragen und Antworten
Systematische
Grammatik
Grammatische
Fachbegriffe
Grammatisches
Wörterbuch
Grammatische
Bibliografie
                                                                             
                                   
Datenbasis für Untersuchungen zur grammatischen Variabilität im Standarddeutschen Statistische Methoden der Korpusgrammatik Verlässlichkeit grammatischer Annotationen Vorhersage von Fugenelementen in nominalen Komposita Variation der starken Genitivmarkierung AcI-Konstruktionen und Wie-Komplementsätze Ressource: GenitivDB

[Impressum] [Datenschutzerklärung]

                                                                           
Schlagwörter: Korpus Standarddeutsch

Texttypologische Eignung von DeReKo-Inhalten

Als texttypologische Parameter betrachten wir:

Unsere Korpusgrammatik soll sich mit Standardsprache in aktuell-synchroner Hinsicht befassen. Daher ist es erforderlich, zunächst zu überlegen, wie weit die Entstehungszeit der berücksichtigten Texte zurückgehen darf. DeReKo-Texte belegen mit sinkender Dichte mehr oder weniger gut die Zeit bis ins 18. Jh. Der für die aktuelle Standardsprache relevante Zeitraum dürfte aber nicht so früh beginnen. Im LSWE Corpus, das für eine 1999 zum ersten Mal erschienene Grammatik des Englischen zusammengestellt wurde, stammen die Texte mehrheitlich aus der Zeit nach 1980, nur die Texte im Register "fiction" stammen mehrheitlich aus der Zeit nach 1950 und einige "Klassiker" aus der ersten Hälfte des 20. Jhs. (Biber et al. 1999: 26 ff.). Dass für die belletristischen Texte ein deutlich früheres Datum als für andere Texte gesetzt wurde, wird mit dem längeren "shelf-life" begründet. Vor diesem Hintergrund erscheint es vertretbar, den Erscheinungsbeginn beim Gesamtkorpus unseres Vorhabens für Pressetexte auf 1990 und für andere Texte (hauptsächlich Buchbeiträge) auf 19551 zu setzen. Der genaue Zeitpunkt für die Grenze bei Buchbeiträgen ist nicht zuletzt dadurch motiviert, dass das DeReKo für die Jahre direkt vor 1955 extrem viele Werke von Thomas Mann enthält, sodass eine Entscheidung für ein früheres Datum ein Ungleichgewicht zugunsten des idiosynkratischen Sprachgebrauchs eines einzelnen Autors mit sich bringen könnte.

Im DeReko sind nur Korpora geschriebener Sprache enthalten, und dies muss in Bezug auf das vorliegende Projekt zunächst selbstverständlich als eine mediale Einschränkung gewertet werden. Allerdings ist hier daran zu erinnern, dass für die Standardsprache - wie in Was sind standarddeutsche Texte? ausgeführt - öfter eine Priorität der Schriftlichkeit postuliert wird. Darüber hinaus ist zu bedenken, dass bei gesprochener Sprache der Übergang zwischen Standard und Nonstandard-Varietäten fließender zu sein scheint als bei geschriebener Sprache, sodass die Suche nach zum Projektgegenstand passenden gesprochenen Beiträgen schon an sich eine sehr schwierige Aufgabe darstellen würde. Hinzu kommt, dass die spezifischen Produktionsbedingungen spontan gesprochener Sprache zu einer mehr oder weniger eigenständigen "Online-Syntax" führen (vgl. Auer 2000, dazu Dürscheid/Elspaß/Ziegler, S. 125), die so deutliche Unterschiede zur Syntax geschriebener Sprache aufweist, dass sie auch anders behandelt werden müsste (in Duden 2009 erhält die gesprochene Sprache ein separates Kapitel, das sich auch in der Beschreibungssprache deutlich vom Rest der Duden-Grammatik absetzt). All dies bedeutet nicht, dass die gesprochene Standardsprache gänzlich aus dem Blickwinkel des Projekts verschwindet. Sie rückt lediglich etwas in den Hintergrund, und ihre Grammatik kann u. U. zu einem späteren Zeitpunkt genau aufgearbeitet werden, zumal sie einen spezifischen, gut abtrennbaren und im standardsprachlichen Gefüge nicht prioritären Teilgegenstand darstellt. Eine Zusammenstellung eines zusätzlichen, nicht auf DeReKo beruhenden gesprochensprachlichen Korpus wäre hier natürlich eine notwendige Voraussetzung. Gewissermaßen einen Ausblick auf die Mündlichkeit wird man dennoch schon mit DeReKo erarbeiten können, da darin viele Texte zu finden sind, denen konzeptionell gesprochene Beiträge zugrunde liegen wie etwa Protokolle von Bundestagsdebatten, Verschriftungen von Interviews und Gesprächen etc. Einen Trost bietet schließlich auch ein Blick auf den texttypologischen Parameter Medium/Konzeption2, wie er in Was sind standarddeutsche Texte? unterkategorisiert wird: Von insgesamt vier dort angesetzten Textkategorien sind im DeReKo zwar zwei nicht vertreten, aber nur eine davon - "medial gesprochene und konzeptionell geschriebene Texte" - lässt in besonderer Weise standardsprachliche Texte erwarten. Die andere - "medial und konzeptionell gesprochene Texte" - ist hingegen in hohem Maße von Nichtstandardsprachlichkeit geprägt.

Der nächste texttypologische Parameter räumliche Reichweite, ist primär auf die Geltung der in den Texten enthaltenen Phänomene zu beziehen. Allein, wie lässt sich diese ermitteln? Wohl kaum, bevor man die Texte nicht untersucht hat. Damit wären aber Ergebnisse späterer Korpusanalysen, wenn nicht vorweggenommen, dann zumindest in unzulässiger Weise vorbestimmt. Nicht umsonst besteht Sinclair (2004) darauf, Korpora nur anhand textexterner Parameter zu erstellen. Die räumliche Geltung der in einem Text enthaltenen Phänomene kann allerdings grob als Funktion der anvisierten räumlichen Verbreitung des Textes behandelt werden. Bei der überwiegenden Mehrheit der DeReKo-Texte scheint es diesbezüglich keinerlei Einschränkungen zu geben, was prinzipiell Standardsprachlichkeit erwarten lässt. Im Übrigen können regional vertriebene Texte (etwa in regionalen Zeitungen) ebenfalls von Phänomenen mit überregionaler Geltung geprägt sein. Solche Texte sind auch nützlich, wenn es um die Untersuchungen zu regionalen Schattierungen in der Standardsprache geht. Zu konstatieren bleibt schließlich, dass Texte, bei denen offensichtlich eine sehr kleinräumige Verbreitung anvisiert wird (was aber keineswegs mit einem standardfernen Sprachgebrauch zusammengehen muss) im DeReKo in jedem Fall sehr selten sind.

Ähnliches ist zum Parameter soziale Reichweite zu sagen: Auch diese lässt sich primär auf die Geltung der sprachlichen Phänomene beziehen, die aber nicht im Voraus untersucht werden können; weicht man auf die anvisierte soziale Verbreitung als Indikator aus, so ist bei DeReKo-Texten kaum von intendierten Einschränkungen auf einzelne Gesellschaftsschichten auszugehen, wohl aber punktuell von einer Adressierung an Gruppen von Fachleuten (etwa beim Fachsprachenkorpus zur Gentechnologie (dkg)). Derartige gruppensprachliche Einschränkungen sind dokumentiert, und sie betreffen nur verhältnismäßig wenige Texte. Daher sind auch grammatische Daten aus diesen Texten isolierbar und leicht zu kontrollieren. Dadurch können sie das Bild der standardsprachlichen Grammatik auch nicht verzerren, wohl aber dazu genutzt werden, festzustellen, ob die jeweiligen Fachsprachen grammatisch gesehen von der Standardsprache abweichen.

Für den Parameter Textemittent spielt es eine entscheidende Rolle, dass es sich bei DeReKo-Texten allesamt um offiziell verlegte und redigierte Druckerzeugnisse handelt. Somit ist aus dem Spektrum der Unterkategorien, die in Was sind standarddeutsche Texte? diesem Parameter zugeschrieben wurden, lediglich die Kategorie "Privatperson" nicht vertreten, eben die einzige, mit der in verstärktem Maße Nichtstandardsprachlichkeit verbunden werden kann.

In Bezug auf den nächsten Parameter Situation ist festzustellen, dass es sich bei DeReKo-Texten aus dem oben genannten Grund und auch weil die Texte meist in einer höheren Auflagenzahl erschienen sind, um eindeutig öffentliche und offizielle bzw. amtliche Konstellationen handelt. Eben mit diesen Konstellationen wird üblicherweise Standardsprachlichkeit in Verbindung gebracht. Hier spielen standardferne private bzw. ungezwungene Kommunikationssituationen kaum eine Rolle.

Was den Parameter Bildung des Textautors angeht, so lässt sich der Bildungsgrad zum einen bei vielen der im DeReKo erfassten Texte nicht feststellen (viele Autoren, insbesondere von Pressetexten, sind z. B. häufig einfach nicht mehr ermittelbar) und zum anderen bei dieser Menge von Texten überhaupt nur mit erheblichen Aufwand nachforschen, sodass hier der Lösungsweg über intuitive Pauschalurteile unvermeidbar erscheint. Da es sich bei allen DeReKo-Texten um offiziell verlegte und redigierte Druckerzeugnisse handelt, ist davon auszugehen, dass die Textautoren bzw. -bearbeiter in weit überwiegender Mehrheit über eine mittlere und höhere Bildung verfügen bzw. - negativ formuliert - dass Texte von Autoren mit lediglich Grundbildung im DeReKo ein Randphänomen darstellen dürften. Ähnliches ist zur Bildung des anvisierten Textadressaten festzustellen mit dem Unterschied, dass hier öfter von keinerlei Vorannahmen und kaum von Einschränkungen der Autoren bezüglich der Bildung der Adressaten auszugehen ist und dass dadurch das Publikum mit Grundbildung einfach mit adressiert erscheint.

Sozialer Status von Autor und Adressat ist bei DeReKo-Texten schließlich ähnlich zu beurteilen, allerdings mit dem Unterschied, dass sich der soziale Status schon aufgrund seiner komplexen Zusammensetzung weniger direkt als der Bildungsgrad mit der Wahrscheinlichkeit korrelieren lässt, als Autor oder Leser eines in einer größeren Anzahl von Exemplaren verlegten Druckerzeugnisses aufzutreten. Auf alle Fälle sind im DeReKo nur im geringen Umfang Texte zu erwarten, die von Autoren mit feststellbar niedrigem sozialem Status geschrieben wurden oder die ausschließlich an so einzustufende Leser gerichtet sind.

Insgesamt ist festzustellen, dass im Hinblick auf die in Was sind standarddeutsche Texte? erarbeiteten textypologischen Parameter alle Texttypen (dort Unterkategorien), die sich tendenziell mit Standarddeutsch verbinden lassen, im DeReKo vertreten oder zumindest zu erwarten sind - mit einer Ausnahme: Texte, die sowohl medial als auch konzeptionell gesprochen sind. Mithilfe des DeReKo lassen sich damit selbstverständlich keine direkten Untersuchungen zur gesprochenen Sprache durchführen. Dieser Bereich müsste getrennt, anhand eines zusätzlichen Korpus aufgearbeitet werden. Andererseits scheinen im DeReKo keine Texte vorhanden zu sein, die in der Typenübersicht eher mit der Nichtstandardsprachlichkeit in Verbindung gebracht wurden. Alles in allem ein äußerst zufriedenstellendes Ergebnis: Da die Größe des Gesamtkorpus für die Untersuchungen an sich nicht beschränkt sein muss, sondern im Gegenteil einen besonderen Vorteil darstellt, reicht hier die zeitliche Anpassung des DeReKo, und es müssen im Hinblick auf die Texttypologien keine Teilkorpora bzw. Textgruppen ausgeschlossen werden, um zum Gesamtkorpus für die Untersuchungen zu gelangen. Dieses Gesamtkorpus umfasst nach den weiter oben genanten zeitlichen Einschränkungen immer noch über vier Milliarden Wörter. Die extreme Korpusgröße macht es unwahrscheinlich, dass einzelne besonders lange Texte die Korpusanalysen verfälschen können. Auf diese Weise können im Untersuchungskorpus sowohl ganze Texte als auch Textfragmente berücksichtigt werden, so wie sie im DeReKo vorgehalten werden. Wie bei Sinclair (2004) wird hier davon ausgegangen, dass es an sich ungünstig ist, Korpora nur auf Textfragmenten aufzubauen, denn sie können insofern nicht für die ganzen Texte stehen, als die Präferenzen für Konstruktionen von Textposition zu Textposition variieren. Zu der Praxis, Texte auf Fragmente gleicher Größe zu reduzieren, schreibt Sinclair:

There is no virtue from a linguistic point of view in selecting samples all of the same size. True, this was the convention in some of the early corpora, and it has been perpetuated in later corpora with a view to simplifying aspects of contrastive research. Apart from this very specialised consideration, it is difficult to justify the continuation of the practice. The integrity and representativeness of complete artefacts is far more important than the difficulty of reconciling texts of different dimensions.
[...] Samples of language for a corpus should wherever possible consist of entire documents or transcriptions of complete speech events, or should get as close to this target as possible. This means that samples will differ substantially in size.

Es bleibt zu prüfen, ob sich innerhalb des zeitlich eingeschränkten DeReKo ausreichend große Teilkorpora für mögliche Variabilitätsfaktoren bilden lassen und wenn ja, später bei den grammatischen Analysen zu testen, ob auch innerhalb dieser Teilkorpora einzelne besonders lange Texte keine Verfälschungen verursachen.



1Bei nicht journalistischen Texten wurde das Entstehungsdatum des Textes in vielen Fällen manuell hinzugefügt bzw. das im DeReKo verzeichnete Publikationsdatum überprüft und Ersterscheinungsdatum ersetzt. [zurück]

2 Für wertvolle Hinweise zum Parameter 'Medium/Konzeption' bin ich Anna Volodina dankbar. [zurück]

© IDS Mannheim. Zuletzt geändert am 30.01.2014 15:56.