grammis 2.0
das grammatische informationssystem des instituts für deutsche sprache (ids)
                                                                                              Mitarbeiter Literatur
Korpusgrammatik Grammatik in
Fragen und Antworten
Systematische
Grammatik
Grammatische
Fachbegriffe
Grammatisches
Wörterbuch
Grammatische
Bibliografie
                                                                             
                                   
Datenbasis für Untersuchungen zur grammatischen Variabilität im Standarddeutschen Statistische Methoden der Korpusgrammatik Verlässlichkeit grammatischer Annotationen Vorhersage von Fugenelementen in nominalen Komposita Variation der starken Genitivmarkierung AcI-Konstruktionen und Wie-Komplementsätze Ressource: GenitivDB

[Impressum] [Datenschutzerklärung]

                                                                           
Schlagwörter: Korpus Medium

Medium

Medium Connexor
Token
TreeTagger
Token
Texte
Publikumspresse 6.465.931.404 6.140.770.365 23.187.431
Bücher 22.053.541 21.768.163 1288
Sonstige Printmedien 11.791.035 11.540.035 31.057
Internet/Wikipedia 965.584.732 879.569.033 2.140.440
Gesprochenes 438.602.627 431.253.212 66.369
Gesamt 7.903.963.339 7.484.900.808 25.426.585

Tabelle 7: Unterteilung des Gesamtkorpus im Hinblick auf ‚Medium‘

Die Unterteilung nach ‚Medium‘ gab es bereits im BNC (vgl. Wie werden Korpora zu Sprachen oder Varietäten im Allgemeinen aufgebaut?). Hier erhält sie eine spezifische Ausprägung, bei der auch der Begriff ‚Konzeption‘ eine Rolle spielt. Die Unterteilung lässt sich nachvollziehen, indem die Teilfaktoren ‚Konzeption‘, ‚medialer Träger‘ und ‚Erscheinungsart‘ nacheinander abgearbeitet werden (im Strukturbaum in Abbildung 2 von oben nach unten).

Abbildung 2: Mediale Strukturierung des Untersuchungskorpus

Die im konzeptionellen Kontinuum stärker „gesprochenen“ Texte bilden zurzeit ein Kontrollkorpus, das gewissermaßen einen Ausblick auf die Mündlichkeit erlaubt. Die Texte gehören den Textsorten der DeReKo-Metadatenbank an und wurden größtenteils „von Hand“ auf ihre Eignung überprüft: Ansprache, Diskussion, Rede, Gespräch, Interview, Predigt, Vortrag, Protokoll1, Rundfunkbeitrag, Fernsehsendung, Hörspiel. Es handelt sich somit einerseits um Texte, die geschrieben wurden, um gesprochen zu werden,2 andererseits um Verschriftungen von gesprochenen Kommunikationsbeiträgen,3 in beiden Fällen Textsorten aus der Übergangszone zwischen konzeptioneller Schriftlichkeit und konzeptioneller Mündlichkeit.

Das geplante Teilkorpus Internettexte beschränkt sich zurzeit aufgrund von Schwierigkeiten bei der Beschaffung urheberrechtlich abgesicherten Materials nur auf Wikipedia-Artikel (Stand 2005). Diese stellen zwar einerseits einen sehr spezialisierten Ausschnitt im Internet erscheinender Texte dar, sie bilden aber andererseits eine für das Internet typische Instanz des kooperativen Schreibens und lassen gleichzeitig eine hohe Standardsprachlichkeitserwartung aufkommen. Nichtsdestoweniger sollen in der Zukunft weitere Internet-Textsorten dazukommen.

Das Teilkorpus Publikumspresse enthält Tageszeitungen, wöchentliche Nachrichtenmagazine und Publikumszeitschriften (vgl. Übersicht weiter unten). Ein Pendant dazu im Bereich der Printmedien bilden die Teilkorpora Bücher und Sonstige Printmedien. Ersteres enthält längere (zumindest intendiert) selbständige Werke oder deren Fragmente. Das Kriterium ‚Buch‘ wurde dabei relativ streng gehandhabt (zu für Bücher relevanten Merkmalen vgl. z. B. hier), das heißt, dass im Zweifelsfall, insbesondere bei kürzeren und nicht selbständig erschienenen Beiträgen, die Entscheidung für das Teilkorpus ‚Sonstige Printmedien‘ fiel. Letzteres wurde so zu einem Sammelbecken der Druckerzeugnisse, die weder der Publikumspresse angehören noch als Buch bezeichnet werden können. Es enthält einerseits Texte wie Aufsätze in Fachbüchern und Fachzeitschriften, Essays, Gesetzentwürfe, andererseits aber auch Gebrauchsanleitungen, Packungsbeilagen, Briefe, Prospekte, Werbung und Flugblätter. Zu überlegen wäre, ob in den nächsten Korpusausbaustufen beim Materialzuwachs in bestimmten Bereichen diese nicht in selbständige Teilkorpora wie etwa ‚Graue Literatur‘4 ausgegliedert werden könnten.

In Tabelle 7 fällt das extreme Übergewicht der Publikumspresse auf. Hierzu ist zunächst anzumerken, dass es in der Forschung Stimmen gibt, die behaupten, dass eben diese Textgruppe bereits allein für die empirische Fundierung der Aussagen zur Standardsprache geeignet sei (z. B. Eisenberg 2007, S. 217, Dürscheid/Elspaß/Ziegler 2011, S. 126). Vor allem ist aber zu betonen, dass die Größe der anderen Teilkorpora des primären Untersuchungskorpus jeweils für sich genommen immer noch ausreichend erscheint, um als Grundlage für aussagekräftige Analysen zur Grammatik im jeweiligen Bereich zu dienen5. So kann erste Vergleichbarkeit zwischen den Teilkorpora durch Normalisierung der Frequenzergebnisse geschaffen werden, während genauere Vergleiche ohnehin auf das sekundäre, ausgewogene Korpus auszulagern sind.



1Z. B. „stenografische Protokolle“ von Bundestags- und Volkskammersitzungen. [zurück]

2Dies setzt konzeptionell relevante Prozesse der ‚Vermündlichung‘ (Koch/Oesterreicher 2008, S. 200) voraus. Zu der Gruppe können folgende DeReKo-Textsorten gezählt werden: Ansprache, Predigt, Rede, Vortrag, Hörspiel, Rundfunkbeitrag, Fernsehsendung. Die Texte könnten nach dem Ansatz Kochs/Oesterreichers (ebd. bzw. 1985, S. 17f.) auch als ‚Verschriftung‘ von Äußerungsformen betrachtet werden, die medial phonisch sind, konzeptionell aber (tendenziell) ‚geschrieben‘. [zurück]

3Hierzu sind die DeReKo-Textsorten Diskussion, Gespräch, Interview, Protokoll zu zählen. Im Ansatz Kochs/Oesterreichers wären die der Verschriftung zugrunde liegenden Äußerungen als medial gesehen phonisch und konzeptionell (tendenziell) ‚gesprochen‘ einzuschätzen. Hier ist auch mit konzeptionell relevanten Prozessen der ‚Verschriftlichung‘ zu rechnen (vgl. Koch/Oesterreicher 2008). [zurück]

4Nicht über den Buchhandel vertriebene Publikationen. [zurück]

5Biber (1993) wandte mathematische Verfahren an, um zu berechnen, wie groß das Korpus sein muss, um bezüglich eines bestimmten Phänomens repräsentativ zu sein. Um etwa englische Konditionalsätze untersuchen zu können, müsste demnach das Sample 1190 x 2000 Wort-Texte umfassen (also etwa 2,4 Mio. Wörter). Legt man dieses Maß an, erscheinen alle Teilkorpora als ausreichend groß. [zurück]

© IDS Mannheim. Zuletzt geändert am 13.10.2017 12:21.