grammis 2.0
das grammatische informationssystem des instituts für deutsche sprache (ids)
                                                                                              Mitarbeiter Literatur
Korpusgrammatik Grammatik in
Fragen und Antworten
Systematische
Grammatik
Grammatische
Fachbegriffe
Grammatisches
Wörterbuch
Grammatische
Bibliografie
                                                                             
                                   
Datenbasis für Untersuchungen zur grammatischen Variabilität im Standarddeutschen Statistische Methoden der Korpusgrammatik Verlässlichkeit grammatischer Annotationen Vorhersage von Fugenelementen in nominalen Komposita Variation der starken Genitivmarkierung AcI-Konstruktionen und Wie-Komplementsätze Ressource: GenitivDB

[Impressum] [Datenschutzerklärung]

                                                                           
Schlagwörter: Domäne Korpus Text

Domäne

Domäne Wörter Texte
Fiktion 9.183.868 4.182
Kultur/Unterhaltung 1.785.393.095 6.645.409
Mensch/Natur 96.283.057 410.529
Politik/Wirtschaft/Gesellschaft 1.848.731.397 6.545.770
Technik/Wissenschaft 297.539.518 1.303.794
Unklassifizierbar 278.223.895 1.023.855

Tabelle 11: Unterteilung des Gesamtkorpus im Hinblick auf 'Domäne'

Eine Gliederung des Korpus nach inhaltlichen Domänen ist schon aus dem BNC XML bekannt (vgl. Wie werden Korpora zu Sprachen oder Varietäten im Allgemeinen aufgebaut?). Trotz der Einwände gegen thematische Klassifikationen wie sie Sinclair (2004) äußert, liegt eine solche Klassifikation für das vorliegende Projekt auf der Hand, da für das DeReKo bereits fast „flächendeckend“ Informationen zur inhaltlichen Ausrichtung einzelner Texte vorliegen. Diese Informationen wurden in einem automatischen Klassifikationsverfahren, das im Programmbereich Korpuslinguistik des IDS erarbeitet wurde (Genaueres siehe hier, dazu Christian Weiß in Die Thematische Erschließung von Sprachkorpora) den Texten hinzugefügt. In den einzelnen ‚Domänen‘ werden hier die dort semiautomatisch ermittelten Themen zusammengefasst. Unter ‚Fiktion‘ werden in unserem Vorhaben zusätzlich alle Texte versammelt, die dem Register ‚Literarisches‘ angehören. Sie werden in den Projektkorpora nicht thematisch klassifiziert, weil eine solche Klassifikation im Falle von fiktionalen bzw. kreativen Texten als wenig sinnvoll erscheint (ähnlich BNC User Reference Guide). Wie sich die übrigen Domänen aus DeReko-Themen zusammensetzen, zeigt Tabelle 12.1

Domäne Themenkategorien DeReKos
Kultur/Unterhaltung Freizeit/Unterhaltung, Kultur, Sport
Mensch/Natur Gesundheit/Ernährung, Natur/Umwelt
Politik/Wirtschaft/Gesellschaft Politik, Staat/Gesellschaft, Wirtschaft/Finanzen
Technik/Wissenschaft Technik/Industrie, Wissenschaft

Tabelle 12: Zusammensetzung der nicht fiktionalen Domänen



1 Zur feinkörnigen Zusammensetzung der Themenkategorien DeReKos vgl. hier. [zurück]

© IDS Mannheim. Zuletzt geändert am 09.03.2015 15:38.