grammis 2.0
das grammatische informationssystem des instituts für deutsche sprache (ids)
                                                                                              Mitarbeiter Literatur
Korpusgrammatik Grammatik in
Fragen und Antworten
Systematische
Grammatik
Grammatische
Fachbegriffe
Grammatisches
Wörterbuch
Grammatische
Bibliografie
                                                                             
                                   
Grundlagen Pilotstudien Ressource: GenitivDB

[Impressum] [Datenschutzerklärung]

                                                                           
Schlagwörter: Domäne Korpus Text

Domäne

Domäne Connexor
Token
TreeTagger
Token
Texte
Fiktion 18.427.099 18.226.236 6.159
Kultur/Unterhaltung 3.240.489.314 2.995.389.451 11.005.267
Mensch/Natur 143.740.160 136.721.656 572.298
Politik/Wirtschaft/Gesellschaft 3.587.315.989 3.472.019.347 10.419.164
Technik/Wissenschaft 585.814.153 542.835.713 2.128.230
Unklassifizierbar 328.176.624 319.708.405 1.295.467
Gesamt 7.903.963.339 7.484.900.808 25.426.585

Tabelle 11: Unterteilung des Gesamtkorpus im Hinblick auf 'Domäne'

Eine Gliederung des Korpus nach inhaltlichen Domänen ist schon aus dem BNC XML bekannt (vgl. Wie werden Korpora zu Sprachen oder Varietäten im Allgemeinen aufgebaut?). Trotz der Einwände gegen thematische Klassifikationen wie sie Sinclair (2004) äußert, liegt eine solche Klassifikation für das vorliegende Projekt auf der Hand, da für das DeReKo bereits fast „flächendeckend“ Informationen zur inhaltlichen Ausrichtung einzelner Texte vorliegen. Diese Informationen wurden in einem automatischen Klassifikationsverfahren, das im Programmbereich Korpuslinguistik des IDS erarbeitet wurde (Genaueres siehe hier, dazu Christian Weiß in Die Thematische Erschließung von Sprachkorpora) den Texten hinzugefügt. In den einzelnen ‚Domänen‘ werden hier die dort semiautomatisch ermittelten Themen zusammengefasst. Unter ‚Fiktion‘ werden in unserem Vorhaben zusätzlich alle Texte versammelt, die dem Register ‚Literarisches‘ angehören. Sie werden in den Projektkorpora nicht thematisch klassifiziert, weil eine solche Klassifikation im Falle von fiktionalen bzw. kreativen Texten als wenig sinnvoll erscheint (ähnlich BNC User Reference Guide). Wie sich die übrigen Domänen aus DeReko-Themen zusammensetzen, zeigt Tabelle 12.1

Domäne Themenkategorien DeReKos
Kultur/Unterhaltung Freizeit/Unterhaltung, Kultur, Sport
Mensch/Natur Gesundheit/Ernährung, Natur/Umwelt
Politik/Wirtschaft/Gesellschaft Politik, Staat/Gesellschaft, Wirtschaft/Finanzen
Technik/Wissenschaft Technik/Industrie, Wissenschaft

Tabelle 12: Zusammensetzung der nicht fiktionalen Domänen



1 Zur feinkörnigen Zusammensetzung der Themenkategorien DeReKos vgl. hier. [zurück]

© IDS Mannheim. Zuletzt geändert am 08.01.2018 11:14.