grammis 2.0
das grammatische informationssystem des instituts für deutsche sprache (ids)
                                                                                              Mitarbeiter Literatur
Korpusgrammatik Grammatik in
Fragen und Antworten
Systematische
Grammatik
Grammatische
Fachbegriffe
Grammatisches
Wörterbuch
Grammatische
Bibliografie
                                                                             
                                   
Datenbasis für Untersuchungen zur grammatischen Variabilität im Standarddeutschen Statistische Methoden der Korpusgrammatik Verlässlichkeit grammatischer Annotationen Vorhersage von Fugenelementen in nominalen Komposita Variation der starken Genitivmarkierung AcI-Konstruktionen und Wie-Komplementsätze Ressource: GenitivDB

[Impressum] [Datenschutzerklärung]

                                                                           
Schlagwörter: Wortart

Beschreibung der Attribute, die aus CELEX stammen

Zu jeder Grundform und jeder flektierten Wortform enthält CELEX verschiedene phonologische, morphologische und syntaktische Informationen verteilt auf mehrere Tabellen. Da die in CELEX enthaltenen Informationen zum Teil automatisch erstellt und nicht komplett manuell überprüft wurden, sind sie in einigen Fällen fehlerhaft. Aus den CELEX Grundform-Tabellen haben wir mit einem für diesen Zweck erstellten Perl-Skript alle zu messenden Einflussfaktoren für alle Grundformen extrahiert und in einer Tabelle zusammengefasst. Im Folgenden beschränken wir uns auf die genaue Darstellung der Attribute, die im beschriebenen Entscheidungsbaum eine Rolle spielen.

Orthographie: Da der Connexor-Tagger die Kompositumsglieder komplett in Kleinbuchstaben ausgibt, haben wir auch die CELEX-Grundformen in Kleinschreibung transformiert. Außerdem gibt der Connexor-Tagger nur Stammformen aus (also schwimm und nicht schwimmen wie in CELEX). Daher haben wir die Verbgrundformen automatisch in Stammformen umgewandelt. Aus diesen beiden Gründen gibt es in der neu erstellten Tabelle ambige Grundformen. Z.B. stammen die Informationen zur Grundform mit der Orthographie bild zum einen vom Nomen Bild, zum anderen vom Verb bilden. Daher hat diese Grundform zwei durch Semikolon getrennte Werte für die Wortart, nämlich ‚N; V’.

Wortart:1 Wie in Tabelle 2 zu sehen, unterscheidet CELEX im Deutschen 10 verschiedene Wortarten.

Kodierung Wortart Beispiel Häufigkiet
A Adjektiv klein 9.855 = 19,1%
B Adverb anstandshalber 1.284 = 2,5%
C Konjunktion und 78 = 0,2%
D Artikel das 2 = 0,004%
I Interjektion ach 37 = 0,1%
N Nomen Haus 30.715 = 59,4%
O Pronomen ich 116 = 0,2%
P Präposition von 108 = 0,2%
Q Quantor/Numeral mehr, sechs 133 = 0,3%
V Verb abstellen 9.400 = 18,2%

Tabelle 2: Kodierung der in CELEX unterschiedenen Wortarten. Die Häufigkeit gibt die Anzahl der Einträge in der CELEX-Grundformen-Datei wieder.

Flexionsparadigma: CELEX unterscheidet die in Tabelle 3 dargestellten Flexionsparadigmen. Wie in Tabelle 4 und

Code Pluralform Code Pluralform
P0 Singularia Tantum P4U die Dächer; -n
P1 die Stoffe; -n P5 die Autos; -
P1U die Bäumer; -n P6 die Freundinnen; -
P2 die Esel; -n P7 die Geheimnisse; -n
P2U die Äpfel; -n P8 die Maxima; -
P3 die Bauern; - P9 die Gymnasien; -
P4 die Felder; -n P10 andere Wörter

Tabelle 5 zu sehen, werden die nominalen Flexionsparadigmen besonders differenziert und es werden im Singular 7 und im Plural 13 Flexionsklassen unterschieden. Diese Klassifikation ist demnach detaillierter als andere übliche Flexionsparadigmen wie z.B. in Grammis („Nomen“).

Flexionsparadigma Bedeutung Beispiel Häufigkiet
A adjektivische Flexion für Nomen Angestellte 192
I flektiert, aber kein Paradigma verfügbar abermalig 9.861
U unflektiert aber 1.752
i irreguläres Verb abbeißen 2.039
r1 reguläres Verb abbuchen 4.369
r2 reguläres Verb auf -d, -t oder -(Plosiv/Frikativ)+(m/n) abzeichnen 846
r3 reguläres Verb auf-@r abmagern 684
r4 reguläres Verb auf -@l abschütteln 664
r5 reguläres Verb auf -(Vokal) anflehen 222
r6 reguläres Verb auf -(Sibilant) abhetzen 576
S[0-6] nominales Singularflexionsparadigma 30.526
P[0-10][U] nominales Pluralflexionsparadigma 30.526

Tabelle 3: Kodierung der in CELEX unterschiedenen Flexionsparadigmen

Code Maskulina Feminina Neutrum
S0 Pluralia Tantum
S1 der Wald; -(e)s das Brot; -(e)s
S2 der Bär; -(e)n
S3 die Bar; -
S4 der Bus; -ses das Zeugnis; -ses
S5 der Buchstabe; -ns
S6 das Herz; -ens

Tabelle 4: Kodierung nominaler Singularflexionsparadigmen in CELEX

Code Pluralform Code Pluralform
P0 Singularia Tantum P4U die Dächer; -n
P1 die Stoffe; -n P5 die Autos; -
P1U die Bäume; -n P6 die Freundinnen; -
P2 die Esel; -n P7 die Geheimnisse; -n
P2U die Äpfel; -n P8 die Maxima; -
P3 die Bauern; - P9 die Gymnasien; -
P4 die Felder; -n P10 andere Wörter

Tabelle 5: Kodierung nominaler Pluralflexionsparadigmen in CELEX

Suffixe und Präfixe: In der Datenbank sind zu jedem Lexem Informationen über Suffixe und Präfixe vorhanden. In unserem Entscheidungsbaum spielen nur Suffixe eine bedeutende Rolle, etwa Suffixe wie -ung, -schaft, -in etc. Allerdings muss angemerkt werden, dass die in CELEX verzeichneten Suffixe nicht immer auch im morphologisch engen Sinn Suffixe sind, was bei der Interpretation des Entscheidungsbaums noch deutlich werden wird.

Letzter Laut und letzte Silbe: Die Datenbank verzeichnet einerseits den Typ des letzten Lautes (Vokal oder Konsonant) als auch den Laut und die Silbe. Zudem ist angegeben, ob die letzte Silbe betont ist. In CELEX sind diese Informationen in der DISC-Schreibweise wiedergegeben, die wir aber in der Darstellung unseres Entscheidungsbaums in IPA-Schreibweise wiedergegeben haben.



1Die Wortart spielt im weiter unten präsentierten Entscheidungsbaum zwar keine unmittelbare Rolle, die Codes werden aber im Flexionsparadigma ebenfalls verwendet. [zurück]

© IDS Mannheim. Zuletzt geändert am 11.01.2012 16:55.