grammis 2.0
das grammatische informationssystem des instituts für deutsche sprache (ids)
                                                                                              Mitarbeiter Literatur
Korpusgrammatik Grammatik in
Fragen und Antworten
Systematische
Grammatik
Grammatische
Fachbegriffe
Grammatisches
Wörterbuch
Grammatische
Bibliografie
                                                                             
                                   
Datenbasis für Untersuchungen zur grammatischen Variabilität im Standarddeutschen Statistische Methoden der Korpusgrammatik Verlässlichkeit grammatischer Annotationen Vorhersage von Fugenelementen in nominalen Komposita Variation der starken Genitivmarkierung AcI-Konstruktionen und Wie-Komplementsätze Ressource: GenitivDB

[Impressum] [Datenschutzerklärung]

                                                                           
Schlagwörter: Fugenelement Kompositum

Anreicherung der Daten für die Fugenvorhersage

Für die Erstellung der Trainings- und Testdaten muss jeder Fall mit seinen Attributen in eine Vektordarstellung gebracht werden. Bei der Fugenelementanalyse ist jedes Kompositum aus dem Korpus ein Fall. Attribute sind die bekannten Eigenschaften der Fälle, z.B. Silbenzahl des Erstglieds, Wortart des Erstglieds oder der erste Laut des Zweitglieds in phonetischer Umschrift. Bei überwachten Lernverfahren ist eins der Attribute das so genannte Zielattribut, das das zu trainierende Modell vorhersagen soll, hier also das Fugenelement. Zwei Beispielsvektoren werden in Tabelle 1 ausschnittsweise dargestellt (die Attribute ‚Vektornummer’ und ‚Kompositum’ werden im Training nicht berücksichtigt):

Vektornummer Kompositum Silbenzahl des Erstglieds letzter Laut des Erstglieds Wortart des Erstglieds erster Laut des Zweitglieds ... Fugenelement
1 Evakuierungstest 5 N N t ... s
2 Umweltschutz 2 T N S ... 0

Tabelle 1: Ausschnitt zweier Beispielvektoren für die Fugenelementeanalyse

Theoretisch kann man alle Attribute, die einem zur Verfügung stehen, in den Vektor aufnehmen und es dem maschinellen Lernalgorithmus überlassen herauszufinden, welche davon die entscheidenden sind. John und Dept (1997) haben jedoch gezeigt, dass das Ergebnis eines maschinellen Lernalgorithmus umso schlechter ist, je mehr irrelevante Attribute die Trainingsdaten enthalten. Besonders problematisch ist hierbei Multikolinearität, d.h. wenn mehrere Attribute stark miteinander korrelieren. Um diese Probleme zu minimieren, sollte man nur Attribute aufnehmen, von denen man annimmt, dass sie einen Einfluss auf das Zielattribut haben. Durch die Berechnung von Korrelationskoeffizienten kann man außerdem ermitteln, welche Attribute stark miteinander korrelieren, und von diesen nur eines im Vektor belassen.

Bei sehr großen Datenmengen kann es auch nötig sein, nicht alle Fälle in die Menge der Trainingsdaten aufzunehmen, da sonst die Modellierung zu viel Zeit in Anspruch nehmen würde. In diesem Fall wird eine stratifizierte Stichprobe gezogen, bei der der relative Anteil der verschiedenen Zielattributsklassen in der Ausgangsdatenmenge und der Stichprobe gleich ist. Genausogut kann es aber nötig sein, die Stichprobe so zu ziehen, dass jede Zielattributsklasse gleich häufig ist. Das kann dann der Fall sein, wenn eine Zielattributsklasse (z.B. die Null-Fuge) im Vergleich zu den anderen Klassen sehr häufig vorkommt und das Modell dazu tendiert, nur diese häufigste Klasse vorherzusagen.

© IDS Mannheim. Zuletzt geändert am 23.08.2013 10:59.