grammis 2.0
das grammatische informationssystem des instituts für deutsche sprache (ids)
                                                                                              Mitarbeiter Literatur
Korpusgrammatik Grammatik in
Fragen und Antworten
Systematische
Grammatik
Grammatische
Fachbegriffe
Grammatisches
Wörterbuch
Grammatische
Bibliografie
                                                                             
                                   
Datenbasis für Untersuchungen zur grammatischen Variabilität im Standarddeutschen Statistische Methoden der Korpusgrammatik Verlässlichkeit grammatischer Annotationen Vorhersage von Fugenelementen in nominalen Komposita Variation der starken Genitivmarkierung AcI-Konstruktionen und Wie-Komplementsätze Ressource: GenitivDB

[Impressum] [Datenschutzerklärung]

                                                                           
Schlagwörter: Kompositum

Fehlerquellen

Es gibt eine ganze Reihe von Fehlerquellen, die zu Fehlanalysen der Komposita führen können. Grundsätzlich können bereits Fehler bei der Tokenisierung (Erkennung der Wortgrenzen), der Korpuszusammenstellung (z.B. Textdubletten) und anderer Verfahren der Korpusaufbereitung einen Einfluss haben. Auf solche Probleme soll an dieser Stelle nicht eingegangen werden. Entscheidender sind Fehlanalysen des Connexor-Taggers: Wie jeder Wortarten-Tagger weist auch der Connexor-Tagger Fehler auf (vgl. Kapitel "Verlässlichkeit und Brauchbarkeit grammatischer Annotation"). Fehler im Bereich der morphologischen Analyse wirken sich auf die automatische Bestimmung der Komposita aus. Da es sich beim Connexor-Tagger um ein kommerzielles Produkt handelt, ist die Funktionsweise intransparent und Korrekturen schwierig. Folgende beiden Fehlertypen wurden beobachtet:

  1. Kompositum wird nicht als Kompositum erkannt: Das Kompositum Embryonenforschung wird vom Tagger nicht als Kompositum erkannt und deshalb nicht in die Glieder Embryo und Forschung zerlegt. Interessanterweise wird jedoch das Kompositum Embryoforschung korrekt zerlegt. Es ist momentan nicht abschätzbar, wie viele ähnliche Fälle von (teilweise) falsch analysierten Komposita es gibt. Es ist jedoch anzunehmen, dass allgemein eher seltene Lexeme falsch analysiert sind.
  2. Komposita werden nicht konsistent zerlegt: Das Kompositum Willensstärke wird mit dem Erstglied Willen analysiert. Die Variante Willenstärke hingegen mit Wille als Erstglied. Im Falle von Wille- führen die unterschiedlichen Analysen zu Verzerrungen bei der Verteilung der Fugen zwischen ns- und s-Fugen.

Wahrscheinlich hängen diese beiden Fehlertypen zusammen, allerdings kann darüber nur spekuliert werden, da die morphologische Analyse des Taggers nicht ausreichend dokumentiert ist, um die Funktionsweise nachvollziehen zu können.

© IDS Mannheim. Zuletzt geändert am 11.01.2012 16:47.