grammis 2.0
das grammatische informationssystem des instituts für deutsche sprache (ids)
                                                                                              Mitarbeiter Literatur
Korpusgrammatik Grammatik in
Fragen und Antworten
Systematische
Grammatik
Grammatische
Fachbegriffe
Grammatisches
Wörterbuch
Grammatische
Bibliografie
                                                                             
                                   
Datenbasis für Untersuchungen zur grammatischen Variabilität im Standarddeutschen Statistische Methoden der Korpusgrammatik Verlässlichkeit grammatischer Annotationen Vorhersage von Fugenelementen in nominalen Komposita Variation der starken Genitivmarkierung AcI-Konstruktionen und Wie-Komplementsätze Ressource: GenitivDB

[Impressum] [Datenschutzerklärung]

                                                                           
Schlagwörter: Annotation Tagger Wortart

Verlässlichkeit grammatischer Annotationen

Untersuchungen zu Varianz und Variation grammatischer Strukturen, die auf sehr großen Korpora basieren, sind ohne maschinelle Unterstützung von Taggern, die automatisiert grammatische Klassifikationen des gesamten Wortmaterials vornehmen, kaum zu denken. Laut Studien zum Wortarten-Tagging (engl. POS tagging) für deutsche Texte genügen die besten Tagger bereits hohen Ansprüchen. Von 93- bis 98-prozentiger Verlässlichkeit ist die Rede. Zu bedenken ist aber, dass das Gros deutscher Wörter einigen wenigen Klassen (Wortarten) zugeordnet werden kann, die vergleichsweise eindeutig zu fassen sind. Erweisen sich die Tagger in diesem Bereich als leistungsfähig, kann also die sehr gute Durchschnittsverlässlichkeit manche Schwäche bei Wortklassen mit wenig Elementen verdecken.

Die Verlässlichkeit und Brauchbarkeit der Tagger sollen daher exemplarisch im Hinblick auf Wortformen meine/Meine, die Präpositionen im Allgemeinen und die Wortformen bar, eingangs, fernab, halber, jenseits, laut überprüft werden. Auf dem Prüfstein stehen die Werkzeuge TreeTagger und Connexor Machinese Phrase Tagger, mit denen die Korpora des Instituts für Deutsche Sprache annotiert sind. Kritisch betrachtet werden diese Tagger u. a. im Hinblick auf falsche Zuordnungen für ein gesuchtes Phänomen (false positives) und auf nicht vorgenommene Zuordnungen (false negatives). Die Untersuchung mündet in ernüchternden Erkenntnissen, aber auch in ersten Ideen zur sinnvollen Nutzung getaggter Korpora trotz ihrer echten und vermeintlichen Fehler.

© IDS Mannheim. Zuletzt geändert am 20.04.2016 15:00.