grammis 2.0
das grammatische informationssystem des instituts für deutsche sprache (ids)
                                                                                              Mitarbeiter Literatur
Korpusgrammatik Grammatik in
Fragen und Antworten
Systematische
Grammatik
Grammatische
Fachbegriffe
Grammatisches
Wörterbuch
Grammatische
Bibliografie
                                                                             
                                   
Datenbasis für Untersuchungen zur grammatischen Variabilität im Standarddeutschen Statistische Methoden der Korpusgrammatik Verlässlichkeit grammatischer Annotationen Vorhersage von Fugenelementen in nominalen Komposita Variation der starken Genitivmarkierung AcI-Konstruktionen und Wie-Komplementsätze Ressource: GenitivDB

[Impressum] [Datenschutzerklärung]

                                                                           
Schlagwörter: Annotation Tagger Varianz Wortart

Anlass und Rahmen der Annotationsprüfung

Sucht man Aussagen über grammatische Strukturen und grammatische Varianz bzw. Variation im heutigen Deutsch gestützt auf sehr große Textkorpora zu evaluieren, erkennt man schnell, dass dies ohne maschinelle Unterstützung kaum zu realisieren ist. Man muss einen Weg finden, zumindest auf der elementaren Ebene der Wörtern automatisiert Klassifikationen in der Art vorzunehmen, wie sie von Grammatikern schon seit den Zeiten von Dionysius Thrax - dieser lebte vermutlich im 2. Jahrhundert v. Chr. und verfasste die erste griechische Grammatik, wobei er Überlegungen auswertete, die in den vorangegangenen Jahrhunderten zu Sprache und Grammatik angestellt worden waren - erarbeitet werden.

Mit so genannten Taggern, die morpho-syntaktische Klassifikationen auf der Basis entsprechender Algorithmen automatisch vornehmen können, scheinen ideale Lösungen für dieses Problem gefunden, die über eine bloße Evaluation bereits gegebener Aussagen zu grammatischen Strukturen hinaus sogar erlauben könnten, Strukturen zu entdecken, die Grammatikern bislang nicht in den Blick geraten sind.

Nun verwenden Grammatiker in aller Regel große Mühen darauf, die Wortklassen, von denen sie ausgehen, sorgfältig zu definieren, und sie lassen sich dabei auch nicht von Fehlern irritieren, wie sie sich bei der maschinellen Erfassung von Texten unterschiedlichster Ausgangsformate fast unvermeidlich ergeben. Vor allem aber legen sie - zumindest in Grammatiken mit wissenschaftlichem Anspruch - auch ihre Entscheidungsgründe offen, was kompetente Nutzer der Grammatik prinzipiell in die Lage versetzen kann, in beliebigen Texten allen Wörtern manuell die entsprechende Wortklasse zuzuordnen (vgl. die Wortklassen der Systematischen Grammatik sowie deren Begründung).

Bei maschinellem Tagging erfolgt die Zuweisung von Wortklassen schnell und selbstständig, doch der enorme Zeitgewinn hat einen hohen Preis: Die Kriterien, nach denen die Zuweisung erfolgt, bleiben - zumindest für jene, die nicht an der Konzeption des genutzten Taggers beteiligt waren - weitgehend undurchsichtig. Sie können sich nur durch die Hintertür einer Analyse der Ergebnisse ein Bild davon machen, welchen Regeln das Tagging folgt. Deshalb wird man als klassisch geschulter Grammatiker erst einmal zu überprüfen suchen, ob und in wie weit man sich auf deren Leistung verlassen kann, bevor man sich daran macht, mit einem oder mehreren Taggern zu arbeiten.

Schenkt man den Aussagen über die Qualität der auf dem Markt verfügbaren Taggern Glauben, scheinen zumindest die Besten unter ihnen bereits hohen Ansprüchen zu genügen. In den wenigen Untersuchungen zur Verlässlichkeit des Part of Speech (POS)-Taggings für deutsche Texte ist von 93 bis 98 % die Rede (Cyril Belica/Marc Kupietz/Andreas Witt/Harald Lüngen (2009), S. 451-469). Doch bevor man sich von solch hohen Zahlen beeindrucken lässt, sollte man genauer betrachten, wie sie zustande gekommen sein könnten. Schon ein kurzer Blick auf den deutschen Wortschatz zeigt, dass sich das Gros deutscher Wörter einigen wenigen Wortklassen zugeordnet werden kann, die vergleichsweise eindeutig zu fassen sind. Erweist sich ein Tagger hinsichtlich dieser Klassen als leistungsfähig, wirkt sich das mittelbar auch auf seine Leistungsfähigkeit im Durchschnitt aller Wortklassen aus. Schwächen bei Wortklassen mit sehr viel weniger Elementen senken den Durchschnittswert dann nur wenig.

Ob und in wie weit Schwächen bei Wortklassen wie Artikel, Konnektoren oder Präpositionen die Brauchbarkeit eines Taggers wesentlich beeinträchtigen, hängt freilich in erster Linie davon ab, was man mit ihm erreichen will. Was sich im Hinblick auf eine Evaluation grammatischer Regeln als fatal erweisen könnte, mag für ein effizientes Durchsuchen riesiger Textmengen unter rein sachlichen Aspekten zu vernachlässigen sein. Stellt man in Rechnung, dass die Nutzung von Taggern im Rahmen grammatischer Studien schon aus ökonomischen Gründen eher als ausgesprochen nachgeordnet gelten kann, sollte man sich zum einem hüten, allzu große Ansprüche an deren Leistung in Sachen grammatischer Analysen zu richten, zum anderen davon ausgehen, dass man die Tagger unter dem Aspekt einer verlässlichen Zuordnung von Wortklassen eigens zu überprüfen hat.

Exkurs: Wie funktioniert ein POS-Tagger?

Um einen Wortarten-Tagger evaluieren und die Ergebnisse verstehen zu können, ist es notwendig, zu wissen, wie Tagger arbeiten. In der Computerlinguistik entwickelten sich zwei grundsätzliche Verfahren des Taggens (vgl. Carstensen et al. 2001, S. 373ff.; Lemnitzer/Zinsmeister 2006, S. 60ff.):

Regelbasiertes Tagging: Der Computer verlässt sich beim Tagging auf ein umfangreiches Regelwerk, ein Taggerlexikon, das von Hand erstellt wurde und in dem festeht, welche Wörter welchen Wortarten angehören (ggf. in Abhängigkeit zum Kontext).

Stochastisches Tagging: Die Basis bei diesem Verfahren ist ebenfalls ein Taggerlexikon. Es wird jedoch zusätzlich ein sog. Trainingskorpus erstellt, das von Hand getaggt wurde. Nun kann mit statistischen Methoden die Wahrscheinlichkeit von bestimmten Wortartenabfolgen berrechnet werden. Dadurch entstehen auch Regeln, die jedoch auf Wahrscheinlichkeitswerten beruhen und beispielsweise besagen, dass in der grosse Bär das Token der wahrscheinlich kein Relativpronomen, sondern ein bestimmter Artikel ist, da dieser oft in der Kombination Artikel-Adjektiv-Nomen vorkommt. Die Qualität des Taggers ist deshalb stark vom verwendeten Trainingskorpus abhängig. Je größer dieses ist und je eher es den Daten ähnelt, die getaggt werden sollen, desto besser wird der Tagger arbeiten. Mit speziell angepassten Trainingskorpora kann die Taggingqualität verbessert werden.

Heute scheinen stochastische Tagger verbreiteter zu sein als regelbasierte. So arbeitet der sehr verbreitete TreeTagger (Schmid 1994) beispielsweise statistisch. Bei kommerziellen Produkten wie dem Connexor Machinese- und dem XEROX-Tagger ist die genaue Funktionsweise nicht öffentlich bekannt. Stochastische Tagger haben den Vorteil, sehr robust zu sein: Sie können z.B. auch die Wortart von Wörtern erkennen, die nicht im Taggerlexikon enthalten sind, solange deren syntaktische Verwendung normgerecht ist und damit oft im Trainingskorpus angetroffen wurde. Doch gerade bei Untersuchungen zu Randbereichen des Standards ist dieses Verhalten problematisch und ein stochastischer Tagger tendiert dann zu mehr Fehlern. Allerdings gilt das auch für regelbasierte Tagger, wenn die entsprechenden Regeln nicht erfasst wurden.

© IDS Mannheim. Zuletzt geändert am 27.04.2017 22:56.