grammis 2.0
das grammatische informationssystem des instituts für deutsche sprache (ids)
                                                                                              Mitarbeiter Literatur
Korpusgrammatik Grammatik in
Fragen und Antworten
Systematische
Grammatik
Grammatische
Fachbegriffe
Grammatisches
Wörterbuch
Grammatische
Bibliografie
                                                                             
                                   
Datenbasis für Untersuchungen zur grammatischen Variabilität im Standarddeutschen Statistische Methoden der Korpusgrammatik Verlässlichkeit grammatischer Annotationen Vorhersage von Fugenelementen in nominalen Komposita Variation der starken Genitivmarkierung AcI-Konstruktionen und Wie-Komplementsätze Ressource: GenitivDB

[Impressum] [Datenschutzerklärung]

                                                                           
Schlagwörter: Präposition Tagger Wort

Annotation von Präpositionen

Präpositionen laut grammis

Präpositionen sind in allen Grammatiken zum Deutschen als Wortart vertreten. In der auf der GDS basierenden grammis-Komponente Systematische Grammatik werden sie folgendermaßen eingeführt:

Präpositionen (z. B. an, aus, von, zu, wider, entsprechend, ungeachtet) sind unflektierbare Ausdrücke, die Gegenstände oder Sachverhalte in eine spezifische inhaltliche Beziehung zueinander setzen, z. B. in eine räumliche (die Katze auf dem heißen Blechdach), in eine kausale (zitternd vor Angst) oder in eine zeitliche (Tod um Mitternacht). Sie können einerseits vor oder – viel seltener – nach einer Nominalphrase bzw. Pronominalphrase (für die Kinder, für sie, den Kindern zuliebe, ihnen zuliebe), andererseits vor einer Adverbphrase (bis morgen) stehen. Mit diesen Phrasen zusammen bilden Präpositionen sogenannte Präpositionalphrasen. Dabei regieren sie den Kasus des Nomens bzw. Pronomens.

Auf der Basis dieser Charakterisierung werden im grammis-Wörterbuch folgende Wörter als Präpositionen geführt:

Präpositionen laut grammis (Abschnitt ein-/ausblenden)

Durch Anklicken lässt sich die Liste vergrößert anzeigen.

Die Liste stützt sich ausschließlich auf „intelligente“ Auswertungen von Texten sowie einschlägige Literatur. Unberücksichtigt bleiben in dieser Liste Abkürzungen wie etwa wg. für wegen, sowie Kombinationen aus Präposition und Artikel wie etwa beim, vors, zur.

Präpositionen laut Connexor

Die Bestimmung der von Connexor als Präpositionen ausgezeichneten Wortformen erfolgte auf der Basis der damit annotierten DeReKo Texte. Es könnte sich mithin nur um eine Auswahl handeln, doch in Anbetracht der Größe des Korpus dürfte nur wenig und Seltenes entgangen sein. Auffällig – und damit vielleicht ein Hinweis auf ernsthafte Schwierigkeiten – ist allerdings, dass diese drei Präpositionen in der Liste fehlen: südöstlich, südwestlich, nordwestlich, denn in den nicht-annotierten Korpora des DeReKo finden sich für diese Wortformen über 20.000 Belege.

Präpositionen laut Connexor (Abschnitt ein-/ausblenden)

Durch Anklicken lässt sich die Liste vergrößert anzeigen.

Man erkennt schnell, dass Connexor offenbar Probleme mit der Erfassung und der Tokenisierung der genauen Wortformen hatte, was ganz oder teilweise auf die Kodierung der Ausgangsdaten zurückzuführen sein könnte. Tilgt man alles, was solchen Problemen geschuldet sein könnte, verbleiben ganze 159 Wortformen. Reduziert man die Liste weiter um Schreibvarianten – die zu erkennen durchaus richtig war – bleiben 149 Wortformen. Stellt man weiterhin in Rechnung, dass – anders als bei grammis – auch 15 Kombinationen von Präpositionen und Artikel (am, ans, aufs, beim, durchs, fürs, hinters, ins, übers, ums, unters, vom, vors, zum, zur) berücksichtigt wurden, verbleibt eine Liste nahezu gleichen Umfangs wie bei grammis.

Doch hier ist Vorsicht geboten: Nachfolgende Punkte, Kommata, Bundestriche und Anführungszeichen nach vermeintlichen Präpositionen können Indizien für fehlerhafte Tokenisierung sein. So dürften etwa Punkte allenfalls nach Postpositionen auftreten, die Connexor – wie auch grammis und viele Grammatiken, jedoch nicht TreeTagger! – zu den Präpositionen zählt. Es bleibt also zu prüfen, ob tatsächlich Verwendungen als Postpositionen vorlagen. Dabei zeigt bereits eine grobe Überprüfung, dass es sich zumindest bei 64 der mit einem Punkt abgeschlossenen, als Präpositionen klassifizierten Wortformen nicht um Postpositionen handeln kann und somit eine falsche Annotation vorliegen muss.

Präpositionen laut TreeTagger

Die Liste wurde auf der Basis fünfmaliger Zufallsauswahl von jeweils 100.000 Treffern aus insgesamt 153.982.558 unter den mit TreeTagger annotierten Texten des DeReKo erstellt und könnte deshalb – wie die Liste zu Connexor – unvollständig sein, doch dass viele wesentliche Elemente fehlen ist wenig wahrscheinlich. Bemerkenswert ist, dass in dieser Liste von den bei Connexor vermissten Präpositionen nur südwestlich fehlt, was hier tatsächlich der Zufallsauswahl geschuldet sein könnte.

Präpositionen laut Treetagger (Abschnitt ein-/ausblenden)

Durch Anklicken lässt sich die Liste vergrößert anzeigen.

Offensichtlich ist hingegen auch hier, dass die Liste zahlreiche Ausdrucksformen enthält, die so weder als Präpositionen noch überhaupt als Wortformen gelten können. Reduziert man die Liste um diese Elemente, verbleiben noch 129 Wortformen, unter denen sich 18 Kombinationen von Präposition mit Artikel befinden (am, ans, aufs, beim, durchs, hinterm, hinters, im, ins, ums, unterm, untern, unters, vom, vorm, vors, zum, zur).

Inwieweit die letztlich im Vergleich mit grammis und Connexor wesentlich geringere Zahl an erkannten Präpositionen auf die Unwägbarkeiten der Zufallsauswahl zurückzuführen ist, lässt sich mit den mir zur Verfügung stehenden Mitteln nicht überprüfen. Festzuhalten ist jedoch, dass die Suche nach Präpositionen zumindest auf der Basis von DeReKo nicht zu verlässlichen Daten führt, und da Präpositionen ein Bestandteil sehr vieler Phrasen sind, kann daraus geschlossen werden, dass auch darauf aufbauende Suchen nach komplexeren Strukturen wenig verlässlich sein werden.

Kleine Zwischenbilanz

Was sich, bereinigt um Schreibungsvarianten, fälschlich als Wortformen gewerteten Ausdrücken sowie Präpositionen mit Artikel ergibt, zeigt diese Vergleichstabelle:

Vergleich der Präpositionen (Abschnitt ein-/ausblenden)

Durch Anklicken lässt sich die Liste vergrößert anzeigen.

Die Zahl der false negatives hält sich bei Connexor und TreeTagger in Grenzen, soweit es nur darum geht, Wortformen überhaupt als Präpositionen zu erkennen. An eindeutigen false positives finden sich nur zwei Wortformen bei TreeTagger: hin und her.

Die Schnittmenge der von beiden Taggern verzeichneten Präpositionen umfasst jedoch nur 98 Wortformen. Völlig offen bleibt so weit allerdings noch, wie gut die Erkennung von Fall zu Fall gelingt. Wie die im Folgenden beschriebenen exemplarischen Evaluationen zeigen werden, besteht in dieser Frage durchaus Anlass zu Bedenken.

© IDS Mannheim. Zuletzt geändert am 09.05.2017 12:37.