grammis 2.0
das grammatische informationssystem des instituts für deutsche sprache (ids)
                                                                                              Mitarbeiter Literatur
Korpusgrammatik Grammatik in
Fragen und Antworten
Systematische
Grammatik
Grammatische
Fachbegriffe
Grammatisches
Wörterbuch
Grammatische
Bibliografie
                                                                             
                                   
Datenbasis für Untersuchungen zur grammatischen Variabilität im Standarddeutschen Statistische Methoden der Korpusgrammatik Verlässlichkeit grammatischer Annotationen Vorhersage von Fugenelementen in nominalen Komposita Variation der starken Genitivmarkierung AcI-Konstruktionen und Wie-Komplementsätze Ressource: GenitivDB

[Impressum] [Datenschutzerklärung]

                                                                           
Schlagwörter: Fugenelement Wort

Extraktion der Daten für die Fugenvorhersage

Grundlage für die Modellierung der Fugenvorhersage ist ein Auszug von zweigliedrigen nominalen Komposita aus dem DeReKo (Kupietz u. a. 2010).1 Die Daten wurden mittels einer automatischen Analyse der morphosyntaktisch annotierten Version des DeReKo erhoben. Das DeReKo steht in verschiedenen morphosyntaktisch annotierten Versionen zur Verfügung. Zum Aufbau der Schnittstellen-Datenbank wurde die mit dem ‚Machinese’-Tagger der Firma ‚Connexor’ (vgl. Kapitel "Grundlegende technische Weichenstellungen") annotierte Version verwendet, denn der Tagger nimmt bei Zusammensetzungen eine morphologische Analyse vor, wie im folgenden Ausschnitt der Annotation von Altersgruppe zu sehen ist:

 <token
  pos="3671970" len="12"> <text>Altersgruppe</text> <lemma>alter
  gruppe</lemma> <tags syntax="@NH" morpho="N"/> </token> 

Das Token Altersgruppe wird also im Tag <lemma> in die Glieder alter und gruppe aufgetrennt. Die Schnittstelle s wird dabei ignoriert.

Mit einem speziell für diesen Zweck programmierten Perl-Skript2 werden die Connexor-getaggten Korpusdaten ausgelesen. Berücksichtigt werden alle als Nomen klassifizierten Tokens, die gemäß Lemma-Angabe in der Annotation aus mehreren Gliedern bestehen. Die aufgeführten Glieder (im Beispiel oben: alter und gruppe) werden nun mit dem tatsächlichen Token verglichen (Altersgruppe). Es wird berechnet, welche Operationen notwendig sind, um zum Token zu gelangen3. Dabei werden die folgenden Fälle in der genannten Reihenfolge unterschieden:

  1. Die Glieder lassen sich über eine der vordefinierten Schnittstellen s, en, e, n, er, es, a verbinden (Pferd + e + wagen).
  2. Die Glieder lassen sich ohne jegliches weitere Element miteinander verbinden (Greif + vogel).
  3. Eine beliebige andere Zeichenkette ist notwendig, um die Glieder zu verbinden (Herz + ens + güte).
  4. Eine Verkürzung des ersten Glieds in Verbindung mit einem der vordefinierten Schnittstellen ist notwendig (Hilf + s + konstruktion [Hilfe --> Hilf + s]).
  5. Verkürzung des ersten Glieds ohne weitere Veränderungen (Grenz + dienst [Grenze --> Grenz + dienst]).
  6. Wenn keiner der genannten Fälle zutrifft, wird die Zusammensetzung als unanalysierbar markiert, wobei eine Reihe von häufigen Spezialfällen berücksichtigt werden, die auf orthographische Unterschiede zwischen Lemma und Token wie -graph- vs. -graf-, -photo- vs. -foto- etc. zurückgehen.

Generell ignoriert werden Pluralumlaute wie in Ärztekongress (arzt + kongress): Vor der Analyse werden Umlaute generell ersetzt und die Zusammensetzung Ärztekongress würde dann als Fall Arzt + e + Kongress klassifiziert.

Neben der Klassifizierung der Zusammensetzungen wird zu jedem gefundenen Token auch die genaue Fundstelle (Korpus und Position im Korpus) abgelegt.

Die extrahierten Komposita werden zu einer aggregierten Liste der unterschiedlichen Komposita (Types) zusammengeführt: Sie enthält alle unterschiedlichen Kombinationen von Erstglied und Zweitglied mit Häufigkeiten und der Fuge oder dem Wert ‚variabel’, wenn die Fuge variiert.

Wir wollen uns also im Folgenden auf Komposita konzentrieren, deren Verfugungsverhalten in den zugrundeliegenden Korpusdaten stabil ist. Zwar werden Komposita, die mit unterschiedlichen Fugen vorkommen, mit dem Wert ‚variabel’ und der Angabe, welche Varianten angetroffen wurden, erfasst, doch beziehen wir die Frequenzverhältnisse dieser Varianten nicht mit in die Analyse ein. Es ist geplant, die bezüglich Fuge variierenden Komposita in einer Folgestudie separat in den Blick zu nehmen.4

Nach der oben beschriebenen Extraktion und Aufbereitung der Komposita schränkten wir die Datengrundlage weiter ein auf Komposita, die die folgenden Bedingungen erfüllen:

  1. nominale Komposita (Kompositum muss vom Tagger als Nomen klassifiziert sein, nicht jedoch die Glieder),
  2. zweigliedrige Komposita,
  3. keine Bindestrich-Komposita,
  4. Frequenz des Kompositums im Korpus ist mindestens fünf,
  5. Die Glieder des Kompositums müssen in der CELEX-Datenbank vorhanden sein. Vgl. dazu die Ausführungen zur CELEX-Datenbank.

Aus dieser Vorgehensweise resultiert eine Liste von 407.865 unterschiedlichen Komposita, die die Datengrundlage für die weiteren Analysen bilden.



1Dieser Auszug von Komposita wurde bereits für eine im Rahmen des Projekts ‚Korpusgrammatik’ entstandene, aber anders gelagerte Analyse von Zusammensetzungen von Elke Donalies (Donalies 2011) erstellt, wo allerdings nicht nur zweigliedrige Komposita berücksichtigt wurden. Darüber hinaus ist die Analyse von Donalies weniger daten-, sondern stärker hypothesengeleitet. [zurück]

2Perl ist eine Programmiersprache, die sich besonders für die Verarbeitung von Textdokumenten eignet (Wall u. a. 2000). [zurück]

3Aufgrund dieser ‚maschinellen Gegebenheiten‘ wird ein Konzept von Fugenelementen vertreten, nach dem alle Zeichenketten, die sich zwischen 2 Gliedern (Stämmen) eines Kompositums befinden, als Fugenelement betrachtet werden. Für detailliertere Informationen zu den beiden grundsätzlichen Auffassungen von Fugenelementen vgl. Donalies (2011, S. 7–8). [zurück]

4Vgl. zum Thema der Variation bei der Wahl von Fugenelementen die aktuellen Studien von Nübling/Szczepaniak (2011) und Donalies (2011).[zurück]

© IDS Mannheim. Zuletzt geändert am 06.05.2016 15:15.