grammis 2.0
das grammatische informationssystem des instituts für deutsche sprache (ids)
                                                                                              Mitarbeiter Literatur
Korpusgrammatik Grammatik in
Fragen und Antworten
Systematische
Grammatik
Grammatische
Fachbegriffe
Grammatisches
Wörterbuch
Grammatische
Bibliografie
                                                                             
                                   
Datenbasis für Untersuchungen zur grammatischen Variabilität im Standarddeutschen Statistische Methoden der Korpusgrammatik Verlässlichkeit grammatischer Annotationen Vorhersage von Fugenelementen in nominalen Komposita Variation der starken Genitivmarkierung AcI-Konstruktionen und Wie-Komplementsätze Ressource: GenitivDB

[Impressum] [Datenschutzerklärung]

                                                                           
Schlagwörter: Korpus Teilkorpus

DPnorm zum Messen der Verteilung über das Gesamtkorpus

DPnorm und weitere Maße, die die Verteilung eines Phänomens über ein Gesamtkorpus hinweg ausdrücken, lassen sich ebenfalls in R mit einem Script berechnen. Ausgangsbasis ist eine Tabelle, die für jedes Teilkorpus die Anzahl enthaltener Wörter und Treffer aufführt. Da nicht für jedes Phänomen die Einheit Wort sinnvoll ist (z.B. bei syntaktischen Strukturen), werden ggf. auch die Angaben für Sätze und Texte angegeben. Die Daten haben damit die Struktur wie in Tabelle 12 angedeutet.

Dokument Texte Total Wörter Total Treffer (Texte) Treffer
A00/APR 606 180667 0 0
A00/AUG 709 205668 1 2
A00/DEZ 233 72849 0 0
A00/FEB 761 227292 0 0
A00/JAN 785 223905 0 0
A00/JUL 624 188156 0 0
A00/JUN 671 207414 0 0
A00/MAI 886 261496 0 0
... ... ... ... ...

Tabelle 12: Treffer für diesen Jahres in Dokumenten; Tabelle als Basis für die Berechnung von DPnorm

Nun wird diese Tabelle in R eingelesen und DPnorm neben vielen weiteren Maßen zur Verteilung berechnet:

1 data
  <-read.table(<Dateipfad>, header=TRUE, sep="\t", quote="", comment.char="") 2
  data_prob_texte <- data$Texte_Total/sum(as.numeric(data$Texte_Total)) 3 data_prob_tokens <-
  data$Tokens_Total/sum(as.numeric(data$Tokens_Total)) 4
  source("http://www.linguistics.ucsb.edu/faculty/stgries/research/dispersion/_dispersions2.r") 5
  griesDPTokens <- dispersions2(data[[col_treffer]], data_prob_tokens) 6 griesDPTexte <-
  dispersions2(data[[col_texte]], data_prob_texte) 7 griesDPTokens 8 griesDPTexte

In Zeile 1 werden die Daten eingelesen und in den Zeilen 2 und 3 die bezüglich Gesamtzahl von Wörtern und Texten relativen Teilkorpusgrößen berechnet. In Zeile 4 wird das Script zur Berechnung der statistischen Verteilungsmaße geladen und in Zeilen 5 und 6 die Werte gesondert für die Wort- und die Textfrequenzen berechnet und in Zeilen 7 und 8 ausgegeben.

Für das Recherchebeispiel aber (vgl. Tabelle 10) wird folgende Ausgabe (Basis Wörter) erzeugt (Abbildung auszugsweise):

$`observed overall frequency` [1] 788405 $`sizes of corpus
  parts / corpus expected proportion` [1] 4.823940e-04 5.491484e-04 1.945121e-04 6.068861e-04
  5.978426e-04 [6] 5.023901e-04 5.538104e-04 6.982132e-04 6.603303e-04 6.376827e-04 [11] 5.687227e-04
  7.117986e-04 1.432227e-04 3.854196e-04 3.185503e-04 [16] 3.224433e-04 4.942411e-04 3.809980e-04
  2.054354e-04 6.915941e-04 ... $`relative entropy of all sizes of the corpus parts` [1] 0.9546112
  $range [1] 3045 $maxmin [1] 1084 $`standard deviation` [1] 203.8447 $`variation coefficient` [1]
  0.7932414 $`Chi-square` [1] 26735.77 $`Juilland et al.'s D (based on equally-sized corpus parts)`
  [1] 0.9856765 $`Juilland et al.'s D (not requiring equally-sized corpus parts)` [1] 0.9941908
  $`Carroll's D2` [1] 0.9600764 $`Rosengren's S (based on equally-sized corpus parts)` [1] 0.8191274
  $`Rosengren's S (not requiring equally-sized corpus parts)` [1] 0.9919786 $`Lyne's D3 (not
  requiring equally-sized corpus parts)` [1] 0.8427433 $`Distributional consistency DC` [1] 0.8191274
  $`Inverse document frequency IDF` [1] 0.01085625 $`Engvall's measure` [1] 782494.5 $`Juilland et
  al.'s U (based on equally-sized corpus parts)` [1] 777112.3 $`Juilland et al.'s U (not requiring
  equally-sized corpus parts)` [1] 783825 $`Carroll's Um (based on equally sized corpus parts)` [1]
  756939.3 $`Rosengren's Adjusted Frequency (based on equally sized corpus parts)` [1] 645804.2
  $`Rosengren's Adjusted Frequency (not requiring equally sized corpus parts)` [1] 782080.9
  $`Kromer's Ur` [1] 17163.78 $`Deviation of proportions DP` [1] 0.07026839 $`Deviation of
  proportions DP (normalized)` [1] 0.0702684

Im regulären Rechercheprozess werden nicht alle Maße ausgegeben, sondern die Ausgabe auf DPnorm eingeschränkt.

© IDS Mannheim. Zuletzt geändert am 09.04.2014 15:20.