grammis 2.0
das grammatische informationssystem des instituts für deutsche sprache (ids)
                                                                                              Mitarbeiter Literatur
Korpusgrammatik Grammatik in
Fragen und Antworten
Systematische
Grammatik
Grammatische
Fachbegriffe
Grammatisches
Wörterbuch
Grammatische
Bibliografie
                                                                             
                                   
Datenbasis für Untersuchungen zur grammatischen Variabilität im Standarddeutschen Statistische Methoden der Korpusgrammatik Verlässlichkeit grammatischer Annotationen Vorhersage von Fugenelementen in nominalen Komposita Variation der starken Genitivmarkierung AcI-Konstruktionen und Wie-Komplementsätze Ressource: GenitivDB

[Impressum] [Datenschutzerklärung]

                                                                           
Schlagwörter: Korpus

Annotierte Korpora europäischer Sprachen

Die nachfolgende Auflistung verortet den Stand des Ausbaus deutschsprachiger wissenschaftlicher Korpusprojekte im internationalen Kontext. Dabei kann und soll es keinesfalls um eine exhaustive Dokumentation sämtlicher weltweiter Korpusprojekte gehen. Vielmehr lassen sich auf diese Weise - fünf Jahrzehnte nachdem in Gestalt des Brown-Korpus erstmals elektronische Textsammlungen für linguistische Untersuchungen kompiliert wurden - stichhaltige Vorstellungen über Umfang und Komplexität verfügbarer Korpora vermitteln sowie Anforderungen an deren Verwaltungssysteme realistisch einschätzen.

Wir beschränken uns auf die nach unseren Recherchen umfangreichsten, synchron ausgerichteten Korpusinitiativen für europäische Sprachen; oft sind das sogenannte Nationalkorpora, die als Grundlage referenzieller sprachbeschreibender Untersuchungen dienen. Neben den Primärdaten bieten die gelisteten Korpora - die zumeist über unterschiedlich mächtige Online-Schnittstellen recherchierbar sind - stets ein Basisinventar textspezifischer Metadaten und mindestens eine linguistisch motivierte Annotationsebene an:

  • Bulgarisch: Das seit 2009 kompilierte Bulgarian National Corpus an der "Bulgarian Academy of Science" umfasst ca. 1,2 Milliarden laufende Wortformen in ca. 240.000 Texten. Der Schwerpunkt liegt auf geschriebener Sprache und Internetdokumenten, außerdem enthält die Sammlung einen großen Anteil an übersetzten Texten. Für die Dokumentklassifizierung kommen 27 Metadatenkategorien wie Autor, Jahr, Genre, Domäne etc. zum Einsatz. Die Mehrebenen-Annotation erfolgte unter Verwendung sprachspezifischer Werkzeuge (Satzgrenzenerkenner und Tokenisierer, lexikonbasierter Lemmatisierer, POS-Tagger auf Basis von Support Vector Machines, Finite State Chunker, Wordnet-Bedeutungsannotation).
  • Dänisch: Das Kopenhagener KorpusDK beinhalt momentan ca. 50 Millionen laufende Wortformen aus Zeitungen, Periodika, Büchern und sonstigen Quellen ab 1983. Die Texte enthalten neben den Standardinformationen (z.B. Publikationsjahr, Titel) - soweit ermittelbar - autorenspezifische Metadaten (Alter, Geschlecht) sowie Angaben zum Texttyp. Die Constraint Grammar-basierte morphosyntaktische Auszeichnung erfolgte unter Einsatz des DanPars-Taggers.
  • Deutsch: Das am IDS Mannheim beheimatete Deutsche Referenzkorpus (DeReKo) ist die weltweit größte wissenschaftlich motivierte Korpussammlung für deutsche Schriftsprache mit 31,68 Milliarden laufenden Wortformen (Stand 08.03.2017). Der Name basiert auf einem 2002 abgeschlossenen Kooperationsprojekt zum Aufbau einer repräsentativen Datenbasis des Deutschen und ist insofern missverständlich, als dass DeReKo mittlerweile als bewusst unausgewogene opportunistische Korpussammlung fortgeführt wird. Journalistische Texte (u. A. Monitorkorpora diverser Zeitungen aus deutschsprachigen Ländern) nehmen einen breiten Raum ein, daneben enthält die Sammlung z.B. literarische und fachsprachliche Inhalte, die unter Zuhilfenahme einer Themen-Taxonomie inhaltlich klassifiziert wurden. Für die linguistische Forschung von besonderem Interesse ist die parallele Annotation sämtlicher Inhalte mit mehreren morphosyntaktischen Taggern; siehe auch die Ausführungen zur Datenbasis der Korpusgrammatik. Die Recherche erfolgt über COSMAS II.
  • Englisch: Seit 2013 bietet das länderübergreifende Corpus of Global Web-based English (GloWbE) 1,9 Milliarden laufende Wortformen primär aus Internetquellen. Neben textspezifischen Eigenschaften wie Ursprungsland, Publikationsjahr oder Genre wurden mit dem CLAWS-Tagger morphosyntaktische Sekundärdaten sowie Synonymrelationen ausgezeichnet.
  • Französisch: Das 2006 kompilierte und am "Centre for Translation Studies" der Universität Leeds abfragbare Korpus I-FR umfasst ca. 200 Millionen laufende Wortformen aus Internetquellen. Tokenisierung, Lemmatisierung und POS-Tagging wurden mit TreeTagger durchgeführt ; daneben enthält das Korpus maschinell generierte thematische Klassifikationen und geografische und Quellenangaben.
  • Griechisch: Seit 2000 ist das Hellenic National Corpus (HNC) / ILSP Corpus am Athener "Institute for Language and Speech Processing (ILSP)" mit ca. 50 Millionen laufenden Wortformen in einem relationalen Datenbanksystem online. Die ausschließlich schriftsprachlichen Inhalte (Buchpublikationen, Zeitungen/Zeitschriften, Broschüren, Internetquellen) wurden mit HNCedit morphosyntaktisch annotiert und enthalten auf Dokumentebene normierte Metadaten wie Titel, Autor, Medium oder Genre sowie eine inhaltliche Klassifizierung.
  • Italienisch: Das 2010 an der Universität von Pisa aufgebaute PAISÀ-Korpus enthält 250 Millionen laufende Wortformen. Basierend auf hochfrequenten Wortlisten wurden unter Einsatz von Bootstrap- und Retrieval-Tools ca. 380.000 frei verfügbare Internetquellen erfasst und mit Metadaten etikettiert. Die morphosyntaktische Analyse übernahm der ILC-POS-Tagger; hierarchische Dependenzrelationen ermittelte der DeSR Dependency Parser entsprechend des ISST-TANL Dependency Tagsets.
  • Litauisch: Im Corpus of the Contemporary Lithuanian Language (CCLL) am "Centre of Computational Linguistics (CCL)" der Universität von Kaunas finden sich ca. 160 Millionen laufende Wortformen aus medial klassifizierten Printdokumenten ab 1990. Unter Anwendung statistischer Hidden Markov Modelle (HMM) wurde das Korpus morphosyntaktisch annotiert.
  • Kroatisch: Das Kroatische Nationalkorpus (Hrvatski Nacionalni Korpus, HNK) an der Universität von Zagreb exisitiert seit 1998 und speichert über 100 Millionen laufende Wortformen in einer relationalen Datenbank, stratifiziert nach Medium (Zeitung, Zeitschrift, Populärliteratur, Korrespondenz usw.) und Genre (Politik, Wirtschaft, Sport usw.). Die morphosyntaktischen Annotationen verwenden ein kroatisches MSD Tagset.
  • Norwegisch: Das 1999 entstandene Oslo Corpus of Tagged Norwegian Texts an der Universität von Oslo enthält ca. 20 Millionen laufende Wortformen. Das Textspektrum reicht von Zeitungen/Zeitschriften über Unterhaltungsliteratur bis hin zu Fachtexten; das Metadatenformat entspricht dem Standard der IMS Corpus Workbench. Morphologische und syntaktische Annotationen wurden mit Hilfe zweier speziell entwickelter Tagger (Multitagger und dependenzgrammatischer disambiguierender Tagger) hinzugefügt.
  • Polnisch: Das von der "Polish Academy of Sciences" seit 2007 koordinierte National Corpus of Polish (NKJP) umfasst 1,8 Milliarden laufende Wortformen, von denen 300 Millionen in ein ausgewogenes und 1,2 Millionen in ein manuell annotiertes Subkorpus einfließen. Automatisch wurden drei Annotationslevel (morphologisch, syntaktisch, Named-Entities) mit den regelbasierten Tools Spejd und Sprout generiert. Sämtliche Buch- und Zeitungstexte wurden mit Metadaten (Autor, Titel, Erscheinungsjahr usw.) versehen.
  • Portugiesisch: Das "Centro de Linguística" der Universität Lissabon stellt das Reference Corpus of Contemporary Portuguese (CRPC) mit ca. 310 Millionen laufenden Wortformen bereit. Der Schwerpunkt liegt auf geschriebenen Texten ab 1970; ein kleines Subkorpus gesprochener Sprache wurde mit EXMARaLDA aligniert. Die Inhalte stammen aus portugiesischen und außereuropäischen Quellen und wurden um geografische, thematische sowie autorenspezifische Metadaten ergänzt. Für die Tokenisierung kam der LX tokenizer, für die Lemmatisierung eine portugiesische Version von MBLEM und für die Wortarterkennung der MBT-Tagger zum Einsatz.
  • Rumänisch: Das 2012 kompilierte Romanian Balanced Annotated Corpus (ROMBAC) an der Rumänischen Akademie in Bukarest umfasst ca. 44 Millionen laufende Wortformen. Es ist hinsichtlich fünf möglicher Ausprägungen des Parameters "Genre" (journalistisch, medizinisch, juristisch, biografisch, fiktional) ausgewogen. Linguistische Annotationen (Token, Lemma, POS, Satzkonstituenten) wurden unter Einsatz der TTL-Plattform erstellt, wobei die morphosyntaktische Annotation auf Hidden Markov Modellen (HMM) und die syntaktische Annotation auf Shallow Parsing beruht. ROMBAC bildet die Grundlage eines zukünftigen Referenzkorpus namens CoRoLa, das ca. 500 Millionen Wortformen aufnehmen soll. Geplant ist eine Anreicherung um weitere Annotations- und Metadatentypen; ein Teil des Korpus soll als syntaktisch annotierte Baumbank vorgehalten werden.
  • Russisch: Das an der Moskauer "Russian Academy of Sciences" koordinierte Russian National Corpus (RNC) ist seit 2003 im Aufbau und umfasst momentan ca. 300 Millionen laufende Wortformen. Der Schwerpunkt liegt auf geschriebener Sprache (Zeitungen/Zeitschriften, Fachtexte, Belletristik, Poesie, Korrespondenz), des Weiteren wird ein multimediales Subkorpus für Spontansprache aufgebaut. Neben einer genrebasierten Textklassifikation enthalten die Metadaten Publikationsjahr, regionale Zuordnung und Autorenspezifika. Maschinell generiert wurden morphosyntaktische Annotationen sowie eine lexikonbasierte semantische Annotation unter Verwendung einer Taxonomie; für Teilkorpora sind Akzent, rhythmische Gliederung u. A. kodiert.
  • Schwedisch: Die seit 1975 an der Universität von Göteborg angesiedelte Språkbanken enthält ca. 1,3 Milliarden laufende Wortformen aus literarischen und journalistischen Quellen, aber auch Weblogs oder das schwedische Europarl-Korpus; textspezifische Metadaten sind im CMDI/ISOCat-Format kodiert. Mit Hilfe von Eigenentwicklungen und freien Tools wurden morphosyntaktische Kategorien maschinell annotiert, für die Auszeichnung von Dependenzrelationen kam der MaltParser zum Einsatz. Als lexikalische Ressource für semantische Annotationen dient der SALDO-Thesaurus.
  • Slowenisch: Im vom nationalen Wissenschaftsministerium verantworteten Korpus GigaFIDA kann nach ca. 1,2 Milliarden laufenden Wortformen recherchiert werden. Es enthält seit 1990 publizierte Texte aus Sachbüchern, Unterhaltungsliteratur, Zeitungen/Zeitschriften, Online-Portalen, parlamentarischen Reden usw. Soweit verfügbar, wurden zu den üblichen textspezifischen Metadaten soziologische Angaben über den Autor hinzugefügt. Die maschinelle morphosyntaktische Annotation wurde vermittels des statistischen Taggers Obeliks durchgeführt.
  • Spanisch: Das im Rahmen des "Spanish FrameNet (SFN)" zusammengestellte Corpus del Español Actual (CEA) umfasst 540 Millionen laufende Wortformen. Es besteht im Wesentlichen aus den spanischen Beiträgen des Europarl-Korpus (1996-2010), des Wikicorpus (2006) und des MultiUN-Korpus der Vereinten Nationen (2000-2009) mit ihren entsprechenden Metadaten. Geparst und morphosyntaktisch annotiert wurde es an der Universität von Barcelona unter Einbeziehung lexikalischer Ressourcen und Finite State-Werkzeugen zur Disambiguierung.
  • Tschechisch: Das Tschechische Nationalkorpus (Cesky Národní Korpus, CNK) an der Universität Prag versammelt in seinen "SYN"-Subkorpora ca. 2,2 Milliarden laufende Wortformen. Der überwiegende Anteil stammt aus Zeitungen und Zeitschriften ab 1990, kleinere Subkorpora enthalten Belletristik, Korrespondenz u. A. Textspezifische Metadaten wie Titel, Autor oder Publikationsjahr wurden um eine auf Register/Domäne basierende Klassifizierung ergänzt, die die Grundlage für die quantitative Korpusgewichtung bildet. Morphosyntaktische Kategorien annotierte ein Head-Driven-Chartparser, für die Disambiguierung wurden probabilistische Methoden implementiert.
  • Türkisch: Das an der Universität von Mersin entwickelte Türkische Nationalkorpus TNC enthält 50 Millionen laufende Wortformen aus vornehmlich geschriebenen Quellen (2% gesprochene Sprache) ab 1990. Das Korpus ist auf der Basis von Publikationsjahr, Domäne und Medium ausgewogen, jeder Text ist darüber hinaus mit autorenspezifischen Metadaten versehen. Für das POS-Tagging wurde ein regelbasierter Ansatz mit einer probabilistischen Analyse kombiniert.
  • Ungarisch: Seit 1998 ist das ausgewogene Hungarian National Corpus (HNC) an der Ungarischen Akademie der Wissenschaften (HAS) in Budapest beheimatet. Es enthält momentan ca. 190 Millionen laufende Wortformen, unterteilt in je fünf Genre- und Region-spezifische Subkorpora. Für die morphologische Analyse (Lemma, POS, Flexionsinformationen) wurde der speziell entwickelte Humor-Parser eingesetzt, die automatische Disambiguierung übernahm Thorsten Brants TnT-Tagger.

Hinweise auf fehlende/fehlerhafte Angaben zu Korpusinhalten bzw. verwendeten Werkzeugen sind willkommen!

© IDS Mannheim. Zuletzt geändert am 23.04.2017 23:53.