KORPUSKONSTRUKTION UND ANALYSE MIT KORAP - Marc Kupietz & Rainer Perkuhn - Potenzial europäischer Korpora für linguistische Fragestellungen: ...

Die Seite wird erstellt Kuno Heinemann
 
WEITER LESEN
KORPUSKONSTRUKTION UND ANALYSE MIT KORAP - Marc Kupietz & Rainer Perkuhn - Potenzial europäischer Korpora für linguistische Fragestellungen: ...
Marc Kupietz & Rainer Perkuhn

 KORPUSKONSTRUKTION UND
 ‐ANALYSE MIT KORAP
 Potenzial europäischer Korpora für linguistische Fragestellungen:
 Theorie – Methodik – Anwendungsmöglichkeiten, Sommerschule
 Paris, 08.07.2021

 1 / 80
KORPUSKONSTRUKTION UND ANALYSE MIT KORAP - Marc Kupietz & Rainer Perkuhn - Potenzial europäischer Korpora für linguistische Fragestellungen: ...
ÜBERBLICK

 . Einleitung: DeReKo und seine Analyseplattformen
 . Korpuskonstruktion mit KorAP
 . Verwendung linguistischer Annotationen
 . Beispiele musterbasierter Anfragen mit KorAP
 . KorAP-Anfragen aus R und Python

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 2 / 80
KORPUSKONSTRUKTION UND ANALYSE MIT KORAP - Marc Kupietz & Rainer Perkuhn - Potenzial europäischer Korpora für linguistische Fragestellungen: ...
1. EINLEITUNG: DEREKO UND
 SEINE ANALYSEPLATTFORMEN

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 3 / 80
KORPUSKONSTRUKTION UND ANALYSE MIT KORAP - Marc Kupietz & Rainer Perkuhn - Potenzial europäischer Korpora für linguistische Fragestellungen: ...
DEUTSCHES REFERENZKORPUS DEREKO

 dient als empirische Grundlage ür die germanistische

 Sprachwissenscha

 bildet den deutschen Schri sprachgebrauch kontinuierlich ab

 enthält ein großes Spektrum an Texttypen

 belletristische, wissenscha liche und populärwissenscha liche Texte,

 Pressetexte, Gebrauchstexte, verschri lichte gesprochene Sprache, IBK

 abgedeckter Zeitraum ca. 1956 bis heute

 ist mehrfach linguistisch annotiert

 wird laufend erweitert

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 4 / 80
KORPUSKONSTRUKTION UND ANALYSE MIT KORAP - Marc Kupietz & Rainer Perkuhn - Potenzial europäischer Korpora für linguistische Fragestellungen: ...
VIELEN DANK AN ALLE LIZENZSPENDER!

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 5 / 80
KORPUSKONSTRUKTION UND ANALYSE MIT KORAP - Marc Kupietz & Rainer Perkuhn - Potenzial europäischer Korpora für linguistische Fragestellungen: ...
DEREKO-WACHSTUM

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 6 / 80
KORPUSKONSTRUKTION UND ANALYSE MIT KORAP - Marc Kupietz & Rainer Perkuhn - Potenzial europäischer Korpora für linguistische Fragestellungen: ...
KORPUSGRÖSSE
 Mehr Daten sind immer noch bessere Daten (c.p.)

 besonders in der Linguistik

 weil sprachliche Häu gkeitsverteilungen typischerweise

 durch eine große Anzahl seltener Ereignisse (LNRE)
 gekennzeichnet sind

 mit einem sehr langen »Long Tail«

 mit den sprachlich interessanten Phänomenen irgendwo im

 Long Tail

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 7 / 80
KORPUSKONSTRUKTION UND ANALYSE MIT KORAP - Marc Kupietz & Rainer Perkuhn - Potenzial europäischer Korpora für linguistische Fragestellungen: ...
HÄUFIGKEITSVERTEILUNG VON WORTFORMEN
 wenn man sie ihrem Häu gkeitsrang nach sortiert

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 8 / 80
KORPUSKONSTRUKTION UND ANALYSE MIT KORAP - Marc Kupietz & Rainer Perkuhn - Potenzial europäischer Korpora für linguistische Fragestellungen: ...
WEITERE URSACHEN FÜR SELTENE EREIGNISSE

 seltene Ereignisse entstehen auch sehr o durch

 Kombinationen verschiedener Faktoren

 z. B. wenn die Zielworthäu gkeit über die Zeit in einer

 bestimmten Textsorte beobachtet wird

 Wortkombination

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 9 / 80
KORPUSKONSTRUKTION UND ANALYSE MIT KORAP - Marc Kupietz & Rainer Perkuhn - Potenzial europäischer Korpora für linguistische Fragestellungen: ...
FAQ: WIE GROSS SOLLTE EIN KORPUS MINDESTENS SEIN?
 das hängt ganz von der Forschungsfrage ab

 die Antwort kann meist erst nach einer ersten Auswertung

 gegeben werden:

 Sind die Ergebnisse auf dem vorgesehenen Kon denzniveau signi kant?

 Gibt es alternative Interpretationen der Ergebnisse?

 Auf welche Sprachdomäne sind die Befunde verallgemeinerbar?

 In jedem Fall gilt: Kleine Daten sind besser als keine Daten!

 ebenso wichtig wie die Größe: die Streuung, d.h. die

 Abdeckung der relevanter Schichten

 sonst könnte man einen Korpus einfach kopieren und er wäre doppelt so

 groß

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 10 / 80
DIVERSITÄT: REGIONEN
 Abdeckung des deutschsprachigen Raums durch Pressequellen

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 11 / 80
DIVERSITÄT: TEXTTYPEN
 Viele Publikums- und Fachzeitschriften seit DeReKo-2018-I

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 12 / 80
DIVERSITÄT: ZIELGRUPPEN
 Kinder- und Jugendliteratur

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 13 / 80
INTERNETBASIERTE KOMMUNIKATION

 Dortmunder Chatkorpus

 in Zus. mit Angelika Storrer und CHAT2CLARIN-Projekt

 Usenet-News:

 vollständige de.-Hierarchie (2013-2016 (100 Mio. Wörter)

 Wikipedia-Diskussionen:

 seit 2013 alle zwei Jahre neue Ausgaben aller Nutzer- und

 Artikeldiskussionen (~ 1 Mrd. Tokens)

 bereit zum Download

 auch fremdsprachige Wikipedia+Diskussionen

 Twitter-Sample-Korpus ab D R K -2022-I

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 14 / 80
HAUPTZUGANG ZU DEREKO: COSMAS II
 https://cosmas2.ids-mannheim.de/

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 15 / 80
COSMAS II
 https://cosmas2.ids-mannheim.de/ (Bodmer 1996)

 seit 2002 im ö entlichen Betrieb

 ca. 45.000 registrierte Benutzer

 viele ausgerei e Funktionalitäten

 aber der Entwicklungsbeginn war bereits 1994
 ➞ jede Erweiterung ist extrem aufwändig

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 16 / 80
NACHFOLGESYSTEM: KORAP
 https://korap.ids-mannheim.de/ (Bański et al. 2013)

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 17 / 80
KORAP

 seit 2017 im › ‹
 beta -Betrieb

 wird COSMAS II sukzessive ablösen

 wenn folgende fehlende Funktionalitäten implementiert sind:

 Sortierung und Aggregierung von Suchtre ern

 Kookkurrenzanalyse

 (Suche auf Satzzeichen)

 bereits viele Verbesserungen gegenüber COSMAS II …

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 18 / 80
NIEDRIGSCHWELLIGER EINSTIEG
 Information-on-Demand-Ansatz (Diewald et al. 2020)

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 19 / 80
COSMAS-II-LOGIN

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 20 / 80
PRINZIPIELL UNBESCHRÄNKTE KORPUSGRÖSSE

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 21 / 80
ÜBERBLICK ÜBER DIE DATENGRUNDLAGE
 (unter ➞ Korpora )

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 22 / 80
MEHRERE ANFRAGESPRACHEN
 COSMAS II, Poliqarp+ (CQP-Dialekt, entwickelt für NKJP), …

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 23 / 80
PRINZIPIELL UNBESCHRÄNKTE ANZAHL VON ANNOTATIONSSCHICH
 Derzeit …

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 24 / 80
DEFINITION VIRTUELLER KORPORA ANHAND VON METADATEN
 Beispiel: Zeitungen aus der Schweiz von 1997-1999

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 25 / 80
2. KORPUSKONSTRUKTION MIT
 KORAP
 A (synchronic) corpus can be de ned as: “ a collection of (1) machine-readable (2)

 authentic texts (including transcripts of spoken data) which is (3) sampled to be (4)

 representative of a particular language or language variety” )

 (McEnery et al. 2006)

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 26 / 80
DEREKO-BESONDERHEIT
 DeReKo strebt weder »Repräsentativität« noch
 »Ausgewogenheit« an
 ein Korpus kann weder allgemein repräsentativ noch

 allgemein ausgewogen sein (Kupietz 2015)

 Grundgesamtheit / Sprache / Sprachdomäne ist nicht

 allgemein de nierbar

 was ist ausgewogen?

 50% Zeitung - 30% Gebrauchstexte - 20% Belletristik?

 50% Gebrauchstexte - 30% Belletristik - 20% Zeitung?

 ➞ ob ein Korpus repräsentativ ist oder nicht hängt von der

 Fragestellung und ihrer Sprachdomäne ab

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 27 / 80
DAHER …

 ist D R K nicht primär als gebrauchsfertige Stichprobe des

 Sprachgebrauchs gedacht

 sondern als so genannte Urstichprobe,

 die Nutzer*innen einlädt

 sich selbst virtuelle Korpora zusammenzustellen

 die bzgl. jeweiligen Sprachdomäne und Fragestellung möglichst adäquat /

 repräsentativ sind

 typischerweise iterativer Verfeinerungsprozess

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 28 / 80
VORTEILE DES URSTICHPROBEN-DESIGNS
 optimale Nutzbarkeit der Daten ür die maximale Anzahl

 potenziell relevanter Fragestellungen

 relative Besetzung einzelner Strata ist irrelevant

 entscheidend sind absolute Größen

 optimierbares Kosten-/Nutzenverhältnis bei der

 Korpusakquisition

 »geschenkte Daten müssen nicht abgelehnt werden«

 gesonderter Au bau von Spezialkorpora wird teilweise

 über üssig

 kontrastive Untersuchungen z.B. zwischen Varietäten sind

 leicht zu realisieren

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 29 / 80
HERAUSFORDERUNGEN

 Nutzer*innen müssen selbst Verantwortung ür die

 Adäquatheit der Stichprobe tragen

 besonders relevant bei quantitativen Untersuchungen,

 aber auch sonst

 ür Anbieter: hoher technischer Aufwand:

 Unterstützung der Konstruktion virtueller Korpora

 relative Häu gkeiten müssen immer neu berechnet werden

 … teilweise ür D R K noch ungelöst

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 30 / 80
DEFINITION VIRTUELLER KORPORA IN COSMAS II
 Beispiel: Schweizer Zeitungskorpus 1997-1999 (recht umständlich)

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 31 / 80
DEFINITION VIRTUELLER KORPORA IN KORAP
 Beispiel: Schweizer Zeitungskorpus 1997-1999

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 32 / 80
»STRATIFIZIERTES SUB-SAMPLING« MIT KORAP

 mit KorAP können virtuelle Korpora anhand einer beliebigen

 Kombination von Metadaten-Bedingungen dynamisch

 de niert werden

 die so de nierten Korpora können nachgenutzt und persistent

 gemacht werden

 noch nicht implementiert ist eine Funktion zur Ziehung von

 Zufallsstichproben bestimmter Größe

 ➞ Korpusde nitionen der Art »50% Zeitung + 50% Belletristik«

 sind zur Zeit noch nur über Umwege möglich

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 33 / 80
CORPUS BY EXAMPLE
 De nition virtueller Korpora anhand von Suchtreffern: Wikipedia-Diskussionen (➞ Video)

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 34 / 80
HANDS-ON-BEISPIELE FÜR KORPUSDEFINITIONEN
 mittels Corpus by Example / Match

 Texte zum Thema Wirtscha während der Finanzkrise

 Pressetexte aus Österreich

 ohne Wikipedia-Benutzerdiskussionen

 direkte De nition:

 ganz ohne Wikipedia:

 corpusTitle ne /Wikipedia.*/

 Belletristik:

 textType eq /.*

 (Roman|roman|Prosa|Schauspiel|Geschichte|geschichte|Novelle).*/

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 35 / 80
3. VERWENDUNG
 LINGUISTISCHER
 ANNOTATIONEN

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 36 / 80
LINGUISTISCHE ANNOTATIONEN

 sind unerlässlich, um abstrakte linguistische Kategorien in

 Korpora zu nden

 Konstruktionen wie z.B.:

 ›heißt‹ gefolgt von zwei Verben im In nitiv

 könnte man nicht durch Aufzählungen von Strings nden

 und kaum mit Hilfe von regulären Ausdrücken

 mit Hilfe von KorAP's Suche in Wortart-Annotationen

 dagegen sehr einfach

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 37 / 80
SUCHE IN ANNOTATIONEN MIT KORAP
 ›heißt‹ gefolgt von zwei In nitivverben (laut TreeTagger-POS-Annotationen)

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 38 / 80
VORSICHT VOR FEHLERN!

 berichtete durchschnittliche Genauigkeit von >95% ür POS-

 Annotationen klingt gut, das heißt aber:
 15
 jeder 2. Satz ist falsch annotiert (0.95 = 0.46 )

 2,5 Milliarden Wörter in D R K sind falsch annotiert

 und wir können nicht erwarten, dass die Fehler günstig

 verteilt sind

 und es gibt Fehler, die man nicht ohne Weiteres bemerkt

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 39 / 80
FEHLERTYPEN-EXKURSION
 ... zu unserem Kleintierfarm

 wo alle Tiere automatisch annotiert sind

 und wo wir die Kaninchenfarben untersuchen wollen

 ür die Abfrage "Kaninchen" liefert unser Abfrageprogramm

 die folgenden Ergebnisse

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 40 / 80
SUCHERGEBNIS FÜR „KANINCHEN“

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 41 / 80
ERSTE HYPOTHESE: KANINCHEN SIND SCHWARZ

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 42 / 80
HAT DER KLASSIFIKATOR FEHLER GEMACHT?

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 43 / 80
JA: ES GIBT ZWEI FALSCH POSITIVE!
 aber kein Problem: die Hypothese trifft immer noch zu

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 44 / 80
WENN WIR GENAUER HINSEHEN …
 gibt es aber auch falsch Negative, die die Hypothese widerlegen

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 45 / 80
HÄUFIGES PROBLEM BEIM MASCHINELLEN LERNEN
 Klassi katoren verlassen sich auf nicht erwartete/intendierte Features (Müller 2017)

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 46 / 80
FEHLERTYPEN-BEISPIEL

 wir suchen nach Sätzen, die eine bestimmte Folge von 4 POS

 Tags enthalten

 die Korpusabfrage ergibt 20.000 Tre er

 4
 wenn die Genauigkeit des Ergebnisses etwa 75% beträgt (≈ 0, 93 )

 wir haben etwa 2.500 falsche Tre er ( falsch Positive)
 schlechte Nachrichten, aber kein Problem: wir können sie manuell

 aussortieren

 außerdem werden wir etwa 2.500 Sätze nicht nden, nach

 denen wir gesucht haben: falsche Negative
 was, wenn die (ungesehenen!) falsch Negativen die Schlussfolgerungen

 widerlegen, die wir auf Grundlage von gesehenen Daten getro en haben?

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 47 / 80
VERTEILUNG VON FEHLERN
 Gleichmäßige Verteilung: nicht realistisch

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 48 / 80
REALISTISCHERE FEHLERVERTEILUNG

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 49 / 80
FOKUS LINGUISTISCHER UNTERSUCHUNGEN?
 Fokus auf zentrale Phänomene – eher selten

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 50 / 80
FOKUS LINGUISTISCHER UNTERSUCHUNGEN
 realistischer

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 51 / 80
NOCH UNGLEICHMÄSSIGERE FEHLERVERTEILUNG ZU ERWARTEN

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 52 / 80
SCHLUSSFOLGERUNGEN FÜR ANNOTATIONSNUTZUNG
 Vorsicht

 linguistische Annotationen sind Interpretationen und keine

 Beobachtungen

 95% Genauigkeit kann ziemlich irre ührend sein

 Genauigkeit variiert stark mit der Anfrage

 Vorsicht vor den unsichtbaren falsch Negativen

 ➞ Suchanfragen müssen meistens mehrfach angepasst werden

 um falsch Positive / Negative Schritt ür Schritt zu verringern

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 53 / 80
SCHLUSSFOLGERUNG FÜR DEREKO:
 »Im Zweifelsfall lieber eine zweite Meinung einholen«

 mehrere konkurrierende Annotationen auf derselben Ebene

 bereitstellen

 erzeugt durch verschiedene Werkzeuge

 basierend auf verschiedenen Methoden

 idealerweise trainiert auf verschiedenen Daten

 um:

 problematische Regionen im Annotationsraum zu identi zieren

 falsch Negative zu minimieren / den Recall zu maximieren

 außerdem: angemessener Umgang mit möglichen Fehlern

 vielleicht wichtiger als Steigerung der Genauigkeit

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 54 / 80
›DAS‹ ANNOTIERT ALS RELATIVPRONOMEN
 von Stanford CoreNLP Tools

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 55 / 80
›DAS‹ ANNOTIERT ALS RELATIVPRONOMEN
 von Stanford CoreNLP Tools ODER Tree-Tagger

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 56 / 80
4. BEISPIELE
 MUSTERBASIERTER ANFRAGEN
 MIT KORAP

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 57 / 80
ELEMENTE DER SUCHANFRAGESPRACHE POLIQARP+

 einfache Segmente:

 großer Baum
 komplexe Segmente und Wiederholungsoperatoren:

 [tt/l=groß] []{3} [tt/p=NN]
 Spannen:

 Funktionen:

 contains(, [tt/p=KON])

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 58 / 80
TAGSET FÜR DEREKO-WORTARTANNOTATIONEN: STTS
 (Schiller et al. 1999) ➞ Dokumentation

 Stuttgart-Tübingen-TagSet, der Standard ür das Deutsche

 enthält 54 Kategorien:

 ADJA, ADJD, ADV, APPR, APPRART, APPO, APZR, ART, CARD, FM, I TJ,

 KOUI, KOUS, KON, KOKOM, NN, NE, PDS, PDAT, PIS, PIAT, PIDAT, PPER,

 PPOSS, PPOSAT, PRELS, PRELAT, PRF, PWS, PWAT, PWAV, PAV, PTKZU,

 PTKNEG, PTKVZ, PTKAN T, PTKA, TRUNC, VVFIN, VVIMP, VVINF,

 VVIZU, VVPP, VAFIN, VAIMP, VAINF, VAPP, VMFIN, VMINF, VMPP, XY,

 \$,, \$., \$(

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 59 / 80
HILFSMITTEL 1: SUCHASSISTENT
 (➞ Video)

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 60 / 80
HILFSMITTEL 2: QUERY BY EXAMPLE
 Konstruktion und Erlernen komplexer Anfragen ohne Vorkenntnisse (➞ Video)

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 61 / 80
REGULÄRE AUSDRÜCKE (➞ Cheat-Sheet )
 Verbformen die mit ›ver‹ oder ›zer‹ beginnen und ein ›ö‹ enthalten
 
 [orth="[zv]er.*ö.*" & tt/p="V.*"] 
 in einem virtuellen Korpus  mit Poliqarp   Glimpse 
   

 BVZ10/DEZ/03332 Haubenlokal zerstört BRAND Das Restaurant „Blaue Gans“ und der „Club 119“ sind abgebrannt. Im April 2011 soll es ohne Weissgerber weiter g

 s“ wurde dabei zerstört . Um die Mittagszeit brach das Feuer im Obergeschoss im „Club 119“ aus. Die Löscharbeiten dauerten den ganzen Nachmitt

 BVZ10/DEZ/03323 aydn Akademie verwöhnt . www.haydnfestival.at

 BVZ10/DEZ/03390 OBI-Markt wird vergrößert , deshalb wird die Fläche benötigt. Eine Ära geht zu Ende: Miko-Möbel schließt mit 31.12. 2010 seine Pforten. „Es war ein
 ei

 BVZ12/DEZ/01956 nachtsgeschenk zerstört ! Es war für einen ganz besonderen Jungen, der sich ein Glasschwert wünschte! Ich habe es selbst angefertigt. Kommt, mei

 e früher. Leider versöhnten sich der Weihnachtsmann und das Christkind nie wieder. Engel und Wichtel feiern noch heute gemeinsam.

 BVZ09/DEZ/03300 fe des Herbstes veröffentlicht werden. "Die beiden Fachleute werden in den nächsten Wochen alle Fakten rund um die Messe prüfen, um eine konk

 BVZ10/DEZ/03452 Rapunzel - neu verföhnt “ sowie „Meine Frau, unsere Kinder und ich“ auf dem Programm, um 20.45 Uhr „Meine Frau, unsere Kinder und ich“, „Echte

 BVZ08/DEZ/02923 rnehmern sei's vergönnt . Im abgelaufenen Jahr wurde die Eisenstädter Fußgängerzone x-mal vom Niedergang bedroht und genauso oft in den Him
 ernehmern

 BVZ08/DEZ/03031 m sein 13. Buch veröffentlicht . Geschichten auf Kroatisch verfasst NEUBERG / Seit jeher ist der Neuberger Karl Knor dem Schreiben von Geschichte

 BVZ11/JUL/01630 ke Zmölnig (r.) verköstigten die Gäste beim Kirtag in Rax Bergen. Auch Kathrin Bakanic, Monika Hirtenfelder, Markus Weber, Bettina Somenek und

 BVZ08/DEZ/02994 welche noch nie veröffentlicht wurden und sich in St. Petersburg befinden, ausgestellt werden, so Lisztvereins-Obmann Manfred Fuchs. Rund 400 B

 BVZ10/DEZ/03562 den. Außerdem zerstört er die Bausubstanz.“ Renovierung würde rund eine Million Euro kosten Auch mit der derzeitigen Situation beim Lift zur Burg
  BVZ10/DEZ/03474
 
 hristian Pogats veröffentlicht : Laut Polizei starb er an einer Beruhigungsmittelvergiftung. SCHWEINEMAST VERLEGT NEUFELD Nachdem Landwirt K
 Christian

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 62 / 80
SUCHE AUF MORPHOLOGISCHEN ANNOTATIONEN
 Adjektiv im Superlativ + Adjektiv im Superlativ + Nomen

 mithilfe von uery by Example

 ausgehend von »die ehrlichste, anständigste Anlageform« ??

 fehlerha annotiert!

 ausgehend von »der höchste Preis«

 [marmot/m=degree:sup & marmot/p=ADJA]{2} [tt/p=NN]

 aber o enbar eine größere Menge an falsch Negativen zu erwarten!

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 63 / 80
SUCHE AUF KONSTITUENZ-ANNOTATIONEN
 mit Hilfe von »Spannen«: NP, die mit ‚pur‘ endet (mit Poliqarp+)
 
 endsWith(, [orth="pur"]) 
 in einem virtuellen Korpus  mit Poliqarp   Glimpse 
 > 6.893 Treffer   
 WUD17/E78/21897 15. Aug. 2013 ( CEST) Jaaaa, "hätte" ;-) Ich war froh, mit den befreundeten Fotografen aus der anderen Gruppe ab und zu ein paar Ges

 WUD17/D85/12644 CEST) Na ja, so etwas wie (pur )² = (Reinheits-Getreide) x (Reinheits-Rezeptur) = natürlicher Geschmack ist ja - mit Verlaub - reiner Marketing-Qu

 Na ja, so etwas wie (pur )² = (Reinheits-Getreide) x (Reinheits-Rezeptur) = natürlicher Geschmack ist ja - mit Verlaub - reiner Marketing-Quatsch u

 , das mit dem ( pur )² klingt zugegebenermaßen etwas Marketing-mäßig, ist aber halt der Name der neuen Brot-Sorten - könnte ich aber auf schlicht
 schlich

 WUD17/E67/14897 nnen (mal was "artfremd" älteres, Weiterbildung und RL pur ). Viel Erfolg bie WLM (irgndwann mach ich mal mit- revanchieren). MfG -- 12:59,
 önnen

 WUD17/A92/03317 rblich, sondern POV pur , übrigens egal von wem eingefügt. Allerdings hat sich das Problem ja inzwischen geklärt, wie ich gesehen habe. --Alnilam (
 erblich,

 WUD17/G81/13789 rt“, und da ist „ Darwin pur “ eben veraltet – genau wie die reduktionistischen Modelle des Neodarwinismus (sensu strictu). Aber was zu Darwins Ze

 WUD17/G68/66017 eich null. echt ' ne harte nummer hier.... sozusagen admin executive power pur . die wiki hat sich verändert.-- 08:17, 12. Apr. 2012 (CEST) d

 WUD17/C22/60721 mal einpflegen. Hier Natur pur . Grüße, 10:25, 9. Okt. 2007 (CEST) . Stammtisch L.E. Da du ja eifrig protokolliert hast, vielleicht kannst du den nic

 WUD17/C19/40028 Hölle gemacht. Eifersucht pur! Und auch war es schwer seinen Stand in der "Wir lieben Marie" Welt zu erringen. Aber mittlerweile sagt keiner meh

 WUD17/B31/99604 weil der Eintrag Theoriefindung pur war anhand ausschließlich alter Quellen. Zudem schien er felsenfest überzeugt von seiner These zu sein (was a

 WUD17/A59/29102 das bestreiten, Adminwillkür pur . Jungs, wenn euch das alles so langweilt wie es den Eindruck macht, gebt die Knöppe ab und gut ist. Allerdings k

 WUD17/G15/23207 aus den 60ern, POV pur , auch ist es nicht akzeptabel, daß hier nur private kommerzielle Links aufgeführt sind. Der Test steht wohl
  1 in2Zusammenha
 3  276 
  WUD17/D46/44977 s ist schon WP: VAN pur .-- schmitty. 01:49, 19. Aug. 2009 (CEST)
 
 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 64 / 80
SATZANNOTATION, NEGATION, FOKUS
 Tool zum Finden ähnlich verwendeter Wörter: ➞ DeReKoVecs
 
 focus(contains(, {[tt/p=VVFIN & tt/l!=machen & tt/l!=haben][tt/p=NN][orth=satt]})) 
 in einem virtuellen Korpus  mit Poliqarp   Glimpse 
 1.148 Treffer   
 A13/JUL/11132 t Der 1. August verspricht Sonne satt . Auf Balkonen ist oft aber nur ein Elektro-Grill erlaubt. Dieser gilt jedoch unter den Hardcore-Grilleuren als v

 M03/DEZ/84441 r in Oftersheim sahen Tore satt - aber keinen Sieg der Heimmannschaft. Rubios Doppelschlag brachte die SG mit 2:0 in Front, doch Seckenheim sc
 s

 RHP11/OKT/01882 an zum Cruisen braucht: Drehmoment satt , souverän entspannte Sitzhaltung, dazu eine gehörige Portion Coolness im Auftritt vor der Eisdiele ode

 RHP11/OKT/00598 ingabe Wittkes nagelte Toch satt unter die Latte (6.). Der Ex-Stuttgarter Schürg schoss weiter scharf, eine Glanzparade Wagners wuchtete der sp
 eingabe

 B00/SEP/81013 r grünen Wiese fährt, Parkplätze satt und kostenlos, rings um Berlin und schnell zu erreichen. Michael Bliß, Mahlow BAUEN Zu: "Schwere Vorwürfe
 Vorwürf

 B11/JUL/02051 Gleich obenauf liegen 16Chiquitas, satt gelb mit winzigen braunen Flecken. Rund herum Erdbeeren und Knupperkirschen, die Kay einzeln in eine

 B02/SEP/68182 stige Pillenclub gewann Image satt und wurde Weltchampion in Mitleidszuweisungen. Jetzt wird deftig verloren, und zwar in Serie, manchmal hap
 nstige

 B02/SEP/67545 ustrie dagegen warten Aufträge satt . Seite 27

 B04/MAI/34002 ls Maifestspiele bezeichnete Krawallritual satt hatten und andererseits von der Polizei, die bei dem erfolgreichen "Myfest" zunächst gar nicht zu s

 BRZ10/MAR/06458 aller haben die überlange Winterpause satt Die Trainer der Salzgitteraner Mannschaften sprechen über Testspielausfälle und Meisterschaftstipps
 baller

 BRZ07/JUN/06670 der Elbe auf. Es gibt Schlösser satt : Askanier, Anhalt-Zerbster, Dessauer, Oranier, Wettiner, der bildungsbeflissene Franz und der wollüstig-starke

 BRZ10/APR/01054 Im Innenraum herrscht Platz satt . Nicht nur Fahrer und Beifahrer haben mehr als ausreichend Kopf- und Ellenbogenfreiheit zur Verfügung, sonde

 BRZ06/APR/13670 burg und Mainz versprechen Tore satt . Unvergessen bleibt der 5:4-Sieg des VfL über den FSV am letzten Zweitliga-Spieltag der Saison
 1 2 1996/97.
 3  46 I
  BRZ08/SEP/02742
 
 s“ zu gehen. Es gab Kaffee satt und Obstkuchen – aber bitte mit Sahne! Der Kapitän erzählte den Besuchern die Geschichte der Stadt Hannover un

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 65 / 80
SUCHE AUF DEPENDENZ-ANNOTATIONEN
 Verb mit „Satz“ als dir. Objekt (mit Annis QL)
 
 orth="Satz" & pos=/V.*/ & #1 -> malt/d[func="OBJA"] #2 
 in einem virtuellen Korpus  mit Annis QL   Glimpse 
   

 WUD17/D96/85501 uch irren kann, habe aber nur den unmissverständlichen Satz : Die Filmografie wird aufsteigend sortiert, d. h. sie beginnt mit dem ältesten Film

 WUD17/E97/19126 t. Ich habe den Satz geändert . Beste Grüße und einen schönen Sonntag! -- 08:14, 3. Apr. 2016 (CEST) Scuderia Ferrari Hallo Erika, bezüglich dies

 WUD17/G98/07727 chert. Auch den Satz zum Rechtspopulismus finde ich eigentlich ganz angebracht, dass ursprünglich nicht unbedingt "rechte" Verschwörungstheo

 würde ihnen ein Satz reichen . Mich ärgert das. Dabei geht das auch anders. Aus eigener Erfahrung kann ich sagen, dass es selbst bei Themen aus d

 würde ihnen ein Satz reichen . Mich ärgert das. Dabei geht das auch anders. Aus eigener Erfahrung kann ich sagen, dass es selbst bei Themen aus d

 WUD17/G94/69192 nie selbst einen Satz geschrieben haben, aber gerne jedes Komma und jeden Satz hier kritisieren und Arbeit verteilen. Dennoch vielen Dank. -- 16

 WUD17/E97/17752 aus der pt:WP enthält folgender Satz m.M.n. 2 fehlerhafte Aussagen: Foi criada pelo Governo Provincial em 1855 e seu nome foi dado em homen
 home

 WUD17/B97/25982 016, als ich den Satz bemängelte , wirklich schon so geheißen? Ich habe den Eindruck, vor Tische las man anders; soll heißen, so war es damals no

 WUD17/F97/56982 den unbelegten Satz zurückänderst , dann korrigiere doch bitte die Rechschreibfehler und sorge dafür, dass keine unerklärten Abkürzungen dasteh

 WUD17/D99/46494 h versucht, den Satz umzuformulieren . Wenn es nur eine ist, dann müsste man das halt ändern. -- 18:35, 13. Sep. 2013 (CEST) Devotus: das ha

 WUD17/D97/65762 sehr einfacher Satz von Gesetzen ähnlich komplexe Eigenschaften hervorrufen kann, wie sie intellkigentes Leben aufweist. Es muss viele Sä

 WUD17/E96/91039 e da den ersten Satz komplett streichen und den Rest irgendwie neutral belegen.) "BENELUX" Bitte Normalschreibung " Fab-Kollegen" zu persönlic

 WUD17/A96/36964 gung von Lindl macht den nächsten Satz falsch. Und die Literatur mag für Lindl wichtig sein, aber sicher nicht für Schlatter-Bernet. -- 20:12, 21.
 ügung
  WUD17/833/33507
 
 m Bedauern den Satz mit den Schüßler-Salzen wieder eingefügt . Dergleichen Hokuspokus gehört leider zum Allgemeinwissen, und der Missbrauc
 Missbrau

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 66 / 80
5. KORAP-ANFRAGEN AUS R
 UND PYTHON

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 67 / 80
KORAP-API
 alle KorAP-Funktionalitäten sind auch über eine API

 zugänglich, z.B.

 De nition komplexer virtueller Korpora

 komplexe Anfragen

 Zugri auf Metadaten und quantitative Information ohne Login möglich

 zur Vereinfachung des Zugri s Bibliotheken ür R und Python

 besonders mit R auch ohne Programmierkenntnisse empfehlenswert:

 RStudio installieren

 Beispiel-Scripts kopieren, ein ügen und ggf. modi zieren

 ideal ür reproduzierbare und replizierbare Studien

 und zur Erstellung von Diagrammen und ganzen Reports

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 68 / 80
R-CLIENT-BEISPIEL
 Frequenzverlauf von voran- vs. nachgestelltem ›pur‹
 library(RKorAPClient)

 query = c("[tt/l=pur] [tt/p=NN]",
 "[tt/p=NN] pur")
 years = c(1980:2020)
 vc = "textType = /Zeit.*/ & availability!=QAO-NC-LOC:ids & pubDate in"

 new("KorAPConnection", verbose=T) %>%
 frequencyQuery(query, paste(vc, years), as.alternatives = T) %>%
 hc_freq_by_year_ci(as.alternatives = T)

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 69 / 80
OUTPUT DES BEISPIELS
 Frequenzverlauf von voran- vs. nachgestelltem ›pur‹
 100 %

 75 %

 50 %

 25 %

 0%
 1980 1985 1990 1995 2000 2005 2010 2015 2020

 [tt/l=pur] [tt/p=NN] [tt/p=NN] pur
 KorAP R Client Package

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 70 / 80
R-CLIENT-BEISPIEL
 Frequenzverlauf von »Sinn machen« vs. »Sinn ergeben«
 library(RKorAPClient)

 query = c("[tt/l=machen] []{0,3} [tt/l=Sinn]",
 "[tt/l=ergeben] []{0,3} [tt/l=Sinn]")
 years = c(1980:2010)
 vc = "textType = /Zeit.*/ & availability!=QAO-NC-LOC:ids & pubDate in"

 new("KorAPConnection", verbose=T) %>%
 frequencyQuery(query, paste(vc, years), as.alternatives = TRUE) %>%
 hc_freq_by_year_ci(as.alternatives = TRUE)

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 71 / 80
OUTPUT DES BEISPIELS
 100 %

 75 %

 50 %

 25 %

 0%
 1980 1985 1990 1995 2000 2005 2010

 [tt/l=machen] []{0,3} [tt/l=Sinn] [tt/l=ergeben] []{0,3} [tt/l=Sinn]
 KorAP R Client Package

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 72 / 80
PYTHON-CLIENT BEISPIEL: FREQUENZVERLAUF
 von Sinn machen vs. Sinn ergeben 1980-2010
 from KorAPClient import KorAPConnection
 import plotly.express as px
 import pandas as pd

 years = list(range(1980, 2011))
 query = ["[tt/l=machen] []{0,3} [tt/l=Sinn]", \
 "[tt/l=ergeben] []{0,3} [tt/l=Sinn]"]
 df = pd.DataFrame({'year': years, \
 'vc': ["textType = /Zeit.*/ & availability!=QAO-NC-LOC:ids " +
 f"& pubDate in {y}" for y in years]}) \
 .merge(pd.DataFrame(query, columns=["variant"]), how='cross')

 results = KorAPConnection() \
 .frequencyQuery(df['variant'], df['vc'], **{"as.alternatives": True})

 df = pd.concat([df, results.reset_index(drop=True)], axis=1)
 px.line(df, x="year", y="f", color="variant").show()

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 73 / 80
KOOKKURRENZANALYSE ÜBER DIE ZEIT
 Sinn ergeben vs. Sinn machen
 library(RKorAPClient)
 library(tidyverse)
 library(highcharter)
 node = c("Sinn")
 collocate = c("machen", "ergeben")
 years = c(1990:2020)
 vc = paste("textType = /Zeit.*/ & pubDate in", years)
 conditions %
 collocationScoreQuery(node, conditions$collocate, conditions$vc,
 lemmatizeNodeQuery=T,
 lemmatizeCollocateQuery=T) %>%
 rename(Jahr=label) %>%
 hchart(type="line", hcaes(Jahr, logDice, group=collocate)) %>%
 hc_add_onclick_korap_search() %>%
 print()

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 74 / 80
KOOKKURRENZSTÄRKEN-VERLAUF
 »Sinn ergeben« vs. »Sinn machen«
 8

 7
 logDice

 6

 5

 4
 90
 91
 92
 93
 94
 95
 96
 97
 98
 99
 00
 01
 02
 03
 04
 05
 06
 07
 08
 09
 10
 11
 12
 13
 14
 15
 16
 17
 18
 19
 20
 20
 19
 19
 19
 19
 19
 19
 19
 19
 19
 19
 20
 20
 20
 20
 20
 20
 20
 20
 20
 20
 20

 20
 20
 20
 20
 20
 20
 20
 20
 20
 Jahr

 [tt/l=ergeben] [tt/l=machen]

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 75 / 80
KONTRASTIERUNG VON VARIETÄTEN
 »wegen dem NN« in DE, AT, CH
 library(RKorAPClient)

 jahre %
 hc_freq_by_year_ci(smooth = T) %>%
 print()

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 76 / 80
OUTPUT: FREQUENZVERLÄUFE ABHÄNGIG VOM HERKUNFTSLAND
 »wegen dem NN« in DE, AT, CH

 wegen dem [tt/p=NN]
 3

 2
 ipm

 1

 0
 2000 2002 2004 2006 2008 2010 2012 2014 2016 2018 2020

 DE AT CH
 KorAP R Client Package

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 77 / 80
VIELEN DANK FÜR IHRE
 AUFMERKSAMKEIT!
 korpuslinguistik@ids-mannheim.de

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 78 / 80
REFERENZEN

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 79 / 80
REFERENZEN
 Bański, P., Bingel, J., Diewald, N., Frick, E., Hanl, M., Kupietz, M., Pęzik, P., Schnober, C. Witt, A. (2013):
 KorAP: the new corpus analysis platform at IDS Mannheim. In: Zygmunt Vetulani and Hans Uszkoreit (eds).: Human Language Technologies as a Challenge for Computer Science
 and Linguistics. Fundacja Uniwersytetu im. A. Mickiewicza, Poznań.
 Biber, Douglas (1993):
 Representativeness in Corpus Design. Literary and Linguistic Computing 8(4). 243–257..
 Bodmer, Franck (1996):
 Aspekte der Abfragekompononente von COSMAS-II. LDV-INFO. Informationsschrift der Arbeitsstelle Linguistische Datenverarbeitung, 8:112–122.
 Kupietz, M. (2015):
 Constructing a corpus. In: Durkin, P. (ed.): Oxford Handbook of Lexicography. OUP.
 McEnery, Tony / Xiao, Richard / Tono, Yukio (2006):
 Corpus-based language studies: An advanced resource book. Taylor & Francis.
 Mindt, I. (2010):
 Methoden der Korpuslinguistik: Der korpus-basierte und der korpus-geleitete Ansatz. In I. Kratochvílová & N. R. Wolf (Eds.), Kompendium Korpuslinguistik. Eine Bestandsaufnahme
 aus deutsch-tschechischer Perspektive (pp. 53–65). Heidelberg: Winter.
 Müller, Klaus-Robert (2017):
 Machine learning and applications. Presentation given at Leibniz MMS Days 2017. February 22, Hannover.
 Schiller, Anne / Simone Teufel / Christine Stöckert / Christine Thielen (1999):
 Guidelines für das Tagging deutscher Textcorpora mit STTS.
 Technical report, Institut für maschinelle Sprachverarbeitung, Universität Stuttgart, 1999.
 Schmid, Helmut (1994):
 Probabilistic Part-of-Speech Tagging Using Decision Trees. In Proceedings of the International Conference on New Methods in Language Processing,
 Sinclair, J. (2004):
 Trust the Text. London: Routledge.

 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 80 / 80
Sie können auch lesen