KORPUSKONSTRUKTION UND ANALYSE MIT KORAP - Marc Kupietz & Rainer Perkuhn - Potenzial europäischer Korpora für linguistische Fragestellungen: ...
←
→
Transkription von Seiteninhalten
Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten
Marc Kupietz & Rainer Perkuhn KORPUSKONSTRUKTION UND ‐ANALYSE MIT KORAP Potenzial europäischer Korpora für linguistische Fragestellungen: Theorie – Methodik – Anwendungsmöglichkeiten, Sommerschule Paris, 08.07.2021 1 / 80
ÜBERBLICK . Einleitung: DeReKo und seine Analyseplattformen . Korpuskonstruktion mit KorAP . Verwendung linguistischer Annotationen . Beispiele musterbasierter Anfragen mit KorAP . KorAP-Anfragen aus R und Python Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 2 / 80
1. EINLEITUNG: DEREKO UND SEINE ANALYSEPLATTFORMEN Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 3 / 80
DEUTSCHES REFERENZKORPUS DEREKO dient als empirische Grundlage ür die germanistische Sprachwissenscha bildet den deutschen Schri sprachgebrauch kontinuierlich ab enthält ein großes Spektrum an Texttypen belletristische, wissenscha liche und populärwissenscha liche Texte, Pressetexte, Gebrauchstexte, verschri lichte gesprochene Sprache, IBK abgedeckter Zeitraum ca. 1956 bis heute ist mehrfach linguistisch annotiert wird laufend erweitert Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 4 / 80
VIELEN DANK AN ALLE LIZENZSPENDER! Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 5 / 80
DEREKO-WACHSTUM Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 6 / 80
KORPUSGRÖSSE Mehr Daten sind immer noch bessere Daten (c.p.) besonders in der Linguistik weil sprachliche Häu gkeitsverteilungen typischerweise durch eine große Anzahl seltener Ereignisse (LNRE) gekennzeichnet sind mit einem sehr langen »Long Tail« mit den sprachlich interessanten Phänomenen irgendwo im Long Tail Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 7 / 80
HÄUFIGKEITSVERTEILUNG VON WORTFORMEN wenn man sie ihrem Häu gkeitsrang nach sortiert Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 8 / 80
WEITERE URSACHEN FÜR SELTENE EREIGNISSE seltene Ereignisse entstehen auch sehr o durch Kombinationen verschiedener Faktoren z. B. wenn die Zielworthäu gkeit über die Zeit in einer bestimmten Textsorte beobachtet wird Wortkombination Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 9 / 80
FAQ: WIE GROSS SOLLTE EIN KORPUS MINDESTENS SEIN? das hängt ganz von der Forschungsfrage ab die Antwort kann meist erst nach einer ersten Auswertung gegeben werden: Sind die Ergebnisse auf dem vorgesehenen Kon denzniveau signi kant? Gibt es alternative Interpretationen der Ergebnisse? Auf welche Sprachdomäne sind die Befunde verallgemeinerbar? In jedem Fall gilt: Kleine Daten sind besser als keine Daten! ebenso wichtig wie die Größe: die Streuung, d.h. die Abdeckung der relevanter Schichten sonst könnte man einen Korpus einfach kopieren und er wäre doppelt so groß Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 10 / 80
DIVERSITÄT: REGIONEN Abdeckung des deutschsprachigen Raums durch Pressequellen Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 11 / 80
DIVERSITÄT: TEXTTYPEN Viele Publikums- und Fachzeitschriften seit DeReKo-2018-I Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 12 / 80
DIVERSITÄT: ZIELGRUPPEN Kinder- und Jugendliteratur Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 13 / 80
INTERNETBASIERTE KOMMUNIKATION Dortmunder Chatkorpus in Zus. mit Angelika Storrer und CHAT2CLARIN-Projekt Usenet-News: vollständige de.-Hierarchie (2013-2016 (100 Mio. Wörter) Wikipedia-Diskussionen: seit 2013 alle zwei Jahre neue Ausgaben aller Nutzer- und Artikeldiskussionen (~ 1 Mrd. Tokens) bereit zum Download auch fremdsprachige Wikipedia+Diskussionen Twitter-Sample-Korpus ab D R K -2022-I Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 14 / 80
HAUPTZUGANG ZU DEREKO: COSMAS II https://cosmas2.ids-mannheim.de/ Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 15 / 80
COSMAS II https://cosmas2.ids-mannheim.de/ (Bodmer 1996) seit 2002 im ö entlichen Betrieb ca. 45.000 registrierte Benutzer viele ausgerei e Funktionalitäten aber der Entwicklungsbeginn war bereits 1994 ➞ jede Erweiterung ist extrem aufwändig Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 16 / 80
NACHFOLGESYSTEM: KORAP https://korap.ids-mannheim.de/ (Bański et al. 2013) Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 17 / 80
KORAP seit 2017 im › ‹ beta -Betrieb wird COSMAS II sukzessive ablösen wenn folgende fehlende Funktionalitäten implementiert sind: Sortierung und Aggregierung von Suchtre ern Kookkurrenzanalyse (Suche auf Satzzeichen) bereits viele Verbesserungen gegenüber COSMAS II … Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 18 / 80
NIEDRIGSCHWELLIGER EINSTIEG Information-on-Demand-Ansatz (Diewald et al. 2020) Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 19 / 80
COSMAS-II-LOGIN Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 20 / 80
PRINZIPIELL UNBESCHRÄNKTE KORPUSGRÖSSE Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 21 / 80
ÜBERBLICK ÜBER DIE DATENGRUNDLAGE (unter ➞ Korpora ) Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 22 / 80
MEHRERE ANFRAGESPRACHEN COSMAS II, Poliqarp+ (CQP-Dialekt, entwickelt für NKJP), … Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 23 / 80
PRINZIPIELL UNBESCHRÄNKTE ANZAHL VON ANNOTATIONSSCHICH Derzeit … Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 24 / 80
DEFINITION VIRTUELLER KORPORA ANHAND VON METADATEN Beispiel: Zeitungen aus der Schweiz von 1997-1999 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 25 / 80
2. KORPUSKONSTRUKTION MIT KORAP A (synchronic) corpus can be de ned as: “ a collection of (1) machine-readable (2) authentic texts (including transcripts of spoken data) which is (3) sampled to be (4) representative of a particular language or language variety” ) (McEnery et al. 2006) Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 26 / 80
DEREKO-BESONDERHEIT DeReKo strebt weder »Repräsentativität« noch »Ausgewogenheit« an ein Korpus kann weder allgemein repräsentativ noch allgemein ausgewogen sein (Kupietz 2015) Grundgesamtheit / Sprache / Sprachdomäne ist nicht allgemein de nierbar was ist ausgewogen? 50% Zeitung - 30% Gebrauchstexte - 20% Belletristik? 50% Gebrauchstexte - 30% Belletristik - 20% Zeitung? ➞ ob ein Korpus repräsentativ ist oder nicht hängt von der Fragestellung und ihrer Sprachdomäne ab Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 27 / 80
DAHER … ist D R K nicht primär als gebrauchsfertige Stichprobe des Sprachgebrauchs gedacht sondern als so genannte Urstichprobe, die Nutzer*innen einlädt sich selbst virtuelle Korpora zusammenzustellen die bzgl. jeweiligen Sprachdomäne und Fragestellung möglichst adäquat / repräsentativ sind typischerweise iterativer Verfeinerungsprozess Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 28 / 80
VORTEILE DES URSTICHPROBEN-DESIGNS optimale Nutzbarkeit der Daten ür die maximale Anzahl potenziell relevanter Fragestellungen relative Besetzung einzelner Strata ist irrelevant entscheidend sind absolute Größen optimierbares Kosten-/Nutzenverhältnis bei der Korpusakquisition »geschenkte Daten müssen nicht abgelehnt werden« gesonderter Au bau von Spezialkorpora wird teilweise über üssig kontrastive Untersuchungen z.B. zwischen Varietäten sind leicht zu realisieren Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 29 / 80
HERAUSFORDERUNGEN Nutzer*innen müssen selbst Verantwortung ür die Adäquatheit der Stichprobe tragen besonders relevant bei quantitativen Untersuchungen, aber auch sonst ür Anbieter: hoher technischer Aufwand: Unterstützung der Konstruktion virtueller Korpora relative Häu gkeiten müssen immer neu berechnet werden … teilweise ür D R K noch ungelöst Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 30 / 80
DEFINITION VIRTUELLER KORPORA IN COSMAS II Beispiel: Schweizer Zeitungskorpus 1997-1999 (recht umständlich) Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 31 / 80
DEFINITION VIRTUELLER KORPORA IN KORAP Beispiel: Schweizer Zeitungskorpus 1997-1999 Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 32 / 80
»STRATIFIZIERTES SUB-SAMPLING« MIT KORAP mit KorAP können virtuelle Korpora anhand einer beliebigen Kombination von Metadaten-Bedingungen dynamisch de niert werden die so de nierten Korpora können nachgenutzt und persistent gemacht werden noch nicht implementiert ist eine Funktion zur Ziehung von Zufallsstichproben bestimmter Größe ➞ Korpusde nitionen der Art »50% Zeitung + 50% Belletristik« sind zur Zeit noch nur über Umwege möglich Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 33 / 80
CORPUS BY EXAMPLE De nition virtueller Korpora anhand von Suchtreffern: Wikipedia-Diskussionen (➞ Video) Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 34 / 80
HANDS-ON-BEISPIELE FÜR KORPUSDEFINITIONEN mittels Corpus by Example / Match Texte zum Thema Wirtscha während der Finanzkrise Pressetexte aus Österreich ohne Wikipedia-Benutzerdiskussionen direkte De nition: ganz ohne Wikipedia: corpusTitle ne /Wikipedia.*/ Belletristik: textType eq /.* (Roman|roman|Prosa|Schauspiel|Geschichte|geschichte|Novelle).*/ Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 35 / 80
3. VERWENDUNG LINGUISTISCHER ANNOTATIONEN Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 36 / 80
LINGUISTISCHE ANNOTATIONEN sind unerlässlich, um abstrakte linguistische Kategorien in Korpora zu nden Konstruktionen wie z.B.: ›heißt‹ gefolgt von zwei Verben im In nitiv könnte man nicht durch Aufzählungen von Strings nden und kaum mit Hilfe von regulären Ausdrücken mit Hilfe von KorAP's Suche in Wortart-Annotationen dagegen sehr einfach Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 37 / 80
SUCHE IN ANNOTATIONEN MIT KORAP ›heißt‹ gefolgt von zwei In nitivverben (laut TreeTagger-POS-Annotationen) Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 38 / 80
VORSICHT VOR FEHLERN! berichtete durchschnittliche Genauigkeit von >95% ür POS- Annotationen klingt gut, das heißt aber: 15 jeder 2. Satz ist falsch annotiert (0.95 = 0.46 ) 2,5 Milliarden Wörter in D R K sind falsch annotiert und wir können nicht erwarten, dass die Fehler günstig verteilt sind und es gibt Fehler, die man nicht ohne Weiteres bemerkt Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 39 / 80
FEHLERTYPEN-EXKURSION ... zu unserem Kleintierfarm wo alle Tiere automatisch annotiert sind und wo wir die Kaninchenfarben untersuchen wollen ür die Abfrage "Kaninchen" liefert unser Abfrageprogramm die folgenden Ergebnisse Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 40 / 80
SUCHERGEBNIS FÜR „KANINCHEN“ Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 41 / 80
ERSTE HYPOTHESE: KANINCHEN SIND SCHWARZ Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 42 / 80
HAT DER KLASSIFIKATOR FEHLER GEMACHT? Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 43 / 80
JA: ES GIBT ZWEI FALSCH POSITIVE! aber kein Problem: die Hypothese trifft immer noch zu Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 44 / 80
WENN WIR GENAUER HINSEHEN … gibt es aber auch falsch Negative, die die Hypothese widerlegen Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 45 / 80
HÄUFIGES PROBLEM BEIM MASCHINELLEN LERNEN Klassi katoren verlassen sich auf nicht erwartete/intendierte Features (Müller 2017) Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 46 / 80
FEHLERTYPEN-BEISPIEL wir suchen nach Sätzen, die eine bestimmte Folge von 4 POS Tags enthalten die Korpusabfrage ergibt 20.000 Tre er 4 wenn die Genauigkeit des Ergebnisses etwa 75% beträgt (≈ 0, 93 ) wir haben etwa 2.500 falsche Tre er ( falsch Positive) schlechte Nachrichten, aber kein Problem: wir können sie manuell aussortieren außerdem werden wir etwa 2.500 Sätze nicht nden, nach denen wir gesucht haben: falsche Negative was, wenn die (ungesehenen!) falsch Negativen die Schlussfolgerungen widerlegen, die wir auf Grundlage von gesehenen Daten getro en haben? Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 47 / 80
VERTEILUNG VON FEHLERN Gleichmäßige Verteilung: nicht realistisch Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 48 / 80
REALISTISCHERE FEHLERVERTEILUNG Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 49 / 80
FOKUS LINGUISTISCHER UNTERSUCHUNGEN? Fokus auf zentrale Phänomene – eher selten Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 50 / 80
FOKUS LINGUISTISCHER UNTERSUCHUNGEN realistischer Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 51 / 80
NOCH UNGLEICHMÄSSIGERE FEHLERVERTEILUNG ZU ERWARTEN Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 52 / 80
SCHLUSSFOLGERUNGEN FÜR ANNOTATIONSNUTZUNG Vorsicht linguistische Annotationen sind Interpretationen und keine Beobachtungen 95% Genauigkeit kann ziemlich irre ührend sein Genauigkeit variiert stark mit der Anfrage Vorsicht vor den unsichtbaren falsch Negativen ➞ Suchanfragen müssen meistens mehrfach angepasst werden um falsch Positive / Negative Schritt ür Schritt zu verringern Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 53 / 80
SCHLUSSFOLGERUNG FÜR DEREKO: »Im Zweifelsfall lieber eine zweite Meinung einholen« mehrere konkurrierende Annotationen auf derselben Ebene bereitstellen erzeugt durch verschiedene Werkzeuge basierend auf verschiedenen Methoden idealerweise trainiert auf verschiedenen Daten um: problematische Regionen im Annotationsraum zu identi zieren falsch Negative zu minimieren / den Recall zu maximieren außerdem: angemessener Umgang mit möglichen Fehlern vielleicht wichtiger als Steigerung der Genauigkeit Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 54 / 80
›DAS‹ ANNOTIERT ALS RELATIVPRONOMEN von Stanford CoreNLP Tools Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 55 / 80
›DAS‹ ANNOTIERT ALS RELATIVPRONOMEN von Stanford CoreNLP Tools ODER Tree-Tagger Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 56 / 80
4. BEISPIELE MUSTERBASIERTER ANFRAGEN MIT KORAP Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 57 / 80
ELEMENTE DER SUCHANFRAGESPRACHE POLIQARP+ einfache Segmente: großer Baum komplexe Segmente und Wiederholungsoperatoren: [tt/l=groß] []{3} [tt/p=NN] Spannen: Funktionen: contains(, [tt/p=KON]) Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 58 / 80
TAGSET FÜR DEREKO-WORTARTANNOTATIONEN: STTS (Schiller et al. 1999) ➞ Dokumentation Stuttgart-Tübingen-TagSet, der Standard ür das Deutsche enthält 54 Kategorien: ADJA, ADJD, ADV, APPR, APPRART, APPO, APZR, ART, CARD, FM, I TJ, KOUI, KOUS, KON, KOKOM, NN, NE, PDS, PDAT, PIS, PIAT, PIDAT, PPER, PPOSS, PPOSAT, PRELS, PRELAT, PRF, PWS, PWAT, PWAV, PAV, PTKZU, PTKNEG, PTKVZ, PTKAN T, PTKA, TRUNC, VVFIN, VVIMP, VVINF, VVIZU, VVPP, VAFIN, VAIMP, VAINF, VAPP, VMFIN, VMINF, VMPP, XY, \$,, \$., \$( Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 59 / 80
HILFSMITTEL 1: SUCHASSISTENT (➞ Video) Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 60 / 80
HILFSMITTEL 2: QUERY BY EXAMPLE Konstruktion und Erlernen komplexer Anfragen ohne Vorkenntnisse (➞ Video) Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 61 / 80
REGULÄRE AUSDRÜCKE (➞ Cheat-Sheet ) Verbformen die mit ›ver‹ oder ›zer‹ beginnen und ein ›ö‹ enthalten [orth="[zv]er.*ö.*" & tt/p="V.*"] in einem virtuellen Korpus mit Poliqarp Glimpse BVZ10/DEZ/03332 Haubenlokal zerstört BRAND Das Restaurant „Blaue Gans“ und der „Club 119“ sind abgebrannt. Im April 2011 soll es ohne Weissgerber weiter g s“ wurde dabei zerstört . Um die Mittagszeit brach das Feuer im Obergeschoss im „Club 119“ aus. Die Löscharbeiten dauerten den ganzen Nachmitt BVZ10/DEZ/03323 aydn Akademie verwöhnt . www.haydnfestival.at BVZ10/DEZ/03390 OBI-Markt wird vergrößert , deshalb wird die Fläche benötigt. Eine Ära geht zu Ende: Miko-Möbel schließt mit 31.12. 2010 seine Pforten. „Es war ein ei BVZ12/DEZ/01956 nachtsgeschenk zerstört ! Es war für einen ganz besonderen Jungen, der sich ein Glasschwert wünschte! Ich habe es selbst angefertigt. Kommt, mei e früher. Leider versöhnten sich der Weihnachtsmann und das Christkind nie wieder. Engel und Wichtel feiern noch heute gemeinsam. BVZ09/DEZ/03300 fe des Herbstes veröffentlicht werden. "Die beiden Fachleute werden in den nächsten Wochen alle Fakten rund um die Messe prüfen, um eine konk BVZ10/DEZ/03452 Rapunzel - neu verföhnt “ sowie „Meine Frau, unsere Kinder und ich“ auf dem Programm, um 20.45 Uhr „Meine Frau, unsere Kinder und ich“, „Echte BVZ08/DEZ/02923 rnehmern sei's vergönnt . Im abgelaufenen Jahr wurde die Eisenstädter Fußgängerzone x-mal vom Niedergang bedroht und genauso oft in den Him ernehmern BVZ08/DEZ/03031 m sein 13. Buch veröffentlicht . Geschichten auf Kroatisch verfasst NEUBERG / Seit jeher ist der Neuberger Karl Knor dem Schreiben von Geschichte BVZ11/JUL/01630 ke Zmölnig (r.) verköstigten die Gäste beim Kirtag in Rax Bergen. Auch Kathrin Bakanic, Monika Hirtenfelder, Markus Weber, Bettina Somenek und BVZ08/DEZ/02994 welche noch nie veröffentlicht wurden und sich in St. Petersburg befinden, ausgestellt werden, so Lisztvereins-Obmann Manfred Fuchs. Rund 400 B BVZ10/DEZ/03562 den. Außerdem zerstört er die Bausubstanz.“ Renovierung würde rund eine Million Euro kosten Auch mit der derzeitigen Situation beim Lift zur Burg BVZ10/DEZ/03474 hristian Pogats veröffentlicht : Laut Polizei starb er an einer Beruhigungsmittelvergiftung. SCHWEINEMAST VERLEGT NEUFELD Nachdem Landwirt K Christian Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 62 / 80
SUCHE AUF MORPHOLOGISCHEN ANNOTATIONEN Adjektiv im Superlativ + Adjektiv im Superlativ + Nomen mithilfe von uery by Example ausgehend von »die ehrlichste, anständigste Anlageform« ?? fehlerha annotiert! ausgehend von »der höchste Preis« [marmot/m=degree:sup & marmot/p=ADJA]{2} [tt/p=NN] aber o enbar eine größere Menge an falsch Negativen zu erwarten! Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 63 / 80
SUCHE AUF KONSTITUENZ-ANNOTATIONEN mit Hilfe von »Spannen«: NP, die mit ‚pur‘ endet (mit Poliqarp+) endsWith(, [orth="pur"]) in einem virtuellen Korpus mit Poliqarp Glimpse > 6.893 Treffer WUD17/E78/21897 15. Aug. 2013 ( CEST) Jaaaa, "hätte" ;-) Ich war froh, mit den befreundeten Fotografen aus der anderen Gruppe ab und zu ein paar Ges WUD17/D85/12644 CEST) Na ja, so etwas wie (pur )² = (Reinheits-Getreide) x (Reinheits-Rezeptur) = natürlicher Geschmack ist ja - mit Verlaub - reiner Marketing-Qu Na ja, so etwas wie (pur )² = (Reinheits-Getreide) x (Reinheits-Rezeptur) = natürlicher Geschmack ist ja - mit Verlaub - reiner Marketing-Quatsch u , das mit dem ( pur )² klingt zugegebenermaßen etwas Marketing-mäßig, ist aber halt der Name der neuen Brot-Sorten - könnte ich aber auf schlicht schlich WUD17/E67/14897 nnen (mal was "artfremd" älteres, Weiterbildung und RL pur ). Viel Erfolg bie WLM (irgndwann mach ich mal mit- revanchieren). MfG -- 12:59, önnen WUD17/A92/03317 rblich, sondern POV pur , übrigens egal von wem eingefügt. Allerdings hat sich das Problem ja inzwischen geklärt, wie ich gesehen habe. --Alnilam ( erblich, WUD17/G81/13789 rt“, und da ist „ Darwin pur “ eben veraltet – genau wie die reduktionistischen Modelle des Neodarwinismus (sensu strictu). Aber was zu Darwins Ze WUD17/G68/66017 eich null. echt ' ne harte nummer hier.... sozusagen admin executive power pur . die wiki hat sich verändert.-- 08:17, 12. Apr. 2012 (CEST) d WUD17/C22/60721 mal einpflegen. Hier Natur pur . Grüße, 10:25, 9. Okt. 2007 (CEST) . Stammtisch L.E. Da du ja eifrig protokolliert hast, vielleicht kannst du den nic WUD17/C19/40028 Hölle gemacht. Eifersucht pur! Und auch war es schwer seinen Stand in der "Wir lieben Marie" Welt zu erringen. Aber mittlerweile sagt keiner meh WUD17/B31/99604 weil der Eintrag Theoriefindung pur war anhand ausschließlich alter Quellen. Zudem schien er felsenfest überzeugt von seiner These zu sein (was a WUD17/A59/29102 das bestreiten, Adminwillkür pur . Jungs, wenn euch das alles so langweilt wie es den Eindruck macht, gebt die Knöppe ab und gut ist. Allerdings k WUD17/G15/23207 aus den 60ern, POV pur , auch ist es nicht akzeptabel, daß hier nur private kommerzielle Links aufgeführt sind. Der Test steht wohl 1 in2Zusammenha 3 276 WUD17/D46/44977 s ist schon WP: VAN pur .-- schmitty. 01:49, 19. Aug. 2009 (CEST) Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 64 / 80
SATZANNOTATION, NEGATION, FOKUS Tool zum Finden ähnlich verwendeter Wörter: ➞ DeReKoVecs focus(contains(, {[tt/p=VVFIN & tt/l!=machen & tt/l!=haben][tt/p=NN][orth=satt]})) in einem virtuellen Korpus mit Poliqarp Glimpse 1.148 Treffer A13/JUL/11132 t Der 1. August verspricht Sonne satt . Auf Balkonen ist oft aber nur ein Elektro-Grill erlaubt. Dieser gilt jedoch unter den Hardcore-Grilleuren als v M03/DEZ/84441 r in Oftersheim sahen Tore satt - aber keinen Sieg der Heimmannschaft. Rubios Doppelschlag brachte die SG mit 2:0 in Front, doch Seckenheim sc s RHP11/OKT/01882 an zum Cruisen braucht: Drehmoment satt , souverän entspannte Sitzhaltung, dazu eine gehörige Portion Coolness im Auftritt vor der Eisdiele ode RHP11/OKT/00598 ingabe Wittkes nagelte Toch satt unter die Latte (6.). Der Ex-Stuttgarter Schürg schoss weiter scharf, eine Glanzparade Wagners wuchtete der sp eingabe B00/SEP/81013 r grünen Wiese fährt, Parkplätze satt und kostenlos, rings um Berlin und schnell zu erreichen. Michael Bliß, Mahlow BAUEN Zu: "Schwere Vorwürfe Vorwürf B11/JUL/02051 Gleich obenauf liegen 16Chiquitas, satt gelb mit winzigen braunen Flecken. Rund herum Erdbeeren und Knupperkirschen, die Kay einzeln in eine B02/SEP/68182 stige Pillenclub gewann Image satt und wurde Weltchampion in Mitleidszuweisungen. Jetzt wird deftig verloren, und zwar in Serie, manchmal hap nstige B02/SEP/67545 ustrie dagegen warten Aufträge satt . Seite 27 B04/MAI/34002 ls Maifestspiele bezeichnete Krawallritual satt hatten und andererseits von der Polizei, die bei dem erfolgreichen "Myfest" zunächst gar nicht zu s BRZ10/MAR/06458 aller haben die überlange Winterpause satt Die Trainer der Salzgitteraner Mannschaften sprechen über Testspielausfälle und Meisterschaftstipps baller BRZ07/JUN/06670 der Elbe auf. Es gibt Schlösser satt : Askanier, Anhalt-Zerbster, Dessauer, Oranier, Wettiner, der bildungsbeflissene Franz und der wollüstig-starke BRZ10/APR/01054 Im Innenraum herrscht Platz satt . Nicht nur Fahrer und Beifahrer haben mehr als ausreichend Kopf- und Ellenbogenfreiheit zur Verfügung, sonde BRZ06/APR/13670 burg und Mainz versprechen Tore satt . Unvergessen bleibt der 5:4-Sieg des VfL über den FSV am letzten Zweitliga-Spieltag der Saison 1 2 1996/97. 3 46 I BRZ08/SEP/02742 s“ zu gehen. Es gab Kaffee satt und Obstkuchen – aber bitte mit Sahne! Der Kapitän erzählte den Besuchern die Geschichte der Stadt Hannover un Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 65 / 80
SUCHE AUF DEPENDENZ-ANNOTATIONEN Verb mit „Satz“ als dir. Objekt (mit Annis QL) orth="Satz" & pos=/V.*/ & #1 -> malt/d[func="OBJA"] #2 in einem virtuellen Korpus mit Annis QL Glimpse WUD17/D96/85501 uch irren kann, habe aber nur den unmissverständlichen Satz : Die Filmografie wird aufsteigend sortiert, d. h. sie beginnt mit dem ältesten Film WUD17/E97/19126 t. Ich habe den Satz geändert . Beste Grüße und einen schönen Sonntag! -- 08:14, 3. Apr. 2016 (CEST) Scuderia Ferrari Hallo Erika, bezüglich dies WUD17/G98/07727 chert. Auch den Satz zum Rechtspopulismus finde ich eigentlich ganz angebracht, dass ursprünglich nicht unbedingt "rechte" Verschwörungstheo würde ihnen ein Satz reichen . Mich ärgert das. Dabei geht das auch anders. Aus eigener Erfahrung kann ich sagen, dass es selbst bei Themen aus d würde ihnen ein Satz reichen . Mich ärgert das. Dabei geht das auch anders. Aus eigener Erfahrung kann ich sagen, dass es selbst bei Themen aus d WUD17/G94/69192 nie selbst einen Satz geschrieben haben, aber gerne jedes Komma und jeden Satz hier kritisieren und Arbeit verteilen. Dennoch vielen Dank. -- 16 WUD17/E97/17752 aus der pt:WP enthält folgender Satz m.M.n. 2 fehlerhafte Aussagen: Foi criada pelo Governo Provincial em 1855 e seu nome foi dado em homen home WUD17/B97/25982 016, als ich den Satz bemängelte , wirklich schon so geheißen? Ich habe den Eindruck, vor Tische las man anders; soll heißen, so war es damals no WUD17/F97/56982 den unbelegten Satz zurückänderst , dann korrigiere doch bitte die Rechschreibfehler und sorge dafür, dass keine unerklärten Abkürzungen dasteh WUD17/D99/46494 h versucht, den Satz umzuformulieren . Wenn es nur eine ist, dann müsste man das halt ändern. -- 18:35, 13. Sep. 2013 (CEST) Devotus: das ha WUD17/D97/65762 sehr einfacher Satz von Gesetzen ähnlich komplexe Eigenschaften hervorrufen kann, wie sie intellkigentes Leben aufweist. Es muss viele Sä WUD17/E96/91039 e da den ersten Satz komplett streichen und den Rest irgendwie neutral belegen.) "BENELUX" Bitte Normalschreibung " Fab-Kollegen" zu persönlic WUD17/A96/36964 gung von Lindl macht den nächsten Satz falsch. Und die Literatur mag für Lindl wichtig sein, aber sicher nicht für Schlatter-Bernet. -- 20:12, 21. ügung WUD17/833/33507 m Bedauern den Satz mit den Schüßler-Salzen wieder eingefügt . Dergleichen Hokuspokus gehört leider zum Allgemeinwissen, und der Missbrauc Missbrau Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 66 / 80
5. KORAP-ANFRAGEN AUS R UND PYTHON Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 67 / 80
KORAP-API alle KorAP-Funktionalitäten sind auch über eine API zugänglich, z.B. De nition komplexer virtueller Korpora komplexe Anfragen Zugri auf Metadaten und quantitative Information ohne Login möglich zur Vereinfachung des Zugri s Bibliotheken ür R und Python besonders mit R auch ohne Programmierkenntnisse empfehlenswert: RStudio installieren Beispiel-Scripts kopieren, ein ügen und ggf. modi zieren ideal ür reproduzierbare und replizierbare Studien und zur Erstellung von Diagrammen und ganzen Reports Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 68 / 80
R-CLIENT-BEISPIEL Frequenzverlauf von voran- vs. nachgestelltem ›pur‹ library(RKorAPClient) query = c("[tt/l=pur] [tt/p=NN]", "[tt/p=NN] pur") years = c(1980:2020) vc = "textType = /Zeit.*/ & availability!=QAO-NC-LOC:ids & pubDate in" new("KorAPConnection", verbose=T) %>% frequencyQuery(query, paste(vc, years), as.alternatives = T) %>% hc_freq_by_year_ci(as.alternatives = T) Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 69 / 80
OUTPUT DES BEISPIELS Frequenzverlauf von voran- vs. nachgestelltem ›pur‹ 100 % 75 % 50 % 25 % 0% 1980 1985 1990 1995 2000 2005 2010 2015 2020 [tt/l=pur] [tt/p=NN] [tt/p=NN] pur KorAP R Client Package Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 70 / 80
R-CLIENT-BEISPIEL Frequenzverlauf von »Sinn machen« vs. »Sinn ergeben« library(RKorAPClient) query = c("[tt/l=machen] []{0,3} [tt/l=Sinn]", "[tt/l=ergeben] []{0,3} [tt/l=Sinn]") years = c(1980:2010) vc = "textType = /Zeit.*/ & availability!=QAO-NC-LOC:ids & pubDate in" new("KorAPConnection", verbose=T) %>% frequencyQuery(query, paste(vc, years), as.alternatives = TRUE) %>% hc_freq_by_year_ci(as.alternatives = TRUE) Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 71 / 80
OUTPUT DES BEISPIELS 100 % 75 % 50 % 25 % 0% 1980 1985 1990 1995 2000 2005 2010 [tt/l=machen] []{0,3} [tt/l=Sinn] [tt/l=ergeben] []{0,3} [tt/l=Sinn] KorAP R Client Package Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 72 / 80
PYTHON-CLIENT BEISPIEL: FREQUENZVERLAUF von Sinn machen vs. Sinn ergeben 1980-2010 from KorAPClient import KorAPConnection import plotly.express as px import pandas as pd years = list(range(1980, 2011)) query = ["[tt/l=machen] []{0,3} [tt/l=Sinn]", \ "[tt/l=ergeben] []{0,3} [tt/l=Sinn]"] df = pd.DataFrame({'year': years, \ 'vc': ["textType = /Zeit.*/ & availability!=QAO-NC-LOC:ids " + f"& pubDate in {y}" for y in years]}) \ .merge(pd.DataFrame(query, columns=["variant"]), how='cross') results = KorAPConnection() \ .frequencyQuery(df['variant'], df['vc'], **{"as.alternatives": True}) df = pd.concat([df, results.reset_index(drop=True)], axis=1) px.line(df, x="year", y="f", color="variant").show() Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 73 / 80
KOOKKURRENZANALYSE ÜBER DIE ZEIT Sinn ergeben vs. Sinn machen library(RKorAPClient) library(tidyverse) library(highcharter) node = c("Sinn") collocate = c("machen", "ergeben") years = c(1990:2020) vc = paste("textType = /Zeit.*/ & pubDate in", years) conditions % collocationScoreQuery(node, conditions$collocate, conditions$vc, lemmatizeNodeQuery=T, lemmatizeCollocateQuery=T) %>% rename(Jahr=label) %>% hchart(type="line", hcaes(Jahr, logDice, group=collocate)) %>% hc_add_onclick_korap_search() %>% print() Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 74 / 80
KOOKKURRENZSTÄRKEN-VERLAUF »Sinn ergeben« vs. »Sinn machen« 8 7 logDice 6 5 4 90 91 92 93 94 95 96 97 98 99 00 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 20 19 19 19 19 19 19 19 19 19 19 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 Jahr [tt/l=ergeben] [tt/l=machen] Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 75 / 80
KONTRASTIERUNG VON VARIETÄTEN »wegen dem NN« in DE, AT, CH library(RKorAPClient) jahre % hc_freq_by_year_ci(smooth = T) %>% print() Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 76 / 80
OUTPUT: FREQUENZVERLÄUFE ABHÄNGIG VOM HERKUNFTSLAND »wegen dem NN« in DE, AT, CH wegen dem [tt/p=NN] 3 2 ipm 1 0 2000 2002 2004 2006 2008 2010 2012 2014 2016 2018 2020 DE AT CH KorAP R Client Package Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 77 / 80
VIELEN DANK FÜR IHRE AUFMERKSAMKEIT! korpuslinguistik@ids-mannheim.de Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 78 / 80
REFERENZEN Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 79 / 80
REFERENZEN Bański, P., Bingel, J., Diewald, N., Frick, E., Hanl, M., Kupietz, M., Pęzik, P., Schnober, C. Witt, A. (2013): KorAP: the new corpus analysis platform at IDS Mannheim. In: Zygmunt Vetulani and Hans Uszkoreit (eds).: Human Language Technologies as a Challenge for Computer Science and Linguistics. Fundacja Uniwersytetu im. A. Mickiewicza, Poznań. Biber, Douglas (1993): Representativeness in Corpus Design. Literary and Linguistic Computing 8(4). 243–257.. Bodmer, Franck (1996): Aspekte der Abfragekompononente von COSMAS-II. LDV-INFO. Informationsschrift der Arbeitsstelle Linguistische Datenverarbeitung, 8:112–122. Kupietz, M. (2015): Constructing a corpus. In: Durkin, P. (ed.): Oxford Handbook of Lexicography. OUP. McEnery, Tony / Xiao, Richard / Tono, Yukio (2006): Corpus-based language studies: An advanced resource book. Taylor & Francis. Mindt, I. (2010): Methoden der Korpuslinguistik: Der korpus-basierte und der korpus-geleitete Ansatz. In I. Kratochvílová & N. R. Wolf (Eds.), Kompendium Korpuslinguistik. Eine Bestandsaufnahme aus deutsch-tschechischer Perspektive (pp. 53–65). Heidelberg: Winter. Müller, Klaus-Robert (2017): Machine learning and applications. Presentation given at Leibniz MMS Days 2017. February 22, Hannover. Schiller, Anne / Simone Teufel / Christine Stöckert / Christine Thielen (1999): Guidelines für das Tagging deutscher Textcorpora mit STTS. Technical report, Institut für maschinelle Sprachverarbeitung, Universität Stuttgart, 1999. Schmid, Helmut (1994): Probabilistic Part-of-Speech Tagging Using Decision Trees. In Proceedings of the International Conference on New Methods in Language Processing, Sinclair, J. (2004): Trust the Text. London: Routledge. Marc Kupietz & Rainer Perkuhn · Korpuskonstruktion und ‐analyse mit KorAP · GerCOLiNet, Paris, 08.07.2021 80 / 80
Sie können auch lesen