DAS PARALLELKORPUS INTERCORP - Funktionen und Anwendungsbereiche. Ein Überblick.

Die Seite wird erstellt Joel Bayer

Sonstiges

Deutsch

Like
Teilen
Einbetten
Vollbild
Folien
HTML Herunterladen
PDF Herunterladen
Missbrauch

←

WEITER LESEN

→

Transkription von Seiteninhalten

Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten

DAS PARALLELKORPUS INTERCORP - Funktionen und Anwendungsbereiche. Ein Überblick.

EUROPEAN NETWORK OF GERMAN AND CONTRASTIVE LINGUISTICS (GerCoLiNet):
                             A RESEARCH-EDUCATION INTERFACE (METHODOLOGY, TEACHING AND IN-FIELD EXPERIENCE)

DAS PARALLELKORPUS INTERCORP
Funktionen und Anwendungsbereiche. Ein Überblick.

                          VĚRA HEJHALOVÁ
      Institut für Germanistik, Philosophische Fakultät, Karlsuniversität Prag

PROGRAMM

 mehrsprachige Korpora und Möglichkeiten deren Nutzung
 InterCorp
 Suchanfragemöglichkeiten (KonText)
 Wiederholung
 gemeinsame Arbeit mit InterCorp

MEHRSPRACHIGE KORPORA

 zwei- und mehrsprachig
 Typen
      Vergleichskorpora
          qualitativ und quantitativ vergleichbare Texte (ähnliche Typen, Genres, Länge) für mehrere Sprachen (keine Übersetzungen)
          bsp. Korpus Aranea (über KonText erreichbar)
      Parallelkorpora
          enthalten Texte im Original und dessen Übersetzung in eine oder mehrere Sprachen

NUTZUNGSMÖGLICHKEITEN

 theoretische, kontrastiv orientierte linguistische Forschung ( Wortschatz, Grammatik, Stilistik, Phraseologie etc.)

 zwei-/mehrsprachige Lexikographie / Phraseographie

 Übersetzungswissenschaft

 Fremdsprachenunterricht

 Entwicklung weiterer Computerapplikationen (bsp. Treq)

 Zugänglichkeit für breite Öffentlichkeit

PRO UND CONTRA

 VORTEILE
     Analyse von Gemeinsamkeiten und Unterschieden verschiedenster Aspekte gewählter Sprachen
     Entdeckung und Analyse der Übersetzungsäquivalente
     Analyse des Übersetzungsverfahrens

 NACHTEILE
     unerreichbare Repräsentativität
     quantitative Unausgewogenheit bei mehrsprachigen Korpora

LAYOUT PARALLELER KORPORA

 Texte in allen Sprachen in gleiche Teile/Sequenzen aligniert
      = gleiche Teile (bsp. Sätze) in allen Sprachen einander zugeordnet
      manuell – weniger fehlerhaft, zeitlich anspruchsvoller
      automatisch – fehlerhafter, zeitlich nicht so anspruchsvoll
 Ansichtsweise parallel, in allen gewählten Sprachen (in Spalten)

INTERCORP

 Referenzkorpus* (seit der Version 6; jedes Jahr neue Version)
 synchrone Sprache                                                                           akademisches,
 1,554 Mrd. tokens (aktuelle Version 13, 2020, 40 Fremdsprachen + Tschechisch)         nichtkomerzielles Projekt

 im Rahmen des Tschechischen Nationalkorpus (ČNK) entwickelt (Institut des Tschechischen Nationalkorpus,
   Philosophische Fakultät, Karlsuniveristät, Prag)
 enthält v.a. Sprachen, die an der Philosophischen Fakultät unterrichtet werden
 erarbeitet und erweitert von Studierenden und akademischen Mitarbeitern der Philosophischen Fakultät

ZUSAMMENSETZUNG (VERSION 13, 2020)

 40 Fremdsprachen (davon 27 getaggt; 25 lemmatisiert)
 + Tschechisch als „Pivot“ (Hauptsprache)
                                                                                    getagged, lemmatisiert
 Core – manuelles Alignment                                                        getagged, nicht lemmatisiert
                                                                                    weder getagged, noch lemmatisiert
 Collections – automatisches Alignment

 Albanisch      Arabisch       Bulgarisch    Chinesisch    Dänisch     Deutsch             Englisch        Estnisch

  Finnisch     Französisch     Griechisch    Hebräisch      Hindi      Isländisch         Italienisch     Japanisch

Katalanisch    Kroatisch        Lettisch     Litauisch    Malaiisch    Maltesisch        Mazedonisch    Niederländisch

Norwegisch      Polnisch     Portugiesisch    Romani      Rumänisch    Russisch          Schwedisch        Serbisch

 Slowakisch    Slowenisch       Spanisch     Türkisch     Ukrainisch   Ungarisch        Vietnamesisch   Weißrussisch

VERTEILUNG DER TEXTE IM INTERCORP NACH SPRACHEN
      Tschechisch

                              Französisch

                                            Italienisch
                    Deutsch

                                                          Polnisch
                    Dänisch

                                                                     Quelle der Graphik:
                                                                     https://wiki.korpus.cz/lib/ex
                                                                     e/detail.php/cnk:intercorp:in
                                                                     tercorp_wordcounts_v13.p
                                                                     ng?id=cnk%3Aintercorp%3
                                                                     Averze13

KORPUSMANAGER

 Seit 2013 neue Webschnittstelle KonText
 Zugänglich auf www.korpus.cz
 alle wichtigen Informationen auf Wiki (über Korpora, Umgang mit KonText, Glossar)
 Webseite zweisprachig (Tschechisch, Englisch)

VERLAUF DER RECHERCHE

                           SUCHANFRAGE
                          Wortform (Word)
                                Lemma
                           Buchstabenkette
                           Wortverbindung
                                                                          BEARBEITUNG DER ERGEBNISSE
                           regulare Zeichen
                                                                          Konkordanzenmischung/-sortierung
                   Klein-/Großschreibungbeachtung
                                                                                Frequenzdistribution
                       CQL (incl. Tag-Zeichen)       ERGEBNISANSICHT
   KORPUSAUSWAHL                                                                 Kookkurrenz- und
                                                       KWIC-Ansicht
                                                                                  Kollokationssuche
                                                       Volltext-Ansicht
                                                                              positiven/negativen Filters
                                                                                        Export
                   SUCHANFRAGEABGRENZUNG
                    in vordefinierten Textgruppen
                           nach Texttypen
                    nach der Sprache des Originals
                     nach dem/der Übersetzer*in

INTERCORP IM KORPUSMANAGER KONTEXT

Verfahren
1) Auf der Webseite www.korpus.cz in der oberen Leiste „KonText“ wählen
2) Das automatisch vordefinierte Korpus (z.B. syn2020) anklicken und „all corpora“ wählen
3) Aus dem Gesamtangebot der Korpora „InterCorp“ wählen und die gewünschte sprachliche Variante wählen

SUCHANFRAGEFENSTER

SUCHANFRAGEFENSTER – KONTEXTSPEZIFIKATION

SUCHANFRAGEFENSTER – ALIGNIERTES KORPUS

SUCHANFRAGEFENSTER – ABGRENZUNG DER SUCHE

SUCHANFRAGE KONKRET

in einer Sprache              in beiden/mehreren Sprachen

SUCHERGEBNISSE I

SUCHERGEBNISSE II

BIBLIOGRAPHISCHE ANGABEN

Doppeltes Anklicken der blauen Kurzzitierung der bibliographischen Angabe ermöglicht
die volle bibliographische Information zu sehen.

VOLLTEXTANSICHT

 Durch doppeltes Anklicken der Konkordanz öffnet sich die Volltextansicht der konkreten Konkordanz.

ZUSÄTZLICHE BEARBEITUNG DER ERGEBNISSE

 Filter
 Frequenz
 Kollokationen

FILTER

 weitere Bearbeitung des bereits analysierten Materials
 ermöglicht aus der Gesamtmenge der Ergebnisse nach weiteren Kriterien auszusortieren

 positiver Filter
 negativer Filter

FILTER – SCHRITT 1

Verfahren:
1) Suchwort heraussuchen
2) gefundene Belege analysieren

FILTER – SCHRITT 1I

Verfahren:
3) In der oberen Leiste „Filter“ wählen
4) Positiven/Negativen Filter wählen
5) Das gewünschte Wort eingeben
6) Ergebnisse analysieren

FREQUENZLISTE – SCHRITT I

 Ermöglicht die Ergebnisse nach der Frequenz in verschiedenen Kategorien zu sortieren
 nach Lemmata
 nach Dokumenten
 nach Textgruppen, -typen, eigener Wahl
Verfahren:
1) Suchwort heraussuchen
2) gefundene Belege analysieren

FREQUENZLISTE – SCHRITT II

Verfahren:
3) In der oberen Leiste „Frequenz“ wählen
4) Das Kriterium, nach dem die Frequenz dargestellt wird
5) Ergebnisse beurteilen

KOLLOKATIONS-/KOOKKURRENZPROFIL – SCHRITT I
 ermöglicht die signifikanten Kookkurrenzpartner zu entdecken
 hängt vom eingestellten Kontext und vom gewählten statistischen Maß ab
 vorhandene Maße
               •   Frequenz   •   LLR
               •   MI3        •   Min. sensitivity
               •   MI         •   MI.log_f
               •   T-score    •   Relative freq. (%)
               •   logDice
Verfahren
1) Suchwort heraussuchen
2) gefundene Belege analysieren

KOLLOKATIONS-/KOOKKURRENZPROFIL – SCHRITT II
 Verfahren:
3) In der oberen Leiste „Kollokationen“ wählen
4) Parameter der Kollokationsanalyse festlegen
5) Kollokationspartner nach einzelnen Maßen analysieren

WIEDERHOLUNG
                                          IST DIE MUTTER
                                          DER WEISHEIT

Wordwall-Quiz:
https://wordwall.net/play/17399/363/570

GRAUE THEORIE – BUNTE PRAXIS

Wählen Sie im InterCorp ein Sprachenpaar Ihrer Wahl und versuchen Sie
nach einem beliebigen Wort / einer beliebigen Wortverbindung zu suchen.
Referieren Sie uns darüber, was Sie festgestellt haben.

GRAUE THEORIE – BUNTE PRAXIS II
 Analysieren Sie im InterCorp in zwei separaten Recherchen die
   Wortpaare heilbar – heilsam (oder weitere ähnliche Paare wie furchtbar
   – furchtsam, mitteilbar – mitteilsam, achtbar – achtsam).
 Benutzen Sie dabei immer das Korpus German – v13 und das Korpus
   Ihrer Muttersprache. Sie können je nach Ihren sprachlichen Kenntnissen
   auch Korpora weiterer Sprachen einbeziehen.
 Bemühen Sie sich anhand von erworbenen Belegen und
   Übersetzungsäquivalenten den Unterschied zwischen den Suffixen –bar
   und –sam zu beschreiben.
 Sie arbeiten in internationalen Gruppen.

GRAUE THEORIE
            BUNTE PRAXIS III
Hallo. – Ahoj. – Salut. – Ciao. – Cześć. – Hej.
   Lehrbücher geben den Lernenden oft nicht
    genügende Informationen. So ist in den meisten
    Lehrbüchern des Deutschen die Begrüßung
    „Hallo!“ als Begrüßung zweier
    Freunde/Bekannten (die sich auch duzen)
    dargestellt.
   Funktioniert Hallo! wirklich als volles Äquivalent
    zu den o.g. Begrüßungen?
   Wählen Sie die Korpora des Deutschen und
    Ihrer Muttersprache. Analysieren Sie die
    deutsche Begrüßung Hallo und beobachten Sie
    dabei die Kontexte/Situationen der Benutzung
    und der benutzten Äquivalente.
   Arbeiten Sie in nationalen Gruppen.
   Berichten Sie uns dann darüber, wie diese
    Begrüßung in Ihrer Muttersprache funktioniert.

FRAGEN UND BEMERKUNGEN?

WEITERE BEKANNTE PARALLELKORPORA

 KAČENKA (1997)/KAČENKA2(2002/2003) – MUNI Brünn (Tschechische Republik); Englisch - Tschechisch
 EuroParl – Aufzeichnungen der Handlungen im Europäischen Parlament; 21 Sprachen; aligniert; mit dem Ziel
   entwickelt, die Methoden der maschinellen Übersetzung statistisch auswerten zu können
 ParaSol – Parallelkorpus der slawischen und anderen Sprachen; aligniert; Belletristik
 OPUS – The Open Parallel Corpus – Universtiät Uppsala (Schweden) – sammelt frei zugängliche Texte aus den
   Webseiten; über 90 Sprachen (über 3800 Sprachpaare)

QUELLEN

 Dovalil, V. – Káňa, T. – Peloušková, H. – Zbytovský, Š. – Vavřín, M.: Korpus InterCorp – němčina, verze 13
   z 1. 11. 2020. Ústav Českého národního korpusu FF UK, Praha 2020. Dostupný z
   WWW http://www.korpus.cz
 Čermák, F. – Rosen, A. (2012): The case of InterCorp, a multilingual parallel corpus. In International
   Journal of Corpus Linguistics, 17(3), 411–427.
 https://www.korpus.cz
 https://wiki.korpus.cz/doku.php/cnk:intercorp
 https://ucnk.ff.cuni.cz/en/