DAS PARALLELKORPUS INTERCORP - Funktionen und Anwendungsbereiche. Ein Überblick.

Die Seite wird erstellt Joel Bayer
 
WEITER LESEN
DAS PARALLELKORPUS INTERCORP - Funktionen und Anwendungsbereiche. Ein Überblick.
EUROPEAN NETWORK OF GERMAN AND CONTRASTIVE LINGUISTICS (GerCoLiNet):
                             A RESEARCH-EDUCATION INTERFACE (METHODOLOGY, TEACHING AND IN-FIELD EXPERIENCE)

DAS PARALLELKORPUS INTERCORP
Funktionen und Anwendungsbereiche. Ein Überblick.

                          VĚRA HEJHALOVÁ
      Institut für Germanistik, Philosophische Fakultät, Karlsuniversität Prag
DAS PARALLELKORPUS INTERCORP - Funktionen und Anwendungsbereiche. Ein Überblick.
PROGRAMM

 mehrsprachige Korpora und Möglichkeiten deren Nutzung
 InterCorp
 Suchanfragemöglichkeiten (KonText)
 Wiederholung
 gemeinsame Arbeit mit InterCorp
DAS PARALLELKORPUS INTERCORP - Funktionen und Anwendungsbereiche. Ein Überblick.
MEHRSPRACHIGE KORPORA

 zwei- und mehrsprachig
 Typen
      Vergleichskorpora
          qualitativ und quantitativ vergleichbare Texte (ähnliche Typen, Genres, Länge) für mehrere Sprachen (keine Übersetzungen)
          bsp. Korpus Aranea (über KonText erreichbar)
      Parallelkorpora
          enthalten Texte im Original und dessen Übersetzung in eine oder mehrere Sprachen
DAS PARALLELKORPUS INTERCORP - Funktionen und Anwendungsbereiche. Ein Überblick.
NUTZUNGSMÖGLICHKEITEN

 theoretische, kontrastiv orientierte linguistische Forschung ( Wortschatz, Grammatik, Stilistik, Phraseologie etc.)

 zwei-/mehrsprachige Lexikographie / Phraseographie

 Übersetzungswissenschaft

 Fremdsprachenunterricht

 Entwicklung weiterer Computerapplikationen (bsp. Treq)

 Zugänglichkeit für breite Öffentlichkeit
DAS PARALLELKORPUS INTERCORP - Funktionen und Anwendungsbereiche. Ein Überblick.
PRO UND CONTRA

 VORTEILE
     Analyse von Gemeinsamkeiten und Unterschieden verschiedenster Aspekte gewählter Sprachen
     Entdeckung und Analyse der Übersetzungsäquivalente
     Analyse des Übersetzungsverfahrens

 NACHTEILE
     unerreichbare Repräsentativität
     quantitative Unausgewogenheit bei mehrsprachigen Korpora
DAS PARALLELKORPUS INTERCORP - Funktionen und Anwendungsbereiche. Ein Überblick.
LAYOUT PARALLELER KORPORA

 Texte in allen Sprachen in gleiche Teile/Sequenzen aligniert
      = gleiche Teile (bsp. Sätze) in allen Sprachen einander zugeordnet
      manuell – weniger fehlerhaft, zeitlich anspruchsvoller
      automatisch – fehlerhafter, zeitlich nicht so anspruchsvoll
 Ansichtsweise parallel, in allen gewählten Sprachen (in Spalten)
DAS PARALLELKORPUS INTERCORP - Funktionen und Anwendungsbereiche. Ein Überblick.
INTERCORP

 Referenzkorpus* (seit der Version 6; jedes Jahr neue Version)
 synchrone Sprache                                                                           akademisches,
 1,554 Mrd. tokens (aktuelle Version 13, 2020, 40 Fremdsprachen + Tschechisch)         nichtkomerzielles Projekt

 im Rahmen des Tschechischen Nationalkorpus (ČNK) entwickelt (Institut des Tschechischen Nationalkorpus,
   Philosophische Fakultät, Karlsuniveristät, Prag)
 enthält v.a. Sprachen, die an der Philosophischen Fakultät unterrichtet werden
 erarbeitet und erweitert von Studierenden und akademischen Mitarbeitern der Philosophischen Fakultät
DAS PARALLELKORPUS INTERCORP - Funktionen und Anwendungsbereiche. Ein Überblick.
ZUSAMMENSETZUNG (VERSION 13, 2020)

 40 Fremdsprachen (davon 27 getaggt; 25 lemmatisiert)
 + Tschechisch als „Pivot“ (Hauptsprache)
                                                                                    getagged, lemmatisiert
 Core – manuelles Alignment                                                        getagged, nicht lemmatisiert
                                                                                    weder getagged, noch lemmatisiert
 Collections – automatisches Alignment

 Albanisch      Arabisch       Bulgarisch    Chinesisch    Dänisch     Deutsch             Englisch        Estnisch

  Finnisch     Französisch     Griechisch    Hebräisch      Hindi      Isländisch         Italienisch     Japanisch

Katalanisch    Kroatisch        Lettisch     Litauisch    Malaiisch    Maltesisch        Mazedonisch    Niederländisch

Norwegisch      Polnisch     Portugiesisch    Romani      Rumänisch    Russisch          Schwedisch        Serbisch

 Slowakisch    Slowenisch       Spanisch     Türkisch     Ukrainisch   Ungarisch        Vietnamesisch   Weißrussisch
DAS PARALLELKORPUS INTERCORP - Funktionen und Anwendungsbereiche. Ein Überblick.
VERTEILUNG DER TEXTE IM INTERCORP NACH SPRACHEN
      Tschechisch

                              Französisch

                                            Italienisch
                    Deutsch

                                                          Polnisch
                    Dänisch

                                                                     Quelle der Graphik:
                                                                     https://wiki.korpus.cz/lib/ex
                                                                     e/detail.php/cnk:intercorp:in
                                                                     tercorp_wordcounts_v13.p
                                                                     ng?id=cnk%3Aintercorp%3
                                                                     Averze13
DAS PARALLELKORPUS INTERCORP - Funktionen und Anwendungsbereiche. Ein Überblick.
KORPUSMANAGER

 Seit 2013 neue Webschnittstelle KonText
 Zugänglich auf www.korpus.cz
 alle wichtigen Informationen auf Wiki (über Korpora, Umgang mit KonText, Glossar)
 Webseite zweisprachig (Tschechisch, Englisch)
VERLAUF DER RECHERCHE

                           SUCHANFRAGE
                          Wortform (Word)
                                Lemma
                           Buchstabenkette
                           Wortverbindung
                                                                          BEARBEITUNG DER ERGEBNISSE
                           regulare Zeichen
                                                                          Konkordanzenmischung/-sortierung
                   Klein-/Großschreibungbeachtung
                                                                                Frequenzdistribution
                       CQL (incl. Tag-Zeichen)       ERGEBNISANSICHT
   KORPUSAUSWAHL                                                                 Kookkurrenz- und
                                                       KWIC-Ansicht
                                                                                  Kollokationssuche
                                                       Volltext-Ansicht
                                                                              positiven/negativen Filters
                                                                                        Export
                   SUCHANFRAGEABGRENZUNG
                    in vordefinierten Textgruppen
                           nach Texttypen
                    nach der Sprache des Originals
                     nach dem/der Übersetzer*in
INTERCORP IM KORPUSMANAGER KONTEXT

Verfahren
1) Auf der Webseite www.korpus.cz in der oberen Leiste „KonText“ wählen
2) Das automatisch vordefinierte Korpus (z.B. syn2020) anklicken und „all corpora“ wählen
3) Aus dem Gesamtangebot der Korpora „InterCorp“ wählen und die gewünschte sprachliche Variante wählen
SUCHANFRAGEFENSTER
SUCHANFRAGEFENSTER – KONTEXTSPEZIFIKATION
SUCHANFRAGEFENSTER – ALIGNIERTES KORPUS
SUCHANFRAGEFENSTER – ABGRENZUNG DER SUCHE
SUCHANFRAGE KONKRET

in einer Sprache              in beiden/mehreren Sprachen
SUCHERGEBNISSE I
SUCHERGEBNISSE II
BIBLIOGRAPHISCHE ANGABEN

Doppeltes Anklicken der blauen Kurzzitierung der bibliographischen Angabe ermöglicht
die volle bibliographische Information zu sehen.
VOLLTEXTANSICHT

 Durch doppeltes Anklicken der Konkordanz öffnet sich die Volltextansicht der konkreten Konkordanz.
ZUSÄTZLICHE BEARBEITUNG DER ERGEBNISSE

 Filter
 Frequenz
 Kollokationen
FILTER

 weitere Bearbeitung des bereits analysierten Materials
 ermöglicht aus der Gesamtmenge der Ergebnisse nach weiteren Kriterien auszusortieren

 positiver Filter
 negativer Filter
FILTER – SCHRITT 1

Verfahren:
1) Suchwort heraussuchen
2) gefundene Belege analysieren
FILTER – SCHRITT 1I

Verfahren:
3) In der oberen Leiste „Filter“ wählen
4) Positiven/Negativen Filter wählen
5) Das gewünschte Wort eingeben
6) Ergebnisse analysieren
FREQUENZLISTE – SCHRITT I

 Ermöglicht die Ergebnisse nach der Frequenz in verschiedenen Kategorien zu sortieren
 nach Lemmata
 nach Dokumenten
 nach Textgruppen, -typen, eigener Wahl
Verfahren:
1) Suchwort heraussuchen
2) gefundene Belege analysieren
FREQUENZLISTE – SCHRITT II

Verfahren:
3) In der oberen Leiste „Frequenz“ wählen
4) Das Kriterium, nach dem die Frequenz dargestellt wird
5) Ergebnisse beurteilen
KOLLOKATIONS-/KOOKKURRENZPROFIL – SCHRITT I
 ermöglicht die signifikanten Kookkurrenzpartner zu entdecken
 hängt vom eingestellten Kontext und vom gewählten statistischen Maß ab
 vorhandene Maße
               •   Frequenz   •   LLR
               •   MI3        •   Min. sensitivity
               •   MI         •   MI.log_f
               •   T-score    •   Relative freq. (%)
               •   logDice
Verfahren
1) Suchwort heraussuchen
2) gefundene Belege analysieren
KOLLOKATIONS-/KOOKKURRENZPROFIL – SCHRITT II
 Verfahren:
3) In der oberen Leiste „Kollokationen“ wählen
4) Parameter der Kollokationsanalyse festlegen
5) Kollokationspartner nach einzelnen Maßen analysieren
WIEDERHOLUNG
                                          IST DIE MUTTER
                                          DER WEISHEIT

Wordwall-Quiz:
https://wordwall.net/play/17399/363/570
GRAUE THEORIE – BUNTE PRAXIS

Wählen Sie im InterCorp ein Sprachenpaar Ihrer Wahl und versuchen Sie
nach einem beliebigen Wort / einer beliebigen Wortverbindung zu suchen.
Referieren Sie uns darüber, was Sie festgestellt haben.
GRAUE THEORIE – BUNTE PRAXIS II
 Analysieren Sie im InterCorp in zwei separaten Recherchen die
   Wortpaare heilbar – heilsam (oder weitere ähnliche Paare wie furchtbar
   – furchtsam, mitteilbar – mitteilsam, achtbar – achtsam).
 Benutzen Sie dabei immer das Korpus German – v13 und das Korpus
   Ihrer Muttersprache. Sie können je nach Ihren sprachlichen Kenntnissen
   auch Korpora weiterer Sprachen einbeziehen.
 Bemühen Sie sich anhand von erworbenen Belegen und
   Übersetzungsäquivalenten den Unterschied zwischen den Suffixen –bar
   und –sam zu beschreiben.
 Sie arbeiten in internationalen Gruppen.
GRAUE THEORIE
            BUNTE PRAXIS III
Hallo. – Ahoj. – Salut. – Ciao. – Cześć. – Hej.
   Lehrbücher geben den Lernenden oft nicht
    genügende Informationen. So ist in den meisten
    Lehrbüchern des Deutschen die Begrüßung
    „Hallo!“ als Begrüßung zweier
    Freunde/Bekannten (die sich auch duzen)
    dargestellt.
   Funktioniert Hallo! wirklich als volles Äquivalent
    zu den o.g. Begrüßungen?
   Wählen Sie die Korpora des Deutschen und
    Ihrer Muttersprache. Analysieren Sie die
    deutsche Begrüßung Hallo und beobachten Sie
    dabei die Kontexte/Situationen der Benutzung
    und der benutzten Äquivalente.
   Arbeiten Sie in nationalen Gruppen.
   Berichten Sie uns dann darüber, wie diese
    Begrüßung in Ihrer Muttersprache funktioniert.
FRAGEN UND BEMERKUNGEN?
WEITERE BEKANNTE PARALLELKORPORA

 KAČENKA (1997)/KAČENKA2(2002/2003) – MUNI Brünn (Tschechische Republik); Englisch - Tschechisch
 EuroParl – Aufzeichnungen der Handlungen im Europäischen Parlament; 21 Sprachen; aligniert; mit dem Ziel
   entwickelt, die Methoden der maschinellen Übersetzung statistisch auswerten zu können
 ParaSol – Parallelkorpus der slawischen und anderen Sprachen; aligniert; Belletristik
 OPUS – The Open Parallel Corpus – Universtiät Uppsala (Schweden) – sammelt frei zugängliche Texte aus den
   Webseiten; über 90 Sprachen (über 3800 Sprachpaare)
QUELLEN

 Dovalil, V. – Káňa, T. – Peloušková, H. – Zbytovský, Š. – Vavřín, M.: Korpus InterCorp – němčina, verze 13
   z 1. 11. 2020. Ústav Českého národního korpusu FF UK, Praha 2020. Dostupný z
   WWW http://www.korpus.cz
 Čermák, F. – Rosen, A. (2012): The case of InterCorp, a multilingual parallel corpus. In International
   Journal of Corpus Linguistics, 17(3), 411–427.
 https://www.korpus.cz
 https://wiki.korpus.cz/doku.php/cnk:intercorp
 https://ucnk.ff.cuni.cz/en/
DANKE FÜR IHRE
AUFMERKSAMKEIT!
Sie können auch lesen