Einführung in die Maschinelle Übersetzung (MÜ)

Die Seite wird erstellt Horst-Adolf Weller
 
WEITER LESEN
Vorlesung "Einführung
                                                                   Sprachdatenverarbeitung" (Teil 6)

                   Vorlesung „Einführung in die Sprachdatenverarbeitung“

                                   Einführung
                      in die Maschinelle Übersetzung (MÜ)

                                     Dr. Uwe Reinke

                                    u.reinke@mx.uni-saarland.de

            Übersicht

                 z Machine-Aided Human Translation, Human-Aided
                   Machine Translation, Fully Automatic Translation
                 z Einsatzkriterien
                 z Systemtypen
                    – Regelbasiert
                        (bi-, multilingual; uni-, bidirektional; direkt, indirekt;
                        Transfer, Interlingua)
                    –   Beispielbasiert
                 z Grober Abriss der Geschichte der MÜ

                                             U. Reinke 2005

Dr. Uwe Reinke                                                                                    1
Vorlesung "Einführung
                                                                         Sprachdatenverarbeitung" (Teil 6)

            Computergestützte und Maschinelle Übersetzung:
            MAHT, HAMT, FAT

                 z Machine-Aided Human Translation (MAHT)
                   (Maschinelle Übersetzungshilfen)
                    – Der Mensch übersetzt, die Software unterstützt
                    ÎMultilinguale Textverarbeitung
                    ÎRechnergestützte Terminologieverwaltung
                    ÎIntegrierte Systeme für den Übersetzungsarbeitsplatz, Lokalisierungstools

                 z Human-Aided Machine Translation (HAMT)
                    – Die Software übersetzt, der Mensch unterstützt

                 z Fully Automatic Translation (FAT)
                    – Die Software übersetzt; die Übersetzung wird ohne weitere Bearbeitung
                      durch den Menschen verwendet
                    – früher: Fully Automatic High Quality Translation (FAHQT)
                    – heute: realistischere Einschätzung, vorwiegend Forschungsprojekte

                                                       U. Reinke 2005

            Human-Aided Machine Translation (HAMT)

                  z Übersetzung zumindest zum Teil durch den Computer,
                    d.h. die Software übersetzt, der menschliche Bearbeiter
                    unterstützt.
                  z Verschiedene Eingriffsmöglichkeiten für den Übersetzer
                     – Eingriff des Menschen vor dem Übersetzungsprozess
                        (Pre-Editing)
                      – Eingriff des Menschen während des Übersetzungsprozesses
                        (Interaktives Übersetzen)
                      – Eingriff des Menschen nach dem Übersetzungsprozess
                        (Post-Editing)

                                                       U. Reinke 2005

Dr. Uwe Reinke                                                                                          2
Vorlesung "Einführung
                                                                       Sprachdatenverarbeitung" (Teil 6)

            Human-Aided Machine Translation (HAMT)

                 z Pre-Editing (Präedition)
                   Eingriff des Menschen vor dem Übersetzungsprozess entweder
                   durch Formulierung des ausgangssprachlichen Textes in
                   standardisierter Sprache oder Umformulierung gemäß der
                   Leistungsfähigkeit des Übersetzungssystems.
                 Beispiel:
                 z METEO
                    - Canadian Meteorological Center
                    - Übersetzung englischer Wettervorhersagen ins Französische
                    Îstandardisierte Formulierungen
                    Îendliche Menge von Wetterzuständen → begrenzter Wortschatz

                                                   U. Reinke 2005

            Human-Aided Machine Translation (HAMT)

                 z Interaktives Übersetzen
                   Interaktion zwischen Software und Mensch zur Auflösung von
                   Mehrdeutigkeiten und ähnlichen Übersetzungsproblemen

                 Beispiel:
                 z Eingabesatz:
                   "They filled the tank with gas"
                 z Fragen der Software an den Benutzer:
                   "tank" = military vehicle or vessel for fluids?
                   "gas" = gasoline or vapor?
                   "fill with gas" or "tank with gas"?
                   "they" = the soldiers, the tanks, the enemy etc.?

                                                   U. Reinke 2005

Dr. Uwe Reinke                                                                                        3
Vorlesung "Einführung
                                                                       Sprachdatenverarbeitung" (Teil 6)

            Human-Aided Machine Translation (HAMT)

                 z Post-Editing (Postedition)

                    – Eingriff des Menschen nach dem Übersetzungsprozess
                    ÎKorrektur / Nachredaktion
                    – Heutzutage arbeiten nahezu alle in der Praxis eingesetzten
                       Systeme mit Post-Editing
                    – Dabei wird versucht, eine möglichst benutzerfreundliche
                       Schnittstelle zwischen dem MÜ-System und dem Post-Editing-
                       Werkzeug herzustellen. Es werden z.B. zusätzliche
                       Terminologiedatenbanken oder Online-Wörterbücher in den
                       Post-Editionsprozess mit einbezogen sowie eine Schnittstelle zu
                       einem möglichst benutzerfreundlichen Textverarbeitungssystem
                       bereitgestellt.

                                                  U. Reinke 2005

            Fully Automatic Translation (FAT)

                 – ursprüngliche Zielsetzung:
                   fully automatic high-quality translation (FAHQT)
                 – heute realistischere Einschätzung - fast nur noch
                   Forschungsprojekte
                 – Erforschung des prinzipiell Machbaren, Erprobung
                   computerlinguistischer Modelle
                 – bislang ambitioniertestes Projekt: VERBMOBIL
                   (http://verbmobil.dfki.de/)
                 – Schwerpunktverlagerung in der Forschung:
                   Übersetzungstools, Mensch-Maschine-Schnittstelle am
                   Übersetzerarbeitsplatz, Künstliche Intelligenz

                                                  U. Reinke 2005

Dr. Uwe Reinke                                                                                        4
Vorlesung "Einführung
                                                                              Sprachdatenverarbeitung" (Teil 6)

            Einsatzkriterien für MÜ

                 z Zu bearbeitendes Material:
                    – Text maschinenlesbar
                    – korrekte Rechtschreibung
                    – Layout identifizierbar
                    – erforderliche Sprachkombinationen
                    – Textsorten (homogen, repetitiv)
                    – beschränkte Anzahl von Fachgebieten
                 z Technische Voraussetzungen:
                    – integrierte Textproduktion im Haus
                    – Hardware verfügbar bzw. leicht integrierbar
                 z Personal:
                    – mehrere Übersetzer
                    – (computer-)linguistische Kenntnisse

                                                     U. Reinke 2005

            Systemtypen:
            Regelbasierte vs. beispielbasierte MÜ

                 Analyse sprachlicher Daten:
                 Strukturalistischer vs. empirischer Ansatz
            z Strukturalistischer Ansatz:                                        Regelbasierte MÜ
                  – Sprache ist ein begrenztes, regelbasiertes System
                  – Automatische Sprachverarbeitung lässt sich mit Regeln definieren
                  – Regel werden anhand von menschlicher Intuition formuliert
                                                                                 Beispielbasierte/
            z Empirischer Ansatz:                                                korpusbasierte/
                  – Sprache ist die Gesamtmenge ihrer Instanzen                  statistische MÜ
                    (gesprochene und geschriebene Texte)
                  – Generalisierungen über Sprache(n) sind möglich auf der Basis von
                    großen Textsammlungen, die als repräsentative Stichproben betrachtet
                    werden
                    Î Korpora

                                                     U. Reinke 2005

Dr. Uwe Reinke                                                                                               5
Vorlesung "Einführung
                                                                     Sprachdatenverarbeitung" (Teil 6)

            Systemtypen:
            Regelbasierte vs. beispielbasierte MÜ

                 z Regelbasierte Systeme
                    – Formalisierung des Wissens von Übersetzern
                    – durch Linguisten und Programmierer
                    – benötigt Wörterbücher, grammatische Regeln etc.

                 z Beispielbasierte Systeme
                    – benötigen große mehrsprachige Korpora
                    – automatische Extraktion von Ähnlichkeiten
                    – --> Ähnlichkeit mit Translation Memories;
                        aber:
                        beispielbasierte MÜ-Systeme erstellen selbst neue Übersetzungen

                                               U. Reinke 2005

            Systemtypen:
            Regelbasierte MÜ-Systeme

                    z Verfahren
                       – bi-, multilingual
                       – uni-, bidirektional
                       – direkt, indirekt
                       – Transfer, Interlingua

                    z „Lingware“-Komponenten
                        – Lexika (Systemwörterbücher)
                        – Grammatiken (für ausgangssprachliche Analyse
                              und zielsprachliche Synthese/Generierung)
                          –   Transferregeln

                                               U. Reinke 2005

Dr. Uwe Reinke                                                                                      6
Vorlesung "Einführung
                                                                               Sprachdatenverarbeitung" (Teil 6)

            Systemtypen:
            Regelbasierte MÜ-Systeme – direkt vs. indirekt

                 Direkt:
                 z   1) DE   ->   EN            1), 2), 3), 4): bilingual
                 z   2) DE   ->   FR            1)+2)+…: multilingual
                 z   3) EN   ->   DE            1)-4): unidirektional
                 z   4) FR   ->   EN            1)+3): bidirektional

                 Indirekt:
                 z 4) + 3): FR -> EN -> DE
                 z FR -> Interlingua -> DE
                 z FR (Analyse) -> EN-Interface-Struktur->DE-Interface-Struktur (Transfer)
                   ->DE (Synthese, Generierung)

                                                  U. Reinke 2005

            Systemtypen:
            Regelbasierte direkte MÜ-Systeme
                     z keine Zwischenstufen über Abstraktionen, Zwischensprachen o.ä.
                     Î Verarbeitung des ausgangssprachlichen Input führt „direkt“ zu
                       zielsprachlichem Output
                     z einfache morphologische Analysen (Erkennen von Endungen,
                       Reduzierung flektierter Formen auf Stammformen)
                     z keine syntaktische oder gar semantische Analyse
                     Î Ergebnis: „Wort-für-Wort-Übersetzung“ mit geringfügiger Anpassung der
                       Wortstellung in der Zielsprache
                     z Systeme der „1. Generation“ (50er/60er Jahre des 20. Jh.)

                                                                    © Hutchins, Somers (1992)

                                                  U. Reinke 2005

Dr. Uwe Reinke                                                                                                7
Vorlesung "Einführung
                                                                                    Sprachdatenverarbeitung" (Teil 6)

            Systemtypen:
            Regelbasierte indirekte MÜ-Systeme: Interlingua-Ansatz
                 z Grundannahme: Es gibt eine Repräsentation, die mehreren Sprachen
                   gemeinsam ist („Interlingua“)
                 Î z.B. Kunstsprachen, Hilfssprachen (Esperanto), abstrakte formale
                   Repräsentationen
                                      Ausgangs-
                                                          Analyse       Synthese          Ziel-
                                      Ausgangs-                                            Ziel-
                 Î Übersetzungs-      sprache
                                       sprache 11                                       sprache
                                                                                        sprache 11
                   prozess:
                                      Ausgangs-
                                      Ausgangs-                                           Ziel-
                                                                                           Ziel-
                 ÎPro Sprachpaar 1    sprache
                                       sprache 22                                       sprache
                                                                                        sprache 22

                  Analyse- und 1                              Interlingua
                                                              Interlingua
                  Synthese-Modul      Ausgangs-
                                      Ausgangs-                                           Ziel-
                                                                                           Ziel-
                                      sprache
                                       sprache 33                                       sprache
                                                                                        sprache 33

                                      Ausgangs-
                                      Ausgangs-                                            Ziel-
                                                                                           Ziel-
                                      sprache
                                      sprache …
                                              …                                         sprache
                                                                                        sprache ……

                                                     U. Reinke 2005

            Systemtypen:
            Regelbasierte indirekte MÜ-Systeme: Interlingua-Ansatz

             Beispiel für abstrakte Repräsentation:

             z He walked across the road.
               Il traversa la rue à pied.

                                                                            © Hutchins, Somers (1992)

                                                     U. Reinke 2005

Dr. Uwe Reinke                                                                                                     8
Vorlesung "Einführung
                                                                                  Sprachdatenverarbeitung" (Teil 6)

            Systemtypen:
            Regelbasierte indirekte MÜ-Systeme: Interlingua-Ansatz

             Probleme:
             z Auswahl der Interlingua (Welche Sprache, welcher Formalismus?)
             Î Gibt es tatsächlich sprachunabhängige Darstellungen von Bedeutungen?
             z Aufbau des Lexikons
                   (z.B. engl. leg; span. pierna (Mensch), pata (Tier, Tisch), pie (Stuhl); dt. Bein
                   Î Interlingua: Darstellung von einer Bedeutung oder von drei Bedeutungen??)
             z Stil / Bedeutung (aus einer abstrakten Repräsentation lassen sich verschiedene
                   zielsprachliche Varianten (mit unterschiedlichem Stil oder gar unterschiedlicher
                   Bedeutung erzeugen ÎGleichwertigkeit??)
                      – z. B.: Er ging über die Straße. Über die Straße ging er. Er sprang über die
                         Straße. Er flitzte über die Straße. etc.

             Î Bisher keine kommerziellen Systeme!

                                                      U. Reinke 2005

            Systemtypen:
            Regelbasierte indirekte MÜ-Systeme: Transfer-Ansatz

                 z Analyse des Ausgangstexts führt zu abstrakter Repräsentation des
                   Ausgangstexts (ausgangssprachliche Interface-Struktur)
                 z Synthese des Zieltexts erfordert abstrakte Repräsentation des Zieltexts
                   (zielsprachliche Interface-Struktur)
                 z die Übertragung zwischen den beiden Interface-Strukturen heißt Transfer
                 Beispiel 1: 2 Sprachpaare Î 2 Transfer-Module

                                                                          © Hutchins, Somers (1992)

                                                      U. Reinke 2005

Dr. Uwe Reinke                                                                                                   9
Vorlesung "Einführung
                                                                             Sprachdatenverarbeitung" (Teil 6)

            Systemtypen:
            Regelbasierte indirekte MÜ-Systeme: Transfer-Ansatz
             Beispiel 2:
             3 Sprachpaare
             Î 6 Transfer-Module

             (1 zusätzliches
             Sprachpaar erfordert 4
             weitere Transfermodule!
             Verallgemeinert: Für n
             Sprachen benötigt man
             n x (n-1) Module!)

                                                                                 © Hutchins, Somers (1992)

                                                       U. Reinke 2005

            Systemtypen:
            Regelbasierte indirekte MÜ-Systeme: Transfer-Ansatz

                 Beispiel für Interface-Strukturen:
                 z Any government is dependent on its supporters.
                   Tout gouvernement dépend de ses défenseurs.

                          © Hutchins, Somers (1992)                      © Hutchins, Somers (1992)

                                                       U. Reinke 2005

Dr. Uwe Reinke                                                                                               10
Vorlesung "Einführung
                                                            Sprachdatenverarbeitung" (Teil 6)

            Systemtypen:
            Regelbasierte MÜ-Systeme – Beispiel: Transfersystem

           Langenscheidts T1:
           Übersetzungs-
           fenster

                                    U. Reinke 2005

            Systemtypen:
            Regelbasierte MÜ-Systeme – Beispiel Transfersystem

            Langenscheidts T1:
            Analysebaum

                                   "Flying planes can be dangerous"

                                    U. Reinke 2005

Dr. Uwe Reinke                                                                            11
Vorlesung "Einführung
                                                                          Sprachdatenverarbeitung" (Teil 6)

            Systemtypen:
            Regelbasierte MÜ-Systeme – Beispiel Transfersystem

            Transfer- und
            Synthese-
            ergebnis von T1

                 "Flying planes can be dangerous" Î "Fliegende Flugzeuge können gefährlich sein"

                                                   U. Reinke 2005

            Systemtypen:
            Regelbasierte MÜ Systeme – Übersicht
            (Dreieck/Pyramide nach Vauquois)
                                               Interlingua

                                                                       Synthese/Generierung

                                          Semantischer Transfer

                           Analyse
                                                                                   Zielsprache 3
                                          Syntaktischer Transfer

                                                                              Zielsprache 2

                                            Direkter Transfer

                   Quellsprache 1                                        Zielsprache 1

                                                   U. Reinke 2005

Dr. Uwe Reinke                                                                                          12
Vorlesung "Einführung
                                                                                Sprachdatenverarbeitung" (Teil 6)

            Systemtypen:
            Beispielbasierte MÜ-Systeme
            z Verwenden eines alignierten Textkorpus aus ausgangs- und zielsprachlichen
              Texten (= TM-System)
                     Î daher auch Bezeichnung „korpusbasierte MÜ-Systeme“
            z Ziel 1: Finden von ausgangssprachlichen Sätzen im Textkorpus, die dem aktuell
              zu übersetzenden Satz möglichst ähnlich sind (= TM-System)
            z Ziel 2: Erstellen einer Übersetzung (≠ TM-System)
                     – Auswahl geeigneter Fragmente aus den gefundenen ausgangssprachlichen Sätzen
                         (erfordert Segmentierung unterhalb der Satzebene)
                     –   Zuordnen der entsprechenden Fragmente auf der zielsprachlichen Seite der
                         gefundenen Satzpaare (erfordert Alignment unterhalb der Satzebene)
                     –   Erstellen der Übersetzung aus den ausgewählten zielsprachlichen Fragmenten
                         (Rekombination)

            z bislang nur experimentelle Systeme !

                                                      U. Reinke 2005

            Systemtypen:
            Beispielbasierte MÜ-Systeme – Beispiel

                     (1) The monkey ate a peach.               ⇔        Der Affe aß einen Pfirsich
                     (2) The man ate a peach.                  ⇔        Der Mann aß einen Pfirsich.
                 Î   (3) monkey ⇔ Affe ; man ⇔ Mann
                 Î   (4) The … ate a peach.                    ⇔        Der … aß einen Pfirsich.
                     (5) The dog ate a bone.                   ⇔        Der Hund aß einen Knochen.
                 Î   (6) The … ate a …                         ⇔        … aß einen …
                 Î   (7) The dog ate a peach                   ⇔        Der Hund aß einen Pfirsich.
                     (8) A man ate the dog.                    ⇔        Einen Mann aß der Hund. (??)
                                                               ⇔        Ein Mann aß den Hund.

                 Î Rekombination erfordert (linguistisches) Wissen!

                                                      U. Reinke 2005

Dr. Uwe Reinke                                                                                                13
Vorlesung "Einführung
                                                                               Sprachdatenverarbeitung" (Teil 6)

            Systemtypen:
            Beispielbasierte MÜ-Systeme
                   Alignment unterhalb der Satzebene: Ermitteln und Zuordnen von
                   ausgangs- und zielsprachlichen Fragmenten

                                                                        © E. Macklovitch, M.-L. Hannan, 1996

                 z Zuordnung ausgangs- und zielsprachlicher Fragmente eines Satzpaares
                   deutlich schwieriger als Zuordnung ausgangs- und zielsprachlicher Sätze
                   eines Textpaares
                 Î oft keine „Oberflächenkriterien“ für die Zuordnung von Sinneinheiten

                                                   U. Reinke 2005

            Geschichte: 6 Dekaden MÜ

                 z 1946-56      Erste Versuche: IBM/Georgetown Experiment
                 z 1956-66      Euphorie und Enttäuschung:
                                Auf dem Weg zum ALPAC-Report
                                (ALPAC = Automatic Language Processing Advisory Committee)
                 z 1966-76      Grundlagenforschung
                 z 1976-86      „Wiedergeburt“: EU, Japan
                 z 1986-96      Realismus, Kommerzialisierung („MÜ für PC“),
                                Hoffnung auf Forschungsergebnisse in den Bereichen
                                Computerlinguistik (CL) und Künstliche Intelligenz (KI)
                 z 1997-        Globalisierung (internationale Firmenzusammenschlüsse,
                                MÜ im Internet), gesprochene Sprache (Forschungsprojekte
                                zum maschinellen Dolmetschen), Integration (Einbindung in
                                gesamten Textproduktionsprozess, Kombination mit
                                Terminologieverwaltung und Translation-Memory-Systemen)

                                                   U. Reinke 2005

Dr. Uwe Reinke                                                                                                 14
Vorlesung "Einführung
                                                                                                 Sprachdatenverarbeitung" (Teil 6)

                                 Literaturhinweise
                             zu den Vorlesungsteilen
                    „Einführung Sprachdatenverarbeitung und
                               Sprachtechnologie“,
                       „integrierte Übersetzungssysteme“,
                           „Softwarelokalisierung“ und
                            „Maschinelle Übersetzung“

                                                               U. Reinke 2005

             z Einführung in die Sprachdatenverarbeitung:
                  Carstensen, Kai-Uwe u.a. (Hrsg.) (2004): Computerlinguistik und Sprachtechnologie. Eine Einführung. 2.,
                      überarb. u. erw. Aufl. Heidelberg: Spektrum Akademischer Verlag
                Lenders, Winfried; Willée, Gerd (21998, 11986): Linguistische Datenverarbeitung: ein Lehrbuch. Opladen:
                    Westdeutscher Verlag
             z Computergestützte Übersetzung (insbes. Integrierte Übersetzungssysteme):
                  Bowker, Lynne (2002). Computer-aided translation technology: A practical introduction. Ottawa: University of
                     Ottawa Press
                  eCoLoRe Project (2004): Creating shareable and renewable eContent localisation resources to support ICT
                     training for translators.  (insbes. “Übersicht über Prozesse und Tools bei der
                     Lokalisierung von eContent”)
                  Reinke, Uwe (2004): Translation Memories: Systeme – Konzepte – Linguistische Optimierung. Frankfurt a. M.:
                      Peter Lang
                  Somers, H. L. (Hrsg.): Computers and translation: A translator's guide. Amsterdam/Philadelphia: John
                      Benjamins
             z Softwarelokalsisierung:
                 Esselink, Bert (2000): A Practical Guide to Localization. Amsterdam: John Benjamins.
                  Reineke, Detlef; Schmitz, Klaus-Dirk (Hrsg.) (2005): Einführung in die Softwarelokalisierung. Tübingen: Narr
                  Schmitz, Klaus-Dirk; Wahle, Kirsten (Hrsg.) (2000): Softwarelokalisierung. Tübingen: Stauffenburg
             z Maschinelle Übersetzung:
                Arnold, D., L. Balkan, R.L. Humphreys, S. Meijer, S. and L. Sadler, Machine Translation: an introductory guide.
                    Manchester: NEC Blackwell, 1994 
                  Hutchins, W.J.; Somers, H.L. (1992): An Introduction to Machine Translation. London: Academic Press
                  Trujillo , Arturo (1999): Translation Engines. Techniques for Machine Translation. Berlin: Springer

                                                               U. Reinke 2005

Dr. Uwe Reinke                                                                                                                    15
Sie können auch lesen