Einführung in die Maschinelle Übersetzung (MÜ)
←
→
Transkription von Seiteninhalten
Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten
Vorlesung "Einführung Sprachdatenverarbeitung" (Teil 6) Vorlesung „Einführung in die Sprachdatenverarbeitung“ Einführung in die Maschinelle Übersetzung (MÜ) Dr. Uwe Reinke u.reinke@mx.uni-saarland.de Übersicht z Machine-Aided Human Translation, Human-Aided Machine Translation, Fully Automatic Translation z Einsatzkriterien z Systemtypen – Regelbasiert (bi-, multilingual; uni-, bidirektional; direkt, indirekt; Transfer, Interlingua) – Beispielbasiert z Grober Abriss der Geschichte der MÜ U. Reinke 2005 Dr. Uwe Reinke 1
Vorlesung "Einführung Sprachdatenverarbeitung" (Teil 6) Computergestützte und Maschinelle Übersetzung: MAHT, HAMT, FAT z Machine-Aided Human Translation (MAHT) (Maschinelle Übersetzungshilfen) – Der Mensch übersetzt, die Software unterstützt ÎMultilinguale Textverarbeitung ÎRechnergestützte Terminologieverwaltung ÎIntegrierte Systeme für den Übersetzungsarbeitsplatz, Lokalisierungstools z Human-Aided Machine Translation (HAMT) – Die Software übersetzt, der Mensch unterstützt z Fully Automatic Translation (FAT) – Die Software übersetzt; die Übersetzung wird ohne weitere Bearbeitung durch den Menschen verwendet – früher: Fully Automatic High Quality Translation (FAHQT) – heute: realistischere Einschätzung, vorwiegend Forschungsprojekte U. Reinke 2005 Human-Aided Machine Translation (HAMT) z Übersetzung zumindest zum Teil durch den Computer, d.h. die Software übersetzt, der menschliche Bearbeiter unterstützt. z Verschiedene Eingriffsmöglichkeiten für den Übersetzer – Eingriff des Menschen vor dem Übersetzungsprozess (Pre-Editing) – Eingriff des Menschen während des Übersetzungsprozesses (Interaktives Übersetzen) – Eingriff des Menschen nach dem Übersetzungsprozess (Post-Editing) U. Reinke 2005 Dr. Uwe Reinke 2
Vorlesung "Einführung Sprachdatenverarbeitung" (Teil 6) Human-Aided Machine Translation (HAMT) z Pre-Editing (Präedition) Eingriff des Menschen vor dem Übersetzungsprozess entweder durch Formulierung des ausgangssprachlichen Textes in standardisierter Sprache oder Umformulierung gemäß der Leistungsfähigkeit des Übersetzungssystems. Beispiel: z METEO - Canadian Meteorological Center - Übersetzung englischer Wettervorhersagen ins Französische Îstandardisierte Formulierungen Îendliche Menge von Wetterzuständen → begrenzter Wortschatz U. Reinke 2005 Human-Aided Machine Translation (HAMT) z Interaktives Übersetzen Interaktion zwischen Software und Mensch zur Auflösung von Mehrdeutigkeiten und ähnlichen Übersetzungsproblemen Beispiel: z Eingabesatz: "They filled the tank with gas" z Fragen der Software an den Benutzer: "tank" = military vehicle or vessel for fluids? "gas" = gasoline or vapor? "fill with gas" or "tank with gas"? "they" = the soldiers, the tanks, the enemy etc.? U. Reinke 2005 Dr. Uwe Reinke 3
Vorlesung "Einführung Sprachdatenverarbeitung" (Teil 6) Human-Aided Machine Translation (HAMT) z Post-Editing (Postedition) – Eingriff des Menschen nach dem Übersetzungsprozess ÎKorrektur / Nachredaktion – Heutzutage arbeiten nahezu alle in der Praxis eingesetzten Systeme mit Post-Editing – Dabei wird versucht, eine möglichst benutzerfreundliche Schnittstelle zwischen dem MÜ-System und dem Post-Editing- Werkzeug herzustellen. Es werden z.B. zusätzliche Terminologiedatenbanken oder Online-Wörterbücher in den Post-Editionsprozess mit einbezogen sowie eine Schnittstelle zu einem möglichst benutzerfreundlichen Textverarbeitungssystem bereitgestellt. U. Reinke 2005 Fully Automatic Translation (FAT) – ursprüngliche Zielsetzung: fully automatic high-quality translation (FAHQT) – heute realistischere Einschätzung - fast nur noch Forschungsprojekte – Erforschung des prinzipiell Machbaren, Erprobung computerlinguistischer Modelle – bislang ambitioniertestes Projekt: VERBMOBIL (http://verbmobil.dfki.de/) – Schwerpunktverlagerung in der Forschung: Übersetzungstools, Mensch-Maschine-Schnittstelle am Übersetzerarbeitsplatz, Künstliche Intelligenz U. Reinke 2005 Dr. Uwe Reinke 4
Vorlesung "Einführung Sprachdatenverarbeitung" (Teil 6) Einsatzkriterien für MÜ z Zu bearbeitendes Material: – Text maschinenlesbar – korrekte Rechtschreibung – Layout identifizierbar – erforderliche Sprachkombinationen – Textsorten (homogen, repetitiv) – beschränkte Anzahl von Fachgebieten z Technische Voraussetzungen: – integrierte Textproduktion im Haus – Hardware verfügbar bzw. leicht integrierbar z Personal: – mehrere Übersetzer – (computer-)linguistische Kenntnisse U. Reinke 2005 Systemtypen: Regelbasierte vs. beispielbasierte MÜ Analyse sprachlicher Daten: Strukturalistischer vs. empirischer Ansatz z Strukturalistischer Ansatz: Regelbasierte MÜ – Sprache ist ein begrenztes, regelbasiertes System – Automatische Sprachverarbeitung lässt sich mit Regeln definieren – Regel werden anhand von menschlicher Intuition formuliert Beispielbasierte/ z Empirischer Ansatz: korpusbasierte/ – Sprache ist die Gesamtmenge ihrer Instanzen statistische MÜ (gesprochene und geschriebene Texte) – Generalisierungen über Sprache(n) sind möglich auf der Basis von großen Textsammlungen, die als repräsentative Stichproben betrachtet werden Î Korpora U. Reinke 2005 Dr. Uwe Reinke 5
Vorlesung "Einführung Sprachdatenverarbeitung" (Teil 6) Systemtypen: Regelbasierte vs. beispielbasierte MÜ z Regelbasierte Systeme – Formalisierung des Wissens von Übersetzern – durch Linguisten und Programmierer – benötigt Wörterbücher, grammatische Regeln etc. z Beispielbasierte Systeme – benötigen große mehrsprachige Korpora – automatische Extraktion von Ähnlichkeiten – --> Ähnlichkeit mit Translation Memories; aber: beispielbasierte MÜ-Systeme erstellen selbst neue Übersetzungen U. Reinke 2005 Systemtypen: Regelbasierte MÜ-Systeme z Verfahren – bi-, multilingual – uni-, bidirektional – direkt, indirekt – Transfer, Interlingua z „Lingware“-Komponenten – Lexika (Systemwörterbücher) – Grammatiken (für ausgangssprachliche Analyse und zielsprachliche Synthese/Generierung) – Transferregeln U. Reinke 2005 Dr. Uwe Reinke 6
Vorlesung "Einführung Sprachdatenverarbeitung" (Teil 6) Systemtypen: Regelbasierte MÜ-Systeme – direkt vs. indirekt Direkt: z 1) DE -> EN 1), 2), 3), 4): bilingual z 2) DE -> FR 1)+2)+…: multilingual z 3) EN -> DE 1)-4): unidirektional z 4) FR -> EN 1)+3): bidirektional Indirekt: z 4) + 3): FR -> EN -> DE z FR -> Interlingua -> DE z FR (Analyse) -> EN-Interface-Struktur->DE-Interface-Struktur (Transfer) ->DE (Synthese, Generierung) U. Reinke 2005 Systemtypen: Regelbasierte direkte MÜ-Systeme z keine Zwischenstufen über Abstraktionen, Zwischensprachen o.ä. Î Verarbeitung des ausgangssprachlichen Input führt „direkt“ zu zielsprachlichem Output z einfache morphologische Analysen (Erkennen von Endungen, Reduzierung flektierter Formen auf Stammformen) z keine syntaktische oder gar semantische Analyse Î Ergebnis: „Wort-für-Wort-Übersetzung“ mit geringfügiger Anpassung der Wortstellung in der Zielsprache z Systeme der „1. Generation“ (50er/60er Jahre des 20. Jh.) © Hutchins, Somers (1992) U. Reinke 2005 Dr. Uwe Reinke 7
Vorlesung "Einführung Sprachdatenverarbeitung" (Teil 6) Systemtypen: Regelbasierte indirekte MÜ-Systeme: Interlingua-Ansatz z Grundannahme: Es gibt eine Repräsentation, die mehreren Sprachen gemeinsam ist („Interlingua“) Î z.B. Kunstsprachen, Hilfssprachen (Esperanto), abstrakte formale Repräsentationen Ausgangs- Analyse Synthese Ziel- Ausgangs- Ziel- Î Übersetzungs- sprache sprache 11 sprache sprache 11 prozess: Ausgangs- Ausgangs- Ziel- Ziel- ÎPro Sprachpaar 1 sprache sprache 22 sprache sprache 22 Analyse- und 1 Interlingua Interlingua Synthese-Modul Ausgangs- Ausgangs- Ziel- Ziel- sprache sprache 33 sprache sprache 33 Ausgangs- Ausgangs- Ziel- Ziel- sprache sprache … … sprache sprache …… U. Reinke 2005 Systemtypen: Regelbasierte indirekte MÜ-Systeme: Interlingua-Ansatz Beispiel für abstrakte Repräsentation: z He walked across the road. Il traversa la rue à pied. © Hutchins, Somers (1992) U. Reinke 2005 Dr. Uwe Reinke 8
Vorlesung "Einführung Sprachdatenverarbeitung" (Teil 6) Systemtypen: Regelbasierte indirekte MÜ-Systeme: Interlingua-Ansatz Probleme: z Auswahl der Interlingua (Welche Sprache, welcher Formalismus?) Î Gibt es tatsächlich sprachunabhängige Darstellungen von Bedeutungen? z Aufbau des Lexikons (z.B. engl. leg; span. pierna (Mensch), pata (Tier, Tisch), pie (Stuhl); dt. Bein Î Interlingua: Darstellung von einer Bedeutung oder von drei Bedeutungen??) z Stil / Bedeutung (aus einer abstrakten Repräsentation lassen sich verschiedene zielsprachliche Varianten (mit unterschiedlichem Stil oder gar unterschiedlicher Bedeutung erzeugen ÎGleichwertigkeit??) – z. B.: Er ging über die Straße. Über die Straße ging er. Er sprang über die Straße. Er flitzte über die Straße. etc. Î Bisher keine kommerziellen Systeme! U. Reinke 2005 Systemtypen: Regelbasierte indirekte MÜ-Systeme: Transfer-Ansatz z Analyse des Ausgangstexts führt zu abstrakter Repräsentation des Ausgangstexts (ausgangssprachliche Interface-Struktur) z Synthese des Zieltexts erfordert abstrakte Repräsentation des Zieltexts (zielsprachliche Interface-Struktur) z die Übertragung zwischen den beiden Interface-Strukturen heißt Transfer Beispiel 1: 2 Sprachpaare Î 2 Transfer-Module © Hutchins, Somers (1992) U. Reinke 2005 Dr. Uwe Reinke 9
Vorlesung "Einführung Sprachdatenverarbeitung" (Teil 6) Systemtypen: Regelbasierte indirekte MÜ-Systeme: Transfer-Ansatz Beispiel 2: 3 Sprachpaare Î 6 Transfer-Module (1 zusätzliches Sprachpaar erfordert 4 weitere Transfermodule! Verallgemeinert: Für n Sprachen benötigt man n x (n-1) Module!) © Hutchins, Somers (1992) U. Reinke 2005 Systemtypen: Regelbasierte indirekte MÜ-Systeme: Transfer-Ansatz Beispiel für Interface-Strukturen: z Any government is dependent on its supporters. Tout gouvernement dépend de ses défenseurs. © Hutchins, Somers (1992) © Hutchins, Somers (1992) U. Reinke 2005 Dr. Uwe Reinke 10
Vorlesung "Einführung Sprachdatenverarbeitung" (Teil 6) Systemtypen: Regelbasierte MÜ-Systeme – Beispiel: Transfersystem Langenscheidts T1: Übersetzungs- fenster U. Reinke 2005 Systemtypen: Regelbasierte MÜ-Systeme – Beispiel Transfersystem Langenscheidts T1: Analysebaum "Flying planes can be dangerous" U. Reinke 2005 Dr. Uwe Reinke 11
Vorlesung "Einführung Sprachdatenverarbeitung" (Teil 6) Systemtypen: Regelbasierte MÜ-Systeme – Beispiel Transfersystem Transfer- und Synthese- ergebnis von T1 "Flying planes can be dangerous" Î "Fliegende Flugzeuge können gefährlich sein" U. Reinke 2005 Systemtypen: Regelbasierte MÜ Systeme – Übersicht (Dreieck/Pyramide nach Vauquois) Interlingua Synthese/Generierung Semantischer Transfer Analyse Zielsprache 3 Syntaktischer Transfer Zielsprache 2 Direkter Transfer Quellsprache 1 Zielsprache 1 U. Reinke 2005 Dr. Uwe Reinke 12
Vorlesung "Einführung Sprachdatenverarbeitung" (Teil 6) Systemtypen: Beispielbasierte MÜ-Systeme z Verwenden eines alignierten Textkorpus aus ausgangs- und zielsprachlichen Texten (= TM-System) Î daher auch Bezeichnung „korpusbasierte MÜ-Systeme“ z Ziel 1: Finden von ausgangssprachlichen Sätzen im Textkorpus, die dem aktuell zu übersetzenden Satz möglichst ähnlich sind (= TM-System) z Ziel 2: Erstellen einer Übersetzung (≠ TM-System) – Auswahl geeigneter Fragmente aus den gefundenen ausgangssprachlichen Sätzen (erfordert Segmentierung unterhalb der Satzebene) – Zuordnen der entsprechenden Fragmente auf der zielsprachlichen Seite der gefundenen Satzpaare (erfordert Alignment unterhalb der Satzebene) – Erstellen der Übersetzung aus den ausgewählten zielsprachlichen Fragmenten (Rekombination) z bislang nur experimentelle Systeme ! U. Reinke 2005 Systemtypen: Beispielbasierte MÜ-Systeme – Beispiel (1) The monkey ate a peach. ⇔ Der Affe aß einen Pfirsich (2) The man ate a peach. ⇔ Der Mann aß einen Pfirsich. Î (3) monkey ⇔ Affe ; man ⇔ Mann Î (4) The … ate a peach. ⇔ Der … aß einen Pfirsich. (5) The dog ate a bone. ⇔ Der Hund aß einen Knochen. Î (6) The … ate a … ⇔ … aß einen … Î (7) The dog ate a peach ⇔ Der Hund aß einen Pfirsich. (8) A man ate the dog. ⇔ Einen Mann aß der Hund. (??) ⇔ Ein Mann aß den Hund. Î Rekombination erfordert (linguistisches) Wissen! U. Reinke 2005 Dr. Uwe Reinke 13
Vorlesung "Einführung Sprachdatenverarbeitung" (Teil 6) Systemtypen: Beispielbasierte MÜ-Systeme Alignment unterhalb der Satzebene: Ermitteln und Zuordnen von ausgangs- und zielsprachlichen Fragmenten © E. Macklovitch, M.-L. Hannan, 1996 z Zuordnung ausgangs- und zielsprachlicher Fragmente eines Satzpaares deutlich schwieriger als Zuordnung ausgangs- und zielsprachlicher Sätze eines Textpaares Î oft keine „Oberflächenkriterien“ für die Zuordnung von Sinneinheiten U. Reinke 2005 Geschichte: 6 Dekaden MÜ z 1946-56 Erste Versuche: IBM/Georgetown Experiment z 1956-66 Euphorie und Enttäuschung: Auf dem Weg zum ALPAC-Report (ALPAC = Automatic Language Processing Advisory Committee) z 1966-76 Grundlagenforschung z 1976-86 „Wiedergeburt“: EU, Japan z 1986-96 Realismus, Kommerzialisierung („MÜ für PC“), Hoffnung auf Forschungsergebnisse in den Bereichen Computerlinguistik (CL) und Künstliche Intelligenz (KI) z 1997- Globalisierung (internationale Firmenzusammenschlüsse, MÜ im Internet), gesprochene Sprache (Forschungsprojekte zum maschinellen Dolmetschen), Integration (Einbindung in gesamten Textproduktionsprozess, Kombination mit Terminologieverwaltung und Translation-Memory-Systemen) U. Reinke 2005 Dr. Uwe Reinke 14
Vorlesung "Einführung Sprachdatenverarbeitung" (Teil 6) Literaturhinweise zu den Vorlesungsteilen „Einführung Sprachdatenverarbeitung und Sprachtechnologie“, „integrierte Übersetzungssysteme“, „Softwarelokalisierung“ und „Maschinelle Übersetzung“ U. Reinke 2005 z Einführung in die Sprachdatenverarbeitung: Carstensen, Kai-Uwe u.a. (Hrsg.) (2004): Computerlinguistik und Sprachtechnologie. Eine Einführung. 2., überarb. u. erw. Aufl. Heidelberg: Spektrum Akademischer Verlag Lenders, Winfried; Willée, Gerd (21998, 11986): Linguistische Datenverarbeitung: ein Lehrbuch. Opladen: Westdeutscher Verlag z Computergestützte Übersetzung (insbes. Integrierte Übersetzungssysteme): Bowker, Lynne (2002). Computer-aided translation technology: A practical introduction. Ottawa: University of Ottawa Press eCoLoRe Project (2004): Creating shareable and renewable eContent localisation resources to support ICT training for translators. (insbes. “Übersicht über Prozesse und Tools bei der Lokalisierung von eContent”) Reinke, Uwe (2004): Translation Memories: Systeme – Konzepte – Linguistische Optimierung. Frankfurt a. M.: Peter Lang Somers, H. L. (Hrsg.): Computers and translation: A translator's guide. Amsterdam/Philadelphia: John Benjamins z Softwarelokalsisierung: Esselink, Bert (2000): A Practical Guide to Localization. Amsterdam: John Benjamins. Reineke, Detlef; Schmitz, Klaus-Dirk (Hrsg.) (2005): Einführung in die Softwarelokalisierung. Tübingen: Narr Schmitz, Klaus-Dirk; Wahle, Kirsten (Hrsg.) (2000): Softwarelokalisierung. Tübingen: Stauffenburg z Maschinelle Übersetzung: Arnold, D., L. Balkan, R.L. Humphreys, S. Meijer, S. and L. Sadler, Machine Translation: an introductory guide. Manchester: NEC Blackwell, 1994 Hutchins, W.J.; Somers, H.L. (1992): An Introduction to Machine Translation. London: Academic Press Trujillo , Arturo (1999): Translation Engines. Techniques for Machine Translation. Berlin: Springer U. Reinke 2005 Dr. Uwe Reinke 15
Sie können auch lesen