B 14 Maschinelle Übersetzung - Melanie Siegel - De Gruyter

Die Seite wird erstellt Hertha Noll
 
WEITER LESEN
Melanie Siegel
B 14 Maschinelle Übersetzung
1 Einleitung
Die maschinelle Übersetzung von Sprache ist ein Menschheitstraum, an dem nunmehr
schon fast hundert Jahre geforscht wird. Maschinelle Übersetzung ermöglicht im Ideal-
fall den Erhalt der diversen Sprachkulturen bei der gleichzeitigen Möglichkeit einer in-
terkulturellen Verständigung.1 Die Forschung zur maschinellen Übersetzung ist dabei
von Brüchen geprägt.
     Bis in die 60er Jahre des 20. Jahrhunderts ging man davon aus, dass ein großes bi-
linguales Lexikon ausreichen würde, um Sprache zu übersetzen. Die Misserfolge dieser
ersten Experimente führten dazu, dass lange kein Geld mehr für Forschung im Bereich
der maschinellen Übersetzung verfügbar war. In den 1980er und 1990er Jahren begann
man erneut mit der Forschung und nutzte formale Darstellungen von Grammatik, um
die Semantik der Sprache zu analysieren. Mit der Jahrtausendwende verwarf die For-
schung die Linguistik und setzte auf die Statistik. Man arbeitete zunächst vollkommen
ohne linguistische Analyse und ohne Lexika nur mit Auftretenswahrscheinlichkeiten
von Wörtern. Die Grundlage dafür waren nun in großer Menge verfügbar gewordene par-
allele Texte, also Texte, die in übersetzter Form elektronisch vorliegen. Mithilfe dieser
parallelen Texte konnten die Wahrscheinlichkeiten berechnet werden. In den Jahren da-
nach entwickelten sich diese Methoden weiter. Einerseits wuchs durch die öffentliche
Verfügbarmachung (z. B. mit google translate) und die Mitarbeit der Nutzenden (Bewer-
tung und Korrektur der Übersetzungen) die Datenbasis für statistische Methoden in enor-
me Höhen und andererseits entstanden hybride Systeme, in denen statistische und lin-
guistische Methoden miteinander interagierten. Mit dem Aufkommen der Idee des Deep
Learnings wurde die Methodik der maschinellen Übersetzung wieder komplett umgewor-
fen. Es standen noch einmal größere Datenmengen zur Verfügung. Die Sprachverarbei-
tung setzt aktuell fast ausschließlich auf neuronale Netze, und die Idee der Word Embed-
dings führte zu einer neuen Qualität der übersetzten Texte.
     Das Feld der maschinellen Übersetzung ist in hohem Maße interdisziplinär. Neben
der Linguistik beteiligen sich die Übersetzungswissenschaft, die Mathematik, die Infor-
matik und die KI-Forschung daran mit ihren unterschiedlichen Methoden.
     Dieser Artikel stellt die grundlegenden Problemstellungen der maschinellen Über-
setzung und die verschiedenen Herangehensweisen der Forschung dar. Die Methoden
werden dabei auf einer konzeptuellen und allgemein verständlichen Ebene erklärt, ohne
in die wissenschaftlich-technische Tiefe zu gehen.

1 Tatsächlich aber wurden die ersten Forschungsarbeiten vom US-amerikanischen Militär gefördert und
hatten weniger die Völkerverständigung im Blick als die Möglichkeit der besseren Überwachung vor allem
russischsprachiger Kommunikation.

  Open Access. © 2023 Melanie Siegel, publiziert von De Gruyter.      Dieses Werk ist lizenziert unter der
Creative Commons Attribution 4.0 International Lizenz.
https://doi.org/10.1515/9783110769043-026
308  B 14: Melanie Siegel

2 Grundlagen der maschinellen Übersetzung
Die Aufgabe der maschinellen Übersetzung ist die Übertragung eines Texts in eine ande-
re Sprache, wobei die Bedeutung (die Semantik) des Texts erhalten bleibt. Da Sprache
aber selten eindeutig ist, da immer auch Kontext- und oft Weltwissen eine Rolle spielen
und da Sprache in hohem Maße variabel ist, ist diese Aufgabe einerseits äußerst kom-
plex und andererseits äußerst interessant. Maschinelle Übersetzung ist eine der komple-
xesten Aufgaben der Informatik. Die zunächst naheliegende Idee, dass eine genügend
große Liste von Wörtern und ihren Übersetzungen ausreichen könnte, erweist sich auf
den zweiten Blick als nicht zielführend. Das Kompositionalitätsprinzip nach Frege (Löb-
ner 2015) zeigt schon, dass die Bedeutung eines aus Teilausdrücken zusammengesetzten
Ausdrucks durch die Bedeutungen seiner Teile sowie die Art ihrer Zusammenfügung be-
stimmt ist. Relevant ist also auch z. B. die Reihenfolge der Wörter im Satz. So hat „Peter
grüßt Maria“ eine andere Bedeutung als „Maria grüßt Peter“.

2.1 Vokabular

Schon der Umgang mit dem Vokabular ist eine komplexe Aufgabe. Sprache ist wand-
lungsfähig und kreativ. Ständig entstehen neue Wörter, wie z. B. die Neologismen im Zu-
sammenhang mit der Corona-Pandemie, die vom IDS Mannheim gelistet werden.2 Auch
im Bereich der Namen ist es unmöglich, sämtliche Ausdrücke zu listen und Übersetzun-
gen dafür zu finden. Trainingsdaten für Lernverfahren findet man unter Umständen
nicht für alle Ausdrücke, vor allem nicht für neue Ausdrücke. Die dem System unbe-
kannten Wörter nennt man „Out-of-Vocabulary Words“ (OOV-Wörter), und eine maschi-
nelle Übersetzung muss eine Strategie entwickeln, mit diesen Wörtern umzugehen.

2.2 Ambiguität und maschinelle Übersetzung

Sprache ist oft mehrdeutig. Lexikalische Ambiguität lässt sich oft noch im Satzkontext
noch auflösen („Sie bringt ihr Geld zur Bank“ vs. „Sie sitzt auf der Bank“). Wenn die
Interpretation aber über die Satzgrenze hinaus gehen muss, können auch nicht alle heu-
tigen Übersetzungssysteme die Ambiguität auflösen:
– Deutsch: „Sie geht zur Bank. Dann setzt sie sich darauf.“
– (google translate, 10.10.2021): „She goes to the bank. Then she sits down on it.“
– (deepl, 10.10.2021): „She goes to the bench. Then she sits down on it.“

Syntaktische Ambiguität muss bei einigen Sprachpaaren wie Englisch und Deutsch gar
nicht aufgelöst werden:
– „Sie sah den Mann mit dem Fernrohr.“
– „She saw the man with the telescope.“

Bei einer Übersetzung z. B. ins Japanische ist die Auflösung für eine korrekte Überset-
zung aber notwendig.

2 https://www.owid.de/docs/neo/listen/corona.jsp.
B 14: Maschinelle Übersetzung       309

    Ein anderes Problem sind Anaphern, die meist über Satzgrenzen hinweg gehen, wie
im folgenden Beispiel, das auch noch mit der flexiblen Wortstellung im Deutschen und
Weltwissen spielt:
– Deutsch: „Sie hat die Katze geimpft. Die nächste impft die Arzthelferin.“
– (DeepL, 10.10.2021): „She vaccinated the cat. The next vaccinates the doctor’s assi-
    stant.“

2.3 Maschinelle Übersetzung strukturell unterschiedlicher Sprachen

Ein wichtiges Problem der maschinellen Übersetzung tritt auf, wenn in den beteiligten
Sprachen unterschiedliche Aussagen kodiert sind. Dies kommt vor allem bei strukturell
sehr unterschiedlichen Sprachen vor. In Siegel (2017) wird für das Sprachpaar Deutsch –
Japanisch gezeigt, welche Schwierigkeiten bei der automatischen Übersetzung bestehen:

    Japanisch und Deutsch haben ein unterschiedliches pronominales System, eine unterschiedliche
    Syntax mit differierendem Informationsgehalt, ein unterschiedliches Schriftsystem, ein unterschiedli-
    ches Tempussystem und eine unterschiedliche Art der Steuerung der interpersonalen Beziehung in
    der Sprache. (Siegel 2017, S. 208)

Bond (2005) beschreibt, wie die Information über Numerus und Definitheit in der Über-
setzung aus dem Japanischen (das nur selten Artikel enthält) ins Englische mit komple-
xen heuristischen Methoden mühsam hinzugefügt werden muss. Der Satz „本を持っていま
す“ kann im Deutschen mit „Ich habe ein Buch“, „Ich habe Bücher“ oder auch „Ich habe
das Buch“ übersetzt werden. Weitergehend steht auch kein Pronomen im Satz, sodass
auch „Sie hat ein Buch“ eine mögliche Übersetzung wäre. Die Information ergibt sich
aus dem Kontext, in dem der Satz geäußert wird.

3 Klassische Ansätze
Der Neustart der Forschung an maschineller Übersetzung in den 1980er Jahren ging von
der Linguistik aus, die mit der Informatik das interdisziplinäre Fachgebiet der Computer-
linguistik entwickelte. Die Methoden der regelbasierten maschinellen Übersetzung ent-
standen daraus und sollen hier skizziert werden. Mit der Jahrtausendwende kamen die
Mathematiker ins Spiel, die statistische Methoden auf großen Datenmengen nutzten –
ein vollkommen anderer Ansatz, das Problem zu lösen.

3.1 Regelbasierte maschinelle Übersetzung

Die regelbasierte maschinelle Übersetzung erfordert für die Entwicklung sehr viel Wissen
über die beteiligten Sprachen: Wissen über die linguistischen Eigenschaften von Quell-
und Zielsprache, Wissen über die Beziehung zwischen Quell- und Zielsprache, Wissen
über das Sachgebiet der Übersetzungsaufgabe und Wissen über kulturelle und soziale
Konventionen in den Kulturen der beteiligten Sprachen. Dieses Wissen muss für die
Übersetzung identifiziert und so repräsentiert werden, dass es für die maschinelle Über-
setzung verarbeitbar ist.
310  B 14: Melanie Siegel

    Die grundlegende Idee dabei ist, den Text der Ausgangssprache auf seine Semantik
zu analysieren und diese in einer Repräsentation darzustellen. Die semantische Reprä-
sentation wird dann mit sogenannten Transferregeln in eine semantische Repräsentation
der Zielsprache überführt, die anschließend in einen Text überführt wird. Die Systeme
bestehen daher aus drei Phasen: Analyse, Transfer und Generierung. Bond et al. (2005)
geben ein Beispiel dafür:

    ビールを三つきて下さい
    (biiru-wo mittsu motte kite kudasai)

sollte übersetzt werden in: „Please bring three beers“
     Die semantische Repräsentation des japanischen Satzes im Format der Minimal Re-
cursion Semantics nach (Copestake et al. 2005):

< h1,{h1: imp_m(h3)
h4: biiru_n(x1),
h6: udef_q(x1,h7,h8),
h9: card(u1,x1,"3"),
h11: motsu_v(e1,u2,x1),
h11: kuru_v(e2,u3),
h15: kudasaru_v(e3,u4,u5,h17),
h17: proposition_m(h18) },
{h3 =q h15, h7 =q h4, h18 =q h11} >

Um diese semantische Repräsentation zu erreichen, muss der japanische Satz zunächst
tokenisiert werden, sodass die einzelnen Wörter identifiziert werden. Der nächste Schritt
ist die syntaktische Information, also z. B. die Information, dass das Wort „biiru“ (Bier)
ein Nomen ist. Dann wird die morphologische Information analysiert, z. B. die Imperativ-
form des Verbs „kudasai“ und die Akkusativfunktion der Partikel „wo“. Diese linguisti-
schen Angaben werden dann mithilfe einer Grammatik, die die Strukturen der Sprache
kennt, analysiert und damit die semantische Analysestruktur aufgebaut. Bond et al.
(2005) geben auch die semantische Repräsentation des englischen Satzes:

< h0,{h0: please_a(e3,h1)
h1: imp_m(h3),
h2: pronoun_q(x0,h7,h8),
h4: pron(x01{2nd}),
h5: bring_v(e2,x0,x1),
h4: beer_n(x1),
h6: udef_q(x1,h10,h8),
h11: card(u1,x1,"3") },
{h3 =q h5, h7 =q h4, h10 =q h11} > (Bond et al. 2005, S. 18)

Transferregeln übertragen die semantische Struktur des Ausgangssatzes in die semanti-
sche Struktur des Zielsatzes. Dabei wird z. B. das japanische Verb „kudasai“ in das engli-
sche Adverb „please“ übertragen, wobei der Skopus erhalten bleibt.
     Diese Vorgehensweise erfordert sehr viel linguistisches Wissen und sehr viel Arbeit
beim Aufbau der Grammatiken und der Regeln und ist sehr aufwändig zu implementie-
ren. Gleichzeitig ist die Implementierung nicht sehr robust in Bezug auf Sprachwandel,
B 14: Maschinelle Übersetzung          311

sehr komplexe Sprachstrukturen und Fehler in den zu übersetzenden Texten. In der An-
wendung ist ein Pre-Editing der Texte der Ausgangssprache sinnvoll, um besonders
komplexe Formulierungen zu vereinfachen. Dieses Pre-Editing kann auch zum Teil auto-
matisiert erfolgen (Siegel 2013).
    Die regelbasierte Übersetzung war das vorherrschende Paradigma in der Forschung
von ca. 1980 bis 2005 und in der Industrie bis ca. 2010.

3.2 Statistische maschinelle Übersetzung

Mit der zunehmenden allgemeinen Verfügbarkeit großer Mengen übersetzter Texte kam
die Idee auf, mit statistischen Verfahren Übersetzungen aus diesen Daten zu lernen. Ein
Beispiel für einen solchen Textkorpus, den Europarl-Korpus, beschreibt Koehn (2005).
Texte, die in mehreren Sprachen parallel vorliegen, nennt man in Englisch „aligned“.
Bei der Parallelität kann es sich um ein Alignment auf Dokument-Basis, auf Absatz-Basis
oder auf Satz-Basis handeln. Der Europarl-Korpus liegt in einer Form vor, in der Sätze
parallelisiert („aligned“) sind. Eine umfassende Beschreibung der Methoden der statisti-
schen maschinellen Übersetzung gibt Philipp Koehn (2010), hier geben wir nur einen
kleinen Einblick:
     Zwar hatte man nun eine große Menge an parallelen Sätzen zur Verfügung, dennoch
ist es eher unwahrscheinlich, dass genau der Satz, der nun neu übersetzt werden muss,
auch in der Datenbank vorhanden ist.3 Daher betrachtet man kleinere Einheiten, im ers-
ten Schritt Wörter. Das lernende System soll die Frage beantworten, wie wahrscheinlich
es ist, dass ein Wort der Ausgangssprache zusammen (in einem parallelen Satz) mit ei-
nem Wort der Zielsprache auftritt. Dazu kommen die Angaben über die Positionen der
Wörter im Satz und der Satzlängen, also die Anzahl aller Wörter im Satz. Aus dem Text-
korpus wird also inferiert – um ein Beispiel von Koehn (2010) aufzugreifen –, dass die
wahrscheinlichste Übersetzung des deutschen Wortes „Haus“ das englische „house“ ist,
einfach weil diese beiden Wörter am häufigsten miteinander in parallelen deutsch-engli-
schen Sätzen vorkommen. Die zweithäufigste Übersetzung ist „building“. In einem Satz
werden so die wahrscheinlichsten Übersetzungen der Wörter zusammengefügt. Im
nächsten Schritt müssen die Wörter im Satz der Zielsprache neu sortiert werden, um den
Regeln der Wortstellung der Zielsprache zu genügen. Nicht immer wird auch ein Wort in
der Ausgangssprache auch in ein Wort der Zielsprache übersetzt: „klitzeklein“ wird zu
„very small“. Daher muss der Algorithmus beim Lernen aus den Textkorpora auch die
Satzlänge mit beachten, wenn die parallelen Sätze nicht genau dieselbe Anzahl an Wör-
tern haben.
     Im nächsten Schritt versucht man, auf etwas größere Einheiten zu gehen als Wörter:
Phrase-Based Statistical Machine Translation (PBSMT). Wörter allein lassen sich ohne
Kontext oft nicht gut übersetzen. Koehn (2010) gibt als Beispiel die deutsche Präposition
„am“, die z. B. in der Phrase „Spaß am“ mit „with the“ übersetzt wird, aber in der Phrase
„am Donnerstag“ mit „on“. Diese Phrasen, die nicht unbedingt linguistische Phrasen
sind, werden aus dem Textkorpus extrahiert, indem man schaut, welche Wortketten re-
gelmäßig miteinander auftreten.

3 Eine Ausnahme davon sind Translation-Memory-Systeme, die genau darauf bauen, dass in einem sehr
engen Kontext wie der technischen Dokumentation innerhalb einer Firma durchaus immer wieder diesel-
ben Sätze geschrieben werden.
312  B 14: Melanie Siegel

     Der Vorteil dieser statistischen Methode liegt darin, dass man nur wenig linguisti-
sches Wissen und wenige linguistische Ressourcen benötigt. Mit Statistiken über große
Mengen an parallelen Daten lassen sich recht schnell Übersetzungssysteme für verschie-
dene Sprachen bauen. Durch die zunehmende Nutzung von Translation-Memory-Syste-
men durch professionelle Übersetzer*innen wurden in kurzer Zeit weitere parallele Da-
ten erstellt, die zum Training genutzt werden können. Aus diesem Grund war die statisti-
sche Übersetzung das vorherrschende Paradigma vom Jahr 2000 bis ca. 2016.
     Es gibt aber auch Nachteile der Methode: PBSMT funktioniert recht gut bei struktu-
rell ähnlichen Sprachen, ist aber deutlich schlechter bei strukturell stark unterschiedli-
chen Sprachen, wie in Abschnitt 2.3 beschrieben wurde. Durch den Fokus auf Phrasen
geht der Satzzusammenhang verloren, was schon mal dazu führen kann, dass z. B. der
Negationsskopus nicht richtig übersetzt und damit das falsche Verb im Satz negiert
wird, oder dass ein „nicht“ gar nicht übersetzt wird. Schwierig wird es auch bei Spra-
chen mit reicher Morphologie, bei denen nicht alle Wortformen in den Trainingsdaten
auch zu finden sind. Dadurch, dass der Text in Phrasen aufgeteilt wird, die einzeln über-
setzt werden, können Abhängigkeiten über größere Einheiten nicht berücksichtigt
werden. Das führt zu Fehlern, z. B. mit falschen Genus-Übereinstimmungen (Yang et al.
2020). Z. B. werden die deutschen Wörter „Haus“ und „Häuser“ als komplett unter-
schiedliche Einheiten betrachtet, ohne jeden Zusammenhang dazwischen.
     Um diese offensichtlichen Nachteile zu vermeiden, wurde nach und nach wieder lin-
guistisches Wissen in die Übersetzungs-Pipeline einbezogen, wie Way (2020) feststellte:

    While it was already the case that the dominant paradigm was SMT, a performance ceiling was
    reached relatively quickly, such that for the past ten years or so, MT system developers have been
    ‘smuggling in’ linguistic information in order to improve performance as demonstrated by both auto-
    matic and human evaluation. (Way 2020, S. 311)4

4 Neuronale maschinelle Übersetzung
Die Einsicht, dass der Kontext, in dem Wörter und Phrasen stehen, für die Übersetzung
in hohem Maße relevant ist, führte zu einem erneuten Paradigmenwechsel, zur neurona-
len maschinellen Übersetzung (NMT) (Van Genabith 2020). Die neuronalen Netze haben
sich in der Bilderkennung und der Erkennung gesprochener Sprache bewährt und wur-
den nun auch auf das Problem der maschinellen Übersetzung übertragen. Die Idee dabei
ist, das Sprachmodell zu verbessern, also die Wahrscheinlichkeit, dass ein Wort oder
eine Phrase in einer Sprache in einem bestimmten Kontext auftritt, mit einzubeziehen.
Auch diese Verfahren benötigen kein linguistisches Wissen außer dem, das automatisch
aus den Trainingsdaten inferiert werden kann.
     Die klassische Struktur eines NMT-Systems besteht aus Encoder und Decoder. Enco-
der und Decoder sind zwei miteinander verbundene neuronale Netze. Der Text der Aus-
gangssprache wird bei der Übersetzung in einen Vektor umgewandelt (Encoder). Für die-
sen Vektor wird dann in der Zielsprache ein Satz gesucht (Decoder). Wenn ein Wort ge-
neriert wird, dann wird die Information darüber, welche Wörter im Ausgangssatz

4 Deutsch: Während SMT bereits das vorherrschende Paradigma war, wurde relativ schnell eine Leis-
tungsgrenze erreicht, so dass die Entwickler von MÜ-Systemen in den letzten zehn Jahren linguistische
Informationen „eingeschmuggelt“ haben, um die Leistung zu verbessern, wie die automatische und
menschliche Bewertung zeigt. (übersetzt mit DeepL, 23.05.2022).
B 14: Maschinelle Übersetzung    313

stehen, zusammen mit der Information darüber, welches Wort davor generiert wurde,
genutzt. Das führt dazu, dass Sprachmodell und Übersetzungsmodell in Kombination
vorliegen.

4.1 Encoder

Neuronale Netze benötigen als Input Zahlenwerte. Die Kodierung der Sprachdaten in so-
genannten Word Embeddings geht auf Mikolov et al. (2013) zurück. Zunächst wird ein
Vektor aufgestellt, der (zumindest theoretisch) so viele Stellen hat, wie unterschiedliche
Wörter im Textkorpus sind.5 Jedes unterschiedliche Wort im Text bekommt eine Num-
mer, die für die Position im Vektor steht. An dieser Position bekommt das Wort eine 1 für
den eigenen Vektor. Nun wird geschaut, welche Wörter rechts und links von diesem
Wort auftreten können. Das Fenster dafür bilden normalerweise zwei Wörter rechts und
zwei Wörter links. An der Position für diese Wörter bekommt der Vektor des Wortes ei-
nen Zahlenwert für die Wahrscheinlichkeit, dass sie zusammen mit diesem Wort auftre-
ten. Diese Berechnung wird für alle Wörter im Trainingskorpus durchgeführt und als
Word Embeddings gespeichert. Word Embeddings kodieren alle Wörter und ihren Kon-
text im Satz. Dadurch wird der gesamte Satz bei der Übersetzung berücksichtigt und
nicht – wie bei SMT – eine Folge von Phrasen (Van Genabith 2020; Yang et al. 2020). Die
Struktur der beteiligten Sprachen wird dadurch gelernt, ohne dass sie aufwändig kodiert
werden muss.
     Das Training von Word Embeddings dauert extrem lange und benötigt viele Ressour-
cen. Dafür können diese Word Embeddings in verschiedenen Anwendungen immer wie-
der verwendet werden, weil sie zunächst nur ein Modell der jeweiligen Sprache darstel-
len.

4.2 Decoder

Grundlage für das Training von NMT sind – ebenso wie bei SMT – parallele Sätze und
die Word Embeddings der beteiligten Sprachen. Die Maschinelle Übersetzung wird dabei
als ein Sprachmodell des Zielsprachen-Satzes angesehen, das durch das Sprachmodell
des Ausgangssprachen-Satzes bedingt ist. Die Wahrscheinlichkeit für ein Wort der Ziel-
sprache wird dabei unter Berücksichtigung des Wortes davor und der gesamten Wörter
des Ausgangssprachen-Satzes berechnet. Dabei bleibt der gesamte Kontext erhalten, wo-
bei die SMT eher lokale Entscheidungen trifft. Im Ergebnis führt das zu deutlich besseren
und auch flüssigeren Übersetzungen (Koehn 2020).

4.3 Attention-Mechanismus

Ein Problem der NMT-Modelle ist, dass die Qualität der Übersetzung von der Länge der
zu übersetzenden Sätze abhängig ist. Das liegt daran, dass die Wortvektoren eine fixe
Länge haben. Sehr lange Sätze können daher schlechter übersetzt werden. Um dieses

5 Tatsächlich werden die Vektoren in der Praxis auf eine bestimmte Länge reduziert.
314  B 14: Melanie Siegel

Problem zu adressieren, wurde der Attention-Mechanismus erfunden. Die Idee dabei ist,
zunächst zu berechnen, welche Wörter und Phrasen besonders relevant für die Überset-
zung sind und diese dann zuerst zu übersetzen. Van Genabith (2020) gibt ein Beispiel:
Der Satz „Sie hat das Buch übersetzt“ soll ins Englische mit „She translated the book“
übersetzt werden. Wenn die Wort-für-Wort-Übersetzung bei „hat“ ist, kann „translated“
nicht gut erkannt werden. Im Satz sind „Buch“ und „übersetzt“ relevanter als „Sie“ und
„hat“. Der Attention-Mechanismus sucht bei der Generierung des zweiten Wortes „trans-
lated“ zunächst, welches Wort im Ausgangssatz dafür am relevantesten ist, also welcher
Vektor ähnlich ist.
     Way (2020) gibt ein Beispiel für ein Problem des Attention-Mechanismus, das sich in
DeepL und Google Translate nachvollziehen lässt (Test am 29.06.2021):
– Deutscher Satz: „Die Volkswirtschaftslehre (auch Nationalökonomie, wirtschaftliche
    Staatswissenschaften oder Sozialökonomie, kurz VWL) ist ein Teilgebiet der Wirt-
    schaftswissenschaft.“
– DeepL: „Economics (also national economics, economic state science or social eco-
    nomics, in short VWL) is a branch of economic science.“
– Google Translate: „Economics (also political economy, economic political science or
    social economy, economics for short) is a branch of economics.“

Transformer-Modelle, die aktuell Stand der Forschung sind, arbeiten ausschließlich mit
dem Attention-Mechanismus. Texte können durch Transformer auch bidirektional einge-
lesen werden (also von links-nach-rechts und rechts-nach-links gleichzeitig). Dadurch
wird mehr Kontext als bei normalen Word Embeddings einbezogen. Google stellte 2018
das Transformer-Modell BERT vor, das die Sprachtechnologie erheblich beeinflusste.
Seitdem gibt es kaum ein wissenschaftliches Paper auf einer Sprachtechnologie-Konfe-
renz, das nicht mit BERT arbeitet (Devlin et al. 2019). OpenAI stellten 2020 das Transfor-
mer-Modell GPT-3 vor, das ein Sprachmodell mit 175 Milliarden Parametern ist (Brown et
al. 2020).

5 Maschinelle Übersetzung und komplexe (offene) Probleme
Ein Problem der SMT, aber auch der NMT-Modelle war zu Beginn, dass kein Sprachmo-
dell der Zielsprache eingesetzt wurde, sodass die Texte der Zielsprache nicht „flüssig“
genug waren. Zu den parallelen Trainingskorpora werden nun einsprachige Textkorpora
hinzugezogen. Diese sind in extrem großem Maße verfügbar. Um die Qualität der über-
setzten Texte zu erhöhen, werden die einsprachigen Texte der Zielsprache zunächst au-
tomatisch in die Ausgangssprache übersetzt. Das Ergebnis wird als paralleler Korpus ge-
nutzt. Die Qualität der zielsprachlichen Texte (fluency) steigt dadurch, denn es sind ja
natürliche Texte in großer Menge, die hier zum Training genutzt werden. Diese Methode
nennt sich Backtranslation (Van Genabith 2020).
      Bei allen Verfahren ist die Größe des Vokabulars, das übersetzt werden kann, be-
schränkt. Der Grund dafür ist bei der NMT, dass mehr Wörter auch zu größeren Vektoren
und daher zu mehr Rechenzeit führen. 50 000 bis 80 000 Wörter sind normalerweise
durch ein Modell abgedeckt. Die Entscheidung über die Wörter, die einbezogen werden,
fällt normalerweise anhand der Frequenz. Sehr seltene Wörter können also nicht einfach
übersetzt werden. Daher ist ein wichtiger Faktor für die Performanz eines MT-Systems,
wie man mit sogenannten Out-of-Vocabulary Words n (OOV-Wörter) umgeht. Frühe MT-
B 14: Maschinelle Übersetzung            315

Systeme haben OOV-Wörter einfach in die Zielsprache kopiert, sodass z. B. ein deutsches
Wort in der englischen Übersetzung auftaucht. In den Fällen, in denen das OOV-Wort
ein Name ist, ist das auch richtig. Aber Sprache ist äußerst kreativ, ständig entstehen
neue Wörter und etablieren sich ungewöhnliche Schreibformen (s. Abschnitt 2.1). Die
Forschung versuchte daher, auf eine Ebene unter das Wort zu gehen und z. B. die häu-
figsten Kookkurrenzen von Buchstaben im Datensatz als „Wort“ zu analysieren. Dadurch
erkennt man zumindest neue Wortformen und kann mit Wörtern sowie auch mit Sub-
Word-Einheiten arbeiten (Van Genabith 2020).
     Viele professionelle Anwender*innen müssen eine spezialisierte Terminologie ver-
wenden und Fachwörter oder auch firmenspezifische Wörter in der Übersetzung verwen-
den. Bei den statistischen Verfahren (SMT und NMT) ist dafür aber ein neues Training
auf großen spezialisierten Datenmengen erforderlich, das dennoch keine Garantie für
korrekte Verwendung der Terminologie bietet. Die Systeme bieten zwar an, ein eigenes
Glossar zu pflegen, allerdings werden die Wörter bisher einfach automatisch ersetzt und
es kann zu grammatischen Fehlern kommen (Winter & Zielinski 2020).
     Probleme der Ambiguität (s. Abschnitt 2.2) und der Übersetzung stark unterschiedli-
cher Sprachen (s. Abschnitt 2.3) sind in den aktuellen Systemen weitgehend ungelöst.
     Die großen Mengen an parallelen Daten, die für ein Training benötigt werden, liegen
nur für einen Bruchteil der möglichen Sprachpaare der ca. 7 000 Sprachen in dieser Welt
vor. Eine Taktik, die verfolgt wird, ist, den Text in einer Sprache zunächst ins Englische
und dann von da aus in die Zielsprache zu übersetzen. Das ist für Sprachen möglich, für
die es parallele englische Daten gibt. Ein anderer Versuch ist, Sprachmodelle für ähnli-
che Sprachen zu trainieren.

6 Schlussbemerkungen
Maschinelle Übersetzung ist eins der komplexesten Probleme der automatischen Verar-
beitung natürlicher Sprache. Gleichzeitig hat die maschinelle Übersetzung hohe Rele-
vanz für die Anwendung und wird heutzutage von vielen Menschen selbstverständlich
genutzt. In der Forschungsgeschichte der maschinellen Übersetzung gibt es eine Reihe
von Brüchen und Neuanfängen. Auch die NMT ist noch nicht das Ende, es gab schon
viele Paradigmen, und es wird weitergehen. Wir haben in diesem Kapitel einen Über-
blick über Verfahren der regelbasierten, der statistischen und der auf neuronalen Netzen
basierten maschinellen Übersetzung gegeben.
     Eine Reihe von Problemen ist noch ungelöst: Die Übersetzung sehr langer Sätze, die
Übersetzung von OOV-Wörtern, Ambiguität, Relationen über Satzgrenzen hinweg, die
Übersetzung von Sprachen mit wenig Datenmaterial. In diesem interessanten For-
schungsgebiet gibt es noch viel zu tun.

7 Literaturverzeichnis
Bond, F. (2005). Translating the Untranslatable: A Solution to the Problem of Generating English Determi-
    ners. CSLI Publications.
Bond, F., Oepen, S., Siegel, M., Copestake, A. & Flickinger, D. (2005). Open source machine translation
    with DELPH-IN. In Proceedings of the open-source machine translation workshop at machine transla-
    tion summit X (S. 15–22).
316  B 14: Melanie Siegel

Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., Neelakantan, A., Shyam, P.,
     Sastry, G., Askell, A., Agarwal, S., Herbert-Voss, A., Krueger, G., Henighan, T., Child, R., Ramesh, A.,
     Ziegler, D. M., Wu, J., Winter, C. & Amodei, D. (2020). Language Models are Few-Shot Learners. In H.
     Larochelle, M. Ranzato, R. Hadsell, M. F. Balcan & H. Lin (Eds.), Advances in Neural Information Pro-
     cessing Systems (vol. 33, S. 1877–1901). Curran Associates. https://proceedings.neurips.cc/paper/
     2020/file/1457c0d6bfcb4967418bfb8ac142f64a-Paper.pdf.
Copestake, A., Flickinger, D., Pollard, C. & Sag, I. A. (2005). Minimal Recursion Semantics: An Introduction.
     Research Language Computation, 3(2), 281–332.
Devlin, J., Chang, M.-W., Lee, K. & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transfor-
     mers for Language Understanding. In J. Burstein, C. Doran & T. Solorio (Eds.), Proceedings of the
     2019 conference of the North American Chapter of the Association for Computational Linguistics: Hu-
     man Language Technologies (vol. 1, S. 4171–4186). Association for Computational Linguistics.
     http://dx.doi.org/10.18653/v1/N19-1423.
Koehn, P. (2005). Europarl: A Parallel Corpus for Statistical Machine Translation. Conference Proceedings:
     the tenth Machine Translation Summit (p./pp. 79–86), Phuket, Thailand: AAMT.
Koehn, P. (2010). Statistical Machine Translation. Cambridge University Press.
Koehn, P. (2020). Neural Machine Translation. Cambridge University Press.
Löbner, S. (2015). Semantik. De Gruyter.
Mikolov, T., Sutskever, I., Chen, K., Corrado, G. S. & Dean, J. (2013). Distributed Representations of Words
     and Phrases and their Compositionality. In C. J. C. Burges, L. Bottou, M. Welling, Z. Ghahramani &
     K. Q. Weinberger (Eds.), Advances in Neural Information Processing Systems (vol. 26, S. 3111–3119).
     Curran Associates.
Siegel, M. (2013). Authoring Support for Controlled Language and Machine Translation. Translation: Com-
     putation, Corpora, Cognition, 3(1), 49–60.
Siegel, M. (2017). Maschinelle Übersetzung strukturell unterschiedlicher Sprachen: Japanisch und
     Deutsch. In J. Porsiel (Hrsg.), Maschinelle Übersetzung: Grundlagen für den professionellen Einsatz
     (S. 207–223). BDÜ Weiterbildungs- und Fachverlagsgesellschaft mbH.
Van Genabith, J. (2020). Neural Machine Translation. In J. Porsiel (Hrsg.), Maschinelle Übersetzung für
     Übersetzungsprofis (S. 59–115). BDÜ Weiterbildungs- und Fachverlagsgesellschaft mbH.
Way, A. (2020). Machine translation: Where are we at today? In E. Angelone, M. Ehrensberger-Dow & G.
     Massey (Eds.), The Bloomsbury Companion to Language Industry Studies (S. 311–332).
Winter, T. & Zielinski, D. (2020). Terminologie in der neuronalen maschinellen Übersetzung. In J. Porsiel
     (Hrsg.), Maschinelle Übersetzung für Übersetzungsprofis (S. 210–233). BDÜ Weiterbildungs- und
     Fachverlagsgesellschaft mbH.
Yang, S., Wang, Y. & Chu, X. (2020). A Survey of Deep Learning Techniques for Neural Machine Translation.
     arXiv. https://arxiv.org/abs/2002.07526.
Sie können auch lesen