B 14 Maschinelle Übersetzung - Melanie Siegel - De Gruyter
←
→
Transkription von Seiteninhalten
Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten
Melanie Siegel B 14 Maschinelle Übersetzung 1 Einleitung Die maschinelle Übersetzung von Sprache ist ein Menschheitstraum, an dem nunmehr schon fast hundert Jahre geforscht wird. Maschinelle Übersetzung ermöglicht im Ideal- fall den Erhalt der diversen Sprachkulturen bei der gleichzeitigen Möglichkeit einer in- terkulturellen Verständigung.1 Die Forschung zur maschinellen Übersetzung ist dabei von Brüchen geprägt. Bis in die 60er Jahre des 20. Jahrhunderts ging man davon aus, dass ein großes bi- linguales Lexikon ausreichen würde, um Sprache zu übersetzen. Die Misserfolge dieser ersten Experimente führten dazu, dass lange kein Geld mehr für Forschung im Bereich der maschinellen Übersetzung verfügbar war. In den 1980er und 1990er Jahren begann man erneut mit der Forschung und nutzte formale Darstellungen von Grammatik, um die Semantik der Sprache zu analysieren. Mit der Jahrtausendwende verwarf die For- schung die Linguistik und setzte auf die Statistik. Man arbeitete zunächst vollkommen ohne linguistische Analyse und ohne Lexika nur mit Auftretenswahrscheinlichkeiten von Wörtern. Die Grundlage dafür waren nun in großer Menge verfügbar gewordene par- allele Texte, also Texte, die in übersetzter Form elektronisch vorliegen. Mithilfe dieser parallelen Texte konnten die Wahrscheinlichkeiten berechnet werden. In den Jahren da- nach entwickelten sich diese Methoden weiter. Einerseits wuchs durch die öffentliche Verfügbarmachung (z. B. mit google translate) und die Mitarbeit der Nutzenden (Bewer- tung und Korrektur der Übersetzungen) die Datenbasis für statistische Methoden in enor- me Höhen und andererseits entstanden hybride Systeme, in denen statistische und lin- guistische Methoden miteinander interagierten. Mit dem Aufkommen der Idee des Deep Learnings wurde die Methodik der maschinellen Übersetzung wieder komplett umgewor- fen. Es standen noch einmal größere Datenmengen zur Verfügung. Die Sprachverarbei- tung setzt aktuell fast ausschließlich auf neuronale Netze, und die Idee der Word Embed- dings führte zu einer neuen Qualität der übersetzten Texte. Das Feld der maschinellen Übersetzung ist in hohem Maße interdisziplinär. Neben der Linguistik beteiligen sich die Übersetzungswissenschaft, die Mathematik, die Infor- matik und die KI-Forschung daran mit ihren unterschiedlichen Methoden. Dieser Artikel stellt die grundlegenden Problemstellungen der maschinellen Über- setzung und die verschiedenen Herangehensweisen der Forschung dar. Die Methoden werden dabei auf einer konzeptuellen und allgemein verständlichen Ebene erklärt, ohne in die wissenschaftlich-technische Tiefe zu gehen. 1 Tatsächlich aber wurden die ersten Forschungsarbeiten vom US-amerikanischen Militär gefördert und hatten weniger die Völkerverständigung im Blick als die Möglichkeit der besseren Überwachung vor allem russischsprachiger Kommunikation. Open Access. © 2023 Melanie Siegel, publiziert von De Gruyter. Dieses Werk ist lizenziert unter der Creative Commons Attribution 4.0 International Lizenz. https://doi.org/10.1515/9783110769043-026
308 B 14: Melanie Siegel 2 Grundlagen der maschinellen Übersetzung Die Aufgabe der maschinellen Übersetzung ist die Übertragung eines Texts in eine ande- re Sprache, wobei die Bedeutung (die Semantik) des Texts erhalten bleibt. Da Sprache aber selten eindeutig ist, da immer auch Kontext- und oft Weltwissen eine Rolle spielen und da Sprache in hohem Maße variabel ist, ist diese Aufgabe einerseits äußerst kom- plex und andererseits äußerst interessant. Maschinelle Übersetzung ist eine der komple- xesten Aufgaben der Informatik. Die zunächst naheliegende Idee, dass eine genügend große Liste von Wörtern und ihren Übersetzungen ausreichen könnte, erweist sich auf den zweiten Blick als nicht zielführend. Das Kompositionalitätsprinzip nach Frege (Löb- ner 2015) zeigt schon, dass die Bedeutung eines aus Teilausdrücken zusammengesetzten Ausdrucks durch die Bedeutungen seiner Teile sowie die Art ihrer Zusammenfügung be- stimmt ist. Relevant ist also auch z. B. die Reihenfolge der Wörter im Satz. So hat „Peter grüßt Maria“ eine andere Bedeutung als „Maria grüßt Peter“. 2.1 Vokabular Schon der Umgang mit dem Vokabular ist eine komplexe Aufgabe. Sprache ist wand- lungsfähig und kreativ. Ständig entstehen neue Wörter, wie z. B. die Neologismen im Zu- sammenhang mit der Corona-Pandemie, die vom IDS Mannheim gelistet werden.2 Auch im Bereich der Namen ist es unmöglich, sämtliche Ausdrücke zu listen und Übersetzun- gen dafür zu finden. Trainingsdaten für Lernverfahren findet man unter Umständen nicht für alle Ausdrücke, vor allem nicht für neue Ausdrücke. Die dem System unbe- kannten Wörter nennt man „Out-of-Vocabulary Words“ (OOV-Wörter), und eine maschi- nelle Übersetzung muss eine Strategie entwickeln, mit diesen Wörtern umzugehen. 2.2 Ambiguität und maschinelle Übersetzung Sprache ist oft mehrdeutig. Lexikalische Ambiguität lässt sich oft noch im Satzkontext noch auflösen („Sie bringt ihr Geld zur Bank“ vs. „Sie sitzt auf der Bank“). Wenn die Interpretation aber über die Satzgrenze hinaus gehen muss, können auch nicht alle heu- tigen Übersetzungssysteme die Ambiguität auflösen: – Deutsch: „Sie geht zur Bank. Dann setzt sie sich darauf.“ – (google translate, 10.10.2021): „She goes to the bank. Then she sits down on it.“ – (deepl, 10.10.2021): „She goes to the bench. Then she sits down on it.“ Syntaktische Ambiguität muss bei einigen Sprachpaaren wie Englisch und Deutsch gar nicht aufgelöst werden: – „Sie sah den Mann mit dem Fernrohr.“ – „She saw the man with the telescope.“ Bei einer Übersetzung z. B. ins Japanische ist die Auflösung für eine korrekte Überset- zung aber notwendig. 2 https://www.owid.de/docs/neo/listen/corona.jsp.
B 14: Maschinelle Übersetzung 309 Ein anderes Problem sind Anaphern, die meist über Satzgrenzen hinweg gehen, wie im folgenden Beispiel, das auch noch mit der flexiblen Wortstellung im Deutschen und Weltwissen spielt: – Deutsch: „Sie hat die Katze geimpft. Die nächste impft die Arzthelferin.“ – (DeepL, 10.10.2021): „She vaccinated the cat. The next vaccinates the doctor’s assi- stant.“ 2.3 Maschinelle Übersetzung strukturell unterschiedlicher Sprachen Ein wichtiges Problem der maschinellen Übersetzung tritt auf, wenn in den beteiligten Sprachen unterschiedliche Aussagen kodiert sind. Dies kommt vor allem bei strukturell sehr unterschiedlichen Sprachen vor. In Siegel (2017) wird für das Sprachpaar Deutsch – Japanisch gezeigt, welche Schwierigkeiten bei der automatischen Übersetzung bestehen: Japanisch und Deutsch haben ein unterschiedliches pronominales System, eine unterschiedliche Syntax mit differierendem Informationsgehalt, ein unterschiedliches Schriftsystem, ein unterschiedli- ches Tempussystem und eine unterschiedliche Art der Steuerung der interpersonalen Beziehung in der Sprache. (Siegel 2017, S. 208) Bond (2005) beschreibt, wie die Information über Numerus und Definitheit in der Über- setzung aus dem Japanischen (das nur selten Artikel enthält) ins Englische mit komple- xen heuristischen Methoden mühsam hinzugefügt werden muss. Der Satz „本を持っていま す“ kann im Deutschen mit „Ich habe ein Buch“, „Ich habe Bücher“ oder auch „Ich habe das Buch“ übersetzt werden. Weitergehend steht auch kein Pronomen im Satz, sodass auch „Sie hat ein Buch“ eine mögliche Übersetzung wäre. Die Information ergibt sich aus dem Kontext, in dem der Satz geäußert wird. 3 Klassische Ansätze Der Neustart der Forschung an maschineller Übersetzung in den 1980er Jahren ging von der Linguistik aus, die mit der Informatik das interdisziplinäre Fachgebiet der Computer- linguistik entwickelte. Die Methoden der regelbasierten maschinellen Übersetzung ent- standen daraus und sollen hier skizziert werden. Mit der Jahrtausendwende kamen die Mathematiker ins Spiel, die statistische Methoden auf großen Datenmengen nutzten – ein vollkommen anderer Ansatz, das Problem zu lösen. 3.1 Regelbasierte maschinelle Übersetzung Die regelbasierte maschinelle Übersetzung erfordert für die Entwicklung sehr viel Wissen über die beteiligten Sprachen: Wissen über die linguistischen Eigenschaften von Quell- und Zielsprache, Wissen über die Beziehung zwischen Quell- und Zielsprache, Wissen über das Sachgebiet der Übersetzungsaufgabe und Wissen über kulturelle und soziale Konventionen in den Kulturen der beteiligten Sprachen. Dieses Wissen muss für die Übersetzung identifiziert und so repräsentiert werden, dass es für die maschinelle Über- setzung verarbeitbar ist.
310 B 14: Melanie Siegel Die grundlegende Idee dabei ist, den Text der Ausgangssprache auf seine Semantik zu analysieren und diese in einer Repräsentation darzustellen. Die semantische Reprä- sentation wird dann mit sogenannten Transferregeln in eine semantische Repräsentation der Zielsprache überführt, die anschließend in einen Text überführt wird. Die Systeme bestehen daher aus drei Phasen: Analyse, Transfer und Generierung. Bond et al. (2005) geben ein Beispiel dafür: ビールを三つきて下さい (biiru-wo mittsu motte kite kudasai) sollte übersetzt werden in: „Please bring three beers“ Die semantische Repräsentation des japanischen Satzes im Format der Minimal Re- cursion Semantics nach (Copestake et al. 2005): < h1,{h1: imp_m(h3) h4: biiru_n(x1), h6: udef_q(x1,h7,h8), h9: card(u1,x1,"3"), h11: motsu_v(e1,u2,x1), h11: kuru_v(e2,u3), h15: kudasaru_v(e3,u4,u5,h17), h17: proposition_m(h18) }, {h3 =q h15, h7 =q h4, h18 =q h11} > Um diese semantische Repräsentation zu erreichen, muss der japanische Satz zunächst tokenisiert werden, sodass die einzelnen Wörter identifiziert werden. Der nächste Schritt ist die syntaktische Information, also z. B. die Information, dass das Wort „biiru“ (Bier) ein Nomen ist. Dann wird die morphologische Information analysiert, z. B. die Imperativ- form des Verbs „kudasai“ und die Akkusativfunktion der Partikel „wo“. Diese linguisti- schen Angaben werden dann mithilfe einer Grammatik, die die Strukturen der Sprache kennt, analysiert und damit die semantische Analysestruktur aufgebaut. Bond et al. (2005) geben auch die semantische Repräsentation des englischen Satzes: < h0,{h0: please_a(e3,h1) h1: imp_m(h3), h2: pronoun_q(x0,h7,h8), h4: pron(x01{2nd}), h5: bring_v(e2,x0,x1), h4: beer_n(x1), h6: udef_q(x1,h10,h8), h11: card(u1,x1,"3") }, {h3 =q h5, h7 =q h4, h10 =q h11} > (Bond et al. 2005, S. 18) Transferregeln übertragen die semantische Struktur des Ausgangssatzes in die semanti- sche Struktur des Zielsatzes. Dabei wird z. B. das japanische Verb „kudasai“ in das engli- sche Adverb „please“ übertragen, wobei der Skopus erhalten bleibt. Diese Vorgehensweise erfordert sehr viel linguistisches Wissen und sehr viel Arbeit beim Aufbau der Grammatiken und der Regeln und ist sehr aufwändig zu implementie- ren. Gleichzeitig ist die Implementierung nicht sehr robust in Bezug auf Sprachwandel,
B 14: Maschinelle Übersetzung 311 sehr komplexe Sprachstrukturen und Fehler in den zu übersetzenden Texten. In der An- wendung ist ein Pre-Editing der Texte der Ausgangssprache sinnvoll, um besonders komplexe Formulierungen zu vereinfachen. Dieses Pre-Editing kann auch zum Teil auto- matisiert erfolgen (Siegel 2013). Die regelbasierte Übersetzung war das vorherrschende Paradigma in der Forschung von ca. 1980 bis 2005 und in der Industrie bis ca. 2010. 3.2 Statistische maschinelle Übersetzung Mit der zunehmenden allgemeinen Verfügbarkeit großer Mengen übersetzter Texte kam die Idee auf, mit statistischen Verfahren Übersetzungen aus diesen Daten zu lernen. Ein Beispiel für einen solchen Textkorpus, den Europarl-Korpus, beschreibt Koehn (2005). Texte, die in mehreren Sprachen parallel vorliegen, nennt man in Englisch „aligned“. Bei der Parallelität kann es sich um ein Alignment auf Dokument-Basis, auf Absatz-Basis oder auf Satz-Basis handeln. Der Europarl-Korpus liegt in einer Form vor, in der Sätze parallelisiert („aligned“) sind. Eine umfassende Beschreibung der Methoden der statisti- schen maschinellen Übersetzung gibt Philipp Koehn (2010), hier geben wir nur einen kleinen Einblick: Zwar hatte man nun eine große Menge an parallelen Sätzen zur Verfügung, dennoch ist es eher unwahrscheinlich, dass genau der Satz, der nun neu übersetzt werden muss, auch in der Datenbank vorhanden ist.3 Daher betrachtet man kleinere Einheiten, im ers- ten Schritt Wörter. Das lernende System soll die Frage beantworten, wie wahrscheinlich es ist, dass ein Wort der Ausgangssprache zusammen (in einem parallelen Satz) mit ei- nem Wort der Zielsprache auftritt. Dazu kommen die Angaben über die Positionen der Wörter im Satz und der Satzlängen, also die Anzahl aller Wörter im Satz. Aus dem Text- korpus wird also inferiert – um ein Beispiel von Koehn (2010) aufzugreifen –, dass die wahrscheinlichste Übersetzung des deutschen Wortes „Haus“ das englische „house“ ist, einfach weil diese beiden Wörter am häufigsten miteinander in parallelen deutsch-engli- schen Sätzen vorkommen. Die zweithäufigste Übersetzung ist „building“. In einem Satz werden so die wahrscheinlichsten Übersetzungen der Wörter zusammengefügt. Im nächsten Schritt müssen die Wörter im Satz der Zielsprache neu sortiert werden, um den Regeln der Wortstellung der Zielsprache zu genügen. Nicht immer wird auch ein Wort in der Ausgangssprache auch in ein Wort der Zielsprache übersetzt: „klitzeklein“ wird zu „very small“. Daher muss der Algorithmus beim Lernen aus den Textkorpora auch die Satzlänge mit beachten, wenn die parallelen Sätze nicht genau dieselbe Anzahl an Wör- tern haben. Im nächsten Schritt versucht man, auf etwas größere Einheiten zu gehen als Wörter: Phrase-Based Statistical Machine Translation (PBSMT). Wörter allein lassen sich ohne Kontext oft nicht gut übersetzen. Koehn (2010) gibt als Beispiel die deutsche Präposition „am“, die z. B. in der Phrase „Spaß am“ mit „with the“ übersetzt wird, aber in der Phrase „am Donnerstag“ mit „on“. Diese Phrasen, die nicht unbedingt linguistische Phrasen sind, werden aus dem Textkorpus extrahiert, indem man schaut, welche Wortketten re- gelmäßig miteinander auftreten. 3 Eine Ausnahme davon sind Translation-Memory-Systeme, die genau darauf bauen, dass in einem sehr engen Kontext wie der technischen Dokumentation innerhalb einer Firma durchaus immer wieder diesel- ben Sätze geschrieben werden.
312 B 14: Melanie Siegel Der Vorteil dieser statistischen Methode liegt darin, dass man nur wenig linguisti- sches Wissen und wenige linguistische Ressourcen benötigt. Mit Statistiken über große Mengen an parallelen Daten lassen sich recht schnell Übersetzungssysteme für verschie- dene Sprachen bauen. Durch die zunehmende Nutzung von Translation-Memory-Syste- men durch professionelle Übersetzer*innen wurden in kurzer Zeit weitere parallele Da- ten erstellt, die zum Training genutzt werden können. Aus diesem Grund war die statisti- sche Übersetzung das vorherrschende Paradigma vom Jahr 2000 bis ca. 2016. Es gibt aber auch Nachteile der Methode: PBSMT funktioniert recht gut bei struktu- rell ähnlichen Sprachen, ist aber deutlich schlechter bei strukturell stark unterschiedli- chen Sprachen, wie in Abschnitt 2.3 beschrieben wurde. Durch den Fokus auf Phrasen geht der Satzzusammenhang verloren, was schon mal dazu führen kann, dass z. B. der Negationsskopus nicht richtig übersetzt und damit das falsche Verb im Satz negiert wird, oder dass ein „nicht“ gar nicht übersetzt wird. Schwierig wird es auch bei Spra- chen mit reicher Morphologie, bei denen nicht alle Wortformen in den Trainingsdaten auch zu finden sind. Dadurch, dass der Text in Phrasen aufgeteilt wird, die einzeln über- setzt werden, können Abhängigkeiten über größere Einheiten nicht berücksichtigt werden. Das führt zu Fehlern, z. B. mit falschen Genus-Übereinstimmungen (Yang et al. 2020). Z. B. werden die deutschen Wörter „Haus“ und „Häuser“ als komplett unter- schiedliche Einheiten betrachtet, ohne jeden Zusammenhang dazwischen. Um diese offensichtlichen Nachteile zu vermeiden, wurde nach und nach wieder lin- guistisches Wissen in die Übersetzungs-Pipeline einbezogen, wie Way (2020) feststellte: While it was already the case that the dominant paradigm was SMT, a performance ceiling was reached relatively quickly, such that for the past ten years or so, MT system developers have been ‘smuggling in’ linguistic information in order to improve performance as demonstrated by both auto- matic and human evaluation. (Way 2020, S. 311)4 4 Neuronale maschinelle Übersetzung Die Einsicht, dass der Kontext, in dem Wörter und Phrasen stehen, für die Übersetzung in hohem Maße relevant ist, führte zu einem erneuten Paradigmenwechsel, zur neurona- len maschinellen Übersetzung (NMT) (Van Genabith 2020). Die neuronalen Netze haben sich in der Bilderkennung und der Erkennung gesprochener Sprache bewährt und wur- den nun auch auf das Problem der maschinellen Übersetzung übertragen. Die Idee dabei ist, das Sprachmodell zu verbessern, also die Wahrscheinlichkeit, dass ein Wort oder eine Phrase in einer Sprache in einem bestimmten Kontext auftritt, mit einzubeziehen. Auch diese Verfahren benötigen kein linguistisches Wissen außer dem, das automatisch aus den Trainingsdaten inferiert werden kann. Die klassische Struktur eines NMT-Systems besteht aus Encoder und Decoder. Enco- der und Decoder sind zwei miteinander verbundene neuronale Netze. Der Text der Aus- gangssprache wird bei der Übersetzung in einen Vektor umgewandelt (Encoder). Für die- sen Vektor wird dann in der Zielsprache ein Satz gesucht (Decoder). Wenn ein Wort ge- neriert wird, dann wird die Information darüber, welche Wörter im Ausgangssatz 4 Deutsch: Während SMT bereits das vorherrschende Paradigma war, wurde relativ schnell eine Leis- tungsgrenze erreicht, so dass die Entwickler von MÜ-Systemen in den letzten zehn Jahren linguistische Informationen „eingeschmuggelt“ haben, um die Leistung zu verbessern, wie die automatische und menschliche Bewertung zeigt. (übersetzt mit DeepL, 23.05.2022).
B 14: Maschinelle Übersetzung 313 stehen, zusammen mit der Information darüber, welches Wort davor generiert wurde, genutzt. Das führt dazu, dass Sprachmodell und Übersetzungsmodell in Kombination vorliegen. 4.1 Encoder Neuronale Netze benötigen als Input Zahlenwerte. Die Kodierung der Sprachdaten in so- genannten Word Embeddings geht auf Mikolov et al. (2013) zurück. Zunächst wird ein Vektor aufgestellt, der (zumindest theoretisch) so viele Stellen hat, wie unterschiedliche Wörter im Textkorpus sind.5 Jedes unterschiedliche Wort im Text bekommt eine Num- mer, die für die Position im Vektor steht. An dieser Position bekommt das Wort eine 1 für den eigenen Vektor. Nun wird geschaut, welche Wörter rechts und links von diesem Wort auftreten können. Das Fenster dafür bilden normalerweise zwei Wörter rechts und zwei Wörter links. An der Position für diese Wörter bekommt der Vektor des Wortes ei- nen Zahlenwert für die Wahrscheinlichkeit, dass sie zusammen mit diesem Wort auftre- ten. Diese Berechnung wird für alle Wörter im Trainingskorpus durchgeführt und als Word Embeddings gespeichert. Word Embeddings kodieren alle Wörter und ihren Kon- text im Satz. Dadurch wird der gesamte Satz bei der Übersetzung berücksichtigt und nicht – wie bei SMT – eine Folge von Phrasen (Van Genabith 2020; Yang et al. 2020). Die Struktur der beteiligten Sprachen wird dadurch gelernt, ohne dass sie aufwändig kodiert werden muss. Das Training von Word Embeddings dauert extrem lange und benötigt viele Ressour- cen. Dafür können diese Word Embeddings in verschiedenen Anwendungen immer wie- der verwendet werden, weil sie zunächst nur ein Modell der jeweiligen Sprache darstel- len. 4.2 Decoder Grundlage für das Training von NMT sind – ebenso wie bei SMT – parallele Sätze und die Word Embeddings der beteiligten Sprachen. Die Maschinelle Übersetzung wird dabei als ein Sprachmodell des Zielsprachen-Satzes angesehen, das durch das Sprachmodell des Ausgangssprachen-Satzes bedingt ist. Die Wahrscheinlichkeit für ein Wort der Ziel- sprache wird dabei unter Berücksichtigung des Wortes davor und der gesamten Wörter des Ausgangssprachen-Satzes berechnet. Dabei bleibt der gesamte Kontext erhalten, wo- bei die SMT eher lokale Entscheidungen trifft. Im Ergebnis führt das zu deutlich besseren und auch flüssigeren Übersetzungen (Koehn 2020). 4.3 Attention-Mechanismus Ein Problem der NMT-Modelle ist, dass die Qualität der Übersetzung von der Länge der zu übersetzenden Sätze abhängig ist. Das liegt daran, dass die Wortvektoren eine fixe Länge haben. Sehr lange Sätze können daher schlechter übersetzt werden. Um dieses 5 Tatsächlich werden die Vektoren in der Praxis auf eine bestimmte Länge reduziert.
314 B 14: Melanie Siegel Problem zu adressieren, wurde der Attention-Mechanismus erfunden. Die Idee dabei ist, zunächst zu berechnen, welche Wörter und Phrasen besonders relevant für die Überset- zung sind und diese dann zuerst zu übersetzen. Van Genabith (2020) gibt ein Beispiel: Der Satz „Sie hat das Buch übersetzt“ soll ins Englische mit „She translated the book“ übersetzt werden. Wenn die Wort-für-Wort-Übersetzung bei „hat“ ist, kann „translated“ nicht gut erkannt werden. Im Satz sind „Buch“ und „übersetzt“ relevanter als „Sie“ und „hat“. Der Attention-Mechanismus sucht bei der Generierung des zweiten Wortes „trans- lated“ zunächst, welches Wort im Ausgangssatz dafür am relevantesten ist, also welcher Vektor ähnlich ist. Way (2020) gibt ein Beispiel für ein Problem des Attention-Mechanismus, das sich in DeepL und Google Translate nachvollziehen lässt (Test am 29.06.2021): – Deutscher Satz: „Die Volkswirtschaftslehre (auch Nationalökonomie, wirtschaftliche Staatswissenschaften oder Sozialökonomie, kurz VWL) ist ein Teilgebiet der Wirt- schaftswissenschaft.“ – DeepL: „Economics (also national economics, economic state science or social eco- nomics, in short VWL) is a branch of economic science.“ – Google Translate: „Economics (also political economy, economic political science or social economy, economics for short) is a branch of economics.“ Transformer-Modelle, die aktuell Stand der Forschung sind, arbeiten ausschließlich mit dem Attention-Mechanismus. Texte können durch Transformer auch bidirektional einge- lesen werden (also von links-nach-rechts und rechts-nach-links gleichzeitig). Dadurch wird mehr Kontext als bei normalen Word Embeddings einbezogen. Google stellte 2018 das Transformer-Modell BERT vor, das die Sprachtechnologie erheblich beeinflusste. Seitdem gibt es kaum ein wissenschaftliches Paper auf einer Sprachtechnologie-Konfe- renz, das nicht mit BERT arbeitet (Devlin et al. 2019). OpenAI stellten 2020 das Transfor- mer-Modell GPT-3 vor, das ein Sprachmodell mit 175 Milliarden Parametern ist (Brown et al. 2020). 5 Maschinelle Übersetzung und komplexe (offene) Probleme Ein Problem der SMT, aber auch der NMT-Modelle war zu Beginn, dass kein Sprachmo- dell der Zielsprache eingesetzt wurde, sodass die Texte der Zielsprache nicht „flüssig“ genug waren. Zu den parallelen Trainingskorpora werden nun einsprachige Textkorpora hinzugezogen. Diese sind in extrem großem Maße verfügbar. Um die Qualität der über- setzten Texte zu erhöhen, werden die einsprachigen Texte der Zielsprache zunächst au- tomatisch in die Ausgangssprache übersetzt. Das Ergebnis wird als paralleler Korpus ge- nutzt. Die Qualität der zielsprachlichen Texte (fluency) steigt dadurch, denn es sind ja natürliche Texte in großer Menge, die hier zum Training genutzt werden. Diese Methode nennt sich Backtranslation (Van Genabith 2020). Bei allen Verfahren ist die Größe des Vokabulars, das übersetzt werden kann, be- schränkt. Der Grund dafür ist bei der NMT, dass mehr Wörter auch zu größeren Vektoren und daher zu mehr Rechenzeit führen. 50 000 bis 80 000 Wörter sind normalerweise durch ein Modell abgedeckt. Die Entscheidung über die Wörter, die einbezogen werden, fällt normalerweise anhand der Frequenz. Sehr seltene Wörter können also nicht einfach übersetzt werden. Daher ist ein wichtiger Faktor für die Performanz eines MT-Systems, wie man mit sogenannten Out-of-Vocabulary Words n (OOV-Wörter) umgeht. Frühe MT-
B 14: Maschinelle Übersetzung 315 Systeme haben OOV-Wörter einfach in die Zielsprache kopiert, sodass z. B. ein deutsches Wort in der englischen Übersetzung auftaucht. In den Fällen, in denen das OOV-Wort ein Name ist, ist das auch richtig. Aber Sprache ist äußerst kreativ, ständig entstehen neue Wörter und etablieren sich ungewöhnliche Schreibformen (s. Abschnitt 2.1). Die Forschung versuchte daher, auf eine Ebene unter das Wort zu gehen und z. B. die häu- figsten Kookkurrenzen von Buchstaben im Datensatz als „Wort“ zu analysieren. Dadurch erkennt man zumindest neue Wortformen und kann mit Wörtern sowie auch mit Sub- Word-Einheiten arbeiten (Van Genabith 2020). Viele professionelle Anwender*innen müssen eine spezialisierte Terminologie ver- wenden und Fachwörter oder auch firmenspezifische Wörter in der Übersetzung verwen- den. Bei den statistischen Verfahren (SMT und NMT) ist dafür aber ein neues Training auf großen spezialisierten Datenmengen erforderlich, das dennoch keine Garantie für korrekte Verwendung der Terminologie bietet. Die Systeme bieten zwar an, ein eigenes Glossar zu pflegen, allerdings werden die Wörter bisher einfach automatisch ersetzt und es kann zu grammatischen Fehlern kommen (Winter & Zielinski 2020). Probleme der Ambiguität (s. Abschnitt 2.2) und der Übersetzung stark unterschiedli- cher Sprachen (s. Abschnitt 2.3) sind in den aktuellen Systemen weitgehend ungelöst. Die großen Mengen an parallelen Daten, die für ein Training benötigt werden, liegen nur für einen Bruchteil der möglichen Sprachpaare der ca. 7 000 Sprachen in dieser Welt vor. Eine Taktik, die verfolgt wird, ist, den Text in einer Sprache zunächst ins Englische und dann von da aus in die Zielsprache zu übersetzen. Das ist für Sprachen möglich, für die es parallele englische Daten gibt. Ein anderer Versuch ist, Sprachmodelle für ähnli- che Sprachen zu trainieren. 6 Schlussbemerkungen Maschinelle Übersetzung ist eins der komplexesten Probleme der automatischen Verar- beitung natürlicher Sprache. Gleichzeitig hat die maschinelle Übersetzung hohe Rele- vanz für die Anwendung und wird heutzutage von vielen Menschen selbstverständlich genutzt. In der Forschungsgeschichte der maschinellen Übersetzung gibt es eine Reihe von Brüchen und Neuanfängen. Auch die NMT ist noch nicht das Ende, es gab schon viele Paradigmen, und es wird weitergehen. Wir haben in diesem Kapitel einen Über- blick über Verfahren der regelbasierten, der statistischen und der auf neuronalen Netzen basierten maschinellen Übersetzung gegeben. Eine Reihe von Problemen ist noch ungelöst: Die Übersetzung sehr langer Sätze, die Übersetzung von OOV-Wörtern, Ambiguität, Relationen über Satzgrenzen hinweg, die Übersetzung von Sprachen mit wenig Datenmaterial. In diesem interessanten For- schungsgebiet gibt es noch viel zu tun. 7 Literaturverzeichnis Bond, F. (2005). Translating the Untranslatable: A Solution to the Problem of Generating English Determi- ners. CSLI Publications. Bond, F., Oepen, S., Siegel, M., Copestake, A. & Flickinger, D. (2005). Open source machine translation with DELPH-IN. In Proceedings of the open-source machine translation workshop at machine transla- tion summit X (S. 15–22).
316 B 14: Melanie Siegel Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., Agarwal, S., Herbert-Voss, A., Krueger, G., Henighan, T., Child, R., Ramesh, A., Ziegler, D. M., Wu, J., Winter, C. & Amodei, D. (2020). Language Models are Few-Shot Learners. In H. Larochelle, M. Ranzato, R. Hadsell, M. F. Balcan & H. Lin (Eds.), Advances in Neural Information Pro- cessing Systems (vol. 33, S. 1877–1901). Curran Associates. https://proceedings.neurips.cc/paper/ 2020/file/1457c0d6bfcb4967418bfb8ac142f64a-Paper.pdf. Copestake, A., Flickinger, D., Pollard, C. & Sag, I. A. (2005). Minimal Recursion Semantics: An Introduction. Research Language Computation, 3(2), 281–332. Devlin, J., Chang, M.-W., Lee, K. & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transfor- mers for Language Understanding. In J. Burstein, C. Doran & T. Solorio (Eds.), Proceedings of the 2019 conference of the North American Chapter of the Association for Computational Linguistics: Hu- man Language Technologies (vol. 1, S. 4171–4186). Association for Computational Linguistics. http://dx.doi.org/10.18653/v1/N19-1423. Koehn, P. (2005). Europarl: A Parallel Corpus for Statistical Machine Translation. Conference Proceedings: the tenth Machine Translation Summit (p./pp. 79–86), Phuket, Thailand: AAMT. Koehn, P. (2010). Statistical Machine Translation. Cambridge University Press. Koehn, P. (2020). Neural Machine Translation. Cambridge University Press. Löbner, S. (2015). Semantik. De Gruyter. Mikolov, T., Sutskever, I., Chen, K., Corrado, G. S. & Dean, J. (2013). Distributed Representations of Words and Phrases and their Compositionality. In C. J. C. Burges, L. Bottou, M. Welling, Z. Ghahramani & K. Q. Weinberger (Eds.), Advances in Neural Information Processing Systems (vol. 26, S. 3111–3119). Curran Associates. Siegel, M. (2013). Authoring Support for Controlled Language and Machine Translation. Translation: Com- putation, Corpora, Cognition, 3(1), 49–60. Siegel, M. (2017). Maschinelle Übersetzung strukturell unterschiedlicher Sprachen: Japanisch und Deutsch. In J. Porsiel (Hrsg.), Maschinelle Übersetzung: Grundlagen für den professionellen Einsatz (S. 207–223). BDÜ Weiterbildungs- und Fachverlagsgesellschaft mbH. Van Genabith, J. (2020). Neural Machine Translation. In J. Porsiel (Hrsg.), Maschinelle Übersetzung für Übersetzungsprofis (S. 59–115). BDÜ Weiterbildungs- und Fachverlagsgesellschaft mbH. Way, A. (2020). Machine translation: Where are we at today? In E. Angelone, M. Ehrensberger-Dow & G. Massey (Eds.), The Bloomsbury Companion to Language Industry Studies (S. 311–332). Winter, T. & Zielinski, D. (2020). Terminologie in der neuronalen maschinellen Übersetzung. In J. Porsiel (Hrsg.), Maschinelle Übersetzung für Übersetzungsprofis (S. 210–233). BDÜ Weiterbildungs- und Fachverlagsgesellschaft mbH. Yang, S., Wang, Y. & Chu, X. (2020). A Survey of Deep Learning Techniques for Neural Machine Translation. arXiv. https://arxiv.org/abs/2002.07526.
Sie können auch lesen