Unterstützung der SNOMED-CT- Übersetzung durch frei verfügbare Werkzeuge zur maschinellen Übersetzung
←
→
Transkription von Seiteninhalten
Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten
Unterstützung der SNOMED-CT- Übersetzung durch frei verfügbare Werkzeuge zur maschinellen Übersetzung Martin Boeker, Thomas Maulhardt, Andrea Prunotto, Stefan Schulz Institut für Medizinische Biometrie und Statistik, Universität Freiburg Institut für Künstliche Intelligenz und Informatik in der Medizin (AIIM), TUM/MRI 1
Strategie zur Unterstützung der SNOMED-CT-Übersetzung • Zielsetzung: Bereitstellung qualitativ geprüfter Übersetzungs-Kandidaten • Verfügbare Dienste und Ressourcen: • Frei verfügbarere "MT Engines“: • Übersetzungsdienste wie Google Translate, Systrans, Deepl) • Vorhandener, qualitätsgesicherter SNOMED-CT-Descriptions • Englisch, Spanisch, Schwedish, Dänisch… • Pilotstudie anhand SNOMED-CT-Starter-Sets • Validierung der Methode mittels Orphanet • Manuelle Erstellung eines Übersetzungs-Goldstandards 2
4 Quell-Sprachen für direkte Übersetzung source language en • en • es target Google language • da • sw de 3
12 Kombinationen mit Support-Language source support language en language da Google Google target de language 5
Zahlreiche Übersetzungskandidaten durch Kombination aus Sprachen und MT-Engines Dt. Übersetzungskandidaten für Mit C Zweitübersetzung Szenarien SCT Preferred term direkt Sprache L1 L1àT1 à C de.1.1 L1 L1 L1àT2 à C de.1.2 L2 L2 L3 MT-Engine T1 L3 L1àT3 à C de.1.3 SCT Preferred term L4 L4 L2àT1 à C de.2.1 Sprache L2 L2àT2 à C de.2.2 SCT L1 L1 (…) L2 L2 concept C L3 MT-Engine T2 L4 SCT Preferred term L4 L5 Mit Zweitübersetzung Sprache L3 L1àT1àL2àT1à C de.1.1.2.1 L1àT1àL3àT1à C de.1.1.3.1 L1 L1 direkt L1àT1àL4àT1à C de.1.1.4.1 L2 L2 L3 MT-Engine T3 L3 (…) SCT Preferred term L4 L5 L2àT1àL2àT1à C de.2.1.2.1 Sprache L4 L2àT2àL3àT1à C de.2.2.3.1 Englisch, Spanisch, Google translate (…) Dänisch, Schwedisch DeepL, Systrans L3àT3àL1àT1à C de.3.3.1.1 4 Ausgangssprachen * 3 MT = 12 Übersetzungskandidaten 4 Ausgangssprachen * 3 MT-Engines * 4 Intermediärsprachen * 3 MT-Engines = 144 Übersetzungskandidaten 6
Direkte Übersetzungen ergeben unterschiedlich viele Übersetzungskandidaten für jedes FSN 7
l Combining l 4 source languages l Google l (direct translations) overlap: exact match between FSN translations 8
l Combining l 4 source languages l 3 MT engines l (direct translations) 9
Übersetzungsszenarien ergeben derzeit im Mittel 30 unterschiedliche Übersetzungskandidaten • Priorisierung mit statistischen Verfahren • Präsentation von Shortlist für • Auswahl des Vorzugsterms • Auswahl der Synonyms 10
Übersetzungskandidaten: Beispiele mit hoher Übereinstimmung Chest Discomfort Häufigkeit des Kandidaten 3 10 30 Exacerbation of intermittent asthma 11 Häufigkeit des Kandidaten 3 10
Übersetzungskandidaten: Beispiele mit geringerer Übereinstimmung (geringere Häufigkeiten) Whiplash injury to neck Häufigkeit des Kandidaten 3 10 Abdominal distension, gaseous 12 Häufigkeit des Kandidaten 3 5
Die Methode wurde anhand der bestehenden multilingualen OrphaNet-Termkollektion validiert • Vorhersagehäufigkeit des korrekten deutschen Terms, ausgehend von den Sprachen Englisch, Spanisch, Französisch und Niederländisch Direkte Übersetzung mittels Google Translate English à Deutsch 26,8 % Spanisch à Deutsch 32,6 % Französisch à Deutsch 23,8 % Über Zweitübersetzung mittels Google Translate Niederländisch à Englisch à Deutsch 21,8 % • Auf 100 mit der direkten Methode erzielten korrekten Übersetzungen kommen je nach Sprachkombination bis zu 26, die ausschließlich über eine Zweitübersetzung gewonnen werden konnten 13
Validierung gegen Goldstandard Evaluation of IMBI automatic translation based on Gold Standard (986 terms) method Deepl Google IMBI 300 290 282 266 Number of exact match with Gold Standard 252 237 200 103 100 64 0 IMBI IMBI IMBI d.t. from English d.t. from Spanish First candidate Second candidate Third candidate 14
Exakte Übereinstimmung mit Gold-Standard Übersetzungen (bisher noch unveröffentlichte Ergebnisse) 15
Zusammenfassung • Kombinatorische Methode zur Erzeugung von Übersetzungskandidaten • Basiert auf frei-verfügbaren Techniken und Methoden • Sehr gute Validierungsergebnisse: • Bis zu 1/3 Übereinstimmung mit OrphaNet-Termkollektion • 290 - 449/986 Übereinstimmung mit Gold-Standard Übersetzung 16
Sie können auch lesen