Unterstützung der SNOMED-CT- Übersetzung durch frei verfügbare Werkzeuge zur maschinellen Übersetzung

Die Seite wird erstellt Dustin Rose
 
WEITER LESEN
Unterstützung der SNOMED-CT- Übersetzung durch frei verfügbare Werkzeuge zur maschinellen Übersetzung
Unterstützung der SNOMED-CT-
Übersetzung durch frei verfügbare
Werkzeuge zur maschinellen
Übersetzung
Martin Boeker, Thomas Maulhardt, Andrea Prunotto, Stefan Schulz
Institut für Medizinische Biometrie und Statistik, Universität Freiburg
Institut für Künstliche Intelligenz und Informatik in der Medizin (AIIM), TUM/MRI

                                                                                    1
Unterstützung der SNOMED-CT- Übersetzung durch frei verfügbare Werkzeuge zur maschinellen Übersetzung
Strategie zur Unterstützung der SNOMED-CT-Übersetzung

• Zielsetzung: Bereitstellung qualitativ geprüfter Übersetzungs-Kandidaten

• Verfügbare Dienste und Ressourcen:
   •   Frei verfügbarere "MT Engines“:
       •   Übersetzungsdienste wie Google Translate, Systrans, Deepl)
   •   Vorhandener, qualitätsgesicherter SNOMED-CT-Descriptions
       •   Englisch, Spanisch, Schwedish, Dänisch…

• Pilotstudie anhand SNOMED-CT-Starter-Sets

• Validierung der Methode mittels Orphanet

• Manuelle Erstellung eines Übersetzungs-Goldstandards

                                                                             2
Unterstützung der SNOMED-CT- Übersetzung durch frei verfügbare Werkzeuge zur maschinellen Übersetzung
4 Quell-Sprachen für direkte Übersetzung
       source
       language

             en
• en

• es                            target
                  Google        language
• da

• sw                               de

                                           3
Unterstützung der SNOMED-CT- Übersetzung durch frei verfügbare Werkzeuge zur maschinellen Übersetzung
3 Übersetzungs-Engines

                              Deepl
           en

                     Google

                                      de

          Systrans

                                           4
Unterstützung der SNOMED-CT- Übersetzung durch frei verfügbare Werkzeuge zur maschinellen Übersetzung
12 Kombinationen mit Support-Language

   source                   support
   language   en            language

                              da
                   Google

                                   Google        target
                                            de
                                                 language

                                                            5
Zahlreiche Übersetzungskandidaten durch
 Kombination aus Sprachen und MT-Engines
                                                                             Dt. Übersetzungskandidaten für
                                                       Mit                                 C
                                                       Zweitübersetzung
                                                                             Szenarien
                 SCT Preferred term                                          direkt
                     Sprache L1                                              L1àT1          à      C de.1.1
                                           L1                  L1            L1àT2          à      C de.1.2
                                           L2                  L2
                                           L3   MT-Engine T1   L3            L1àT3          à      C de.1.3
                 SCT Preferred term        L4                  L4            L2àT1          à      C de.2.1
                     Sprache L2                                              L2àT2          à      C de.2.2
   SCT                                     L1                  L1            (…)
                                           L2                  L2
concept C                                  L3   MT-Engine T2   L4
                 SCT Preferred term        L4                  L5            Mit Zweitübersetzung
                     Sprache L3                                              L1àT1àL2àT1à       C de.1.1.2.1
                                                                             L1àT1àL3àT1à       C de.1.1.3.1
                                           L1                  L1   direkt   L1àT1àL4àT1à       C de.1.1.4.1
                                           L2                  L2
                                           L3   MT-Engine T3   L3
                                                                             (…)
                 SCT Preferred term        L4                  L5
                                                                             L2àT1àL2àT1à       C de.2.1.2.1
                     Sprache L4
                                                                             L2àT2àL3àT1à       C de.2.2.3.1
                 Englisch, Spanisch,       Google translate                  (…)
                 Dänisch, Schwedisch       DeepL, Systrans                   L3àT3àL1àT1à       C de.3.3.1.1

4 Ausgangssprachen *   3 MT                                             = 12 Übersetzungskandidaten
4 Ausgangssprachen *   3 MT-Engines * 4 Intermediärsprachen * 3 MT-Engines = 144 Übersetzungskandidaten
                                                                                                              6
Direkte Übersetzungen ergeben unterschiedlich viele
Übersetzungskandidaten für jedes FSN

                                                      7
l   Combining
                 l   4 source languages
                 l   Google
                 l   (direct translations)

overlap: exact
match between
FSN
translations

                                     8
l   Combining
l   4 source languages
l   3 MT engines
l   (direct translations)

                    9
Übersetzungsszenarien ergeben derzeit im Mittel 30
unterschiedliche Übersetzungskandidaten

                              • Priorisierung mit
                                statistischen Verfahren

                              • Präsentation von Shortlist für
                                 •   Auswahl des Vorzugsterms
                                 •   Auswahl der Synonyms

                                                       10
Übersetzungskandidaten: Beispiele mit hoher
Übereinstimmung

                                    Chest Discomfort
    Häufigkeit des Kandidaten   3              10                  30

                                    Exacerbation of intermittent asthma
                                                                        11
  Häufigkeit des Kandidaten         3                  10
Übersetzungskandidaten: Beispiele mit geringerer
Übereinstimmung (geringere Häufigkeiten)

                                                                Whiplash injury to neck
                              Häufigkeit des Kandidaten     3                      10

                                                          Abdominal distension, gaseous
                                                                                        12
  Häufigkeit des Kandidaten                                     3              5
Die Methode wurde anhand der bestehenden
multilingualen OrphaNet-Termkollektion validiert
• Vorhersagehäufigkeit des korrekten deutschen Terms, ausgehend von den Sprachen Englisch, Spanisch,
  Französisch und Niederländisch

         Direkte Übersetzung mittels Google Translate

         English à Deutsch                                                  26,8 %

         Spanisch à Deutsch                                                 32,6 %

         Französisch à Deutsch                                              23,8 %

         Über Zweitübersetzung mittels Google Translate

         Niederländisch à Englisch à Deutsch                                21,8 %

• Auf 100 mit der direkten Methode erzielten korrekten Übersetzungen kommen je nach
  Sprachkombination bis zu 26, die ausschließlich über eine Zweitübersetzung gewonnen werden konnten
                                                                                               13
Validierung gegen Goldstandard
                                                     Evaluation of IMBI automatic translation based on Gold Standard (986 terms)
                                                                                                    method     Deepl        Google   IMBI

                                               300                                                                                                      290
                                                                  282
                                                                                                                                             266
    Number of exact match with Gold Standard

                                                                                                                                                                 252
                                                                                                                                                                            237

                                               200

                                                                                          103
                                               100

                                                                                                                       64

                                                 0
                                                                  IMBI                  IMBI                       IMBI                     d.t. from English   d.t. from Spanish
                                                            First candidate        Second candidate          Third candidate

                                                                                                                                                                                    14
Exakte Übereinstimmung mit Gold-Standard Übersetzungen
(bisher noch unveröffentlichte Ergebnisse)

                                                         15
Zusammenfassung

• Kombinatorische Methode zur Erzeugung von Übersetzungskandidaten

• Basiert auf frei-verfügbaren Techniken und Methoden

• Sehr gute Validierungsergebnisse:

• Bis zu 1/3 Übereinstimmung mit OrphaNet-Termkollektion
• 290 - 449/986 Übereinstimmung mit Gold-Standard Übersetzung

                                                              16
Sie können auch lesen