WISSENSREPRÄSENTATION UND UNSTRUKTURIERTE KLINISCHE DATEN - Stefan Schulz Erweiterungsstudium Digitalisierung in der Medizin Stand 25. Jänner 2021

 
WEITER LESEN
WISSENSREPRÄSENTATION UND UNSTRUKTURIERTE KLINISCHE DATEN - Stefan Schulz Erweiterungsstudium Digitalisierung in der Medizin Stand 25. Jänner 2021
WISSENSREPRÄSENTATION UND
UNSTRUKTURIERTE KLINISCHE DATEN

Stefan Schulz
Erweiterungsstudium Digitalisierung in der Medizin
Stand 25. Jänner 2021
WISSENSREPRÄSENTATION UND UNSTRUKTURIERTE KLINISCHE DATEN - Stefan Schulz Erweiterungsstudium Digitalisierung in der Medizin Stand 25. Jänner 2021
Anforderung Medizinische Dokumentation

                 Daten
                 erheben

                           Daten
                           Speichern

                                       Daten
     •   Zur richtigen Zeit            ordnen
     •   Am richtigen Ort                       Wiederge-
                                                Daten
     •   In der richtigen Form                   winnen
                                                wiederfinden
     •   Durch berechtigte Nutzer
WISSENSREPRÄSENTATION UND UNSTRUKTURIERTE KLINISCHE DATEN - Stefan Schulz Erweiterungsstudium Digitalisierung in der Medizin Stand 25. Jänner 2021
Recherche in Datenbanken
                        ICD-10 - I21.1:
                             Akuter
                         transmuraler
                      Myokardinfarkt der
                          Hinterwand
WISSENSREPRÄSENTATION UND UNSTRUKTURIERTE KLINISCHE DATEN - Stefan Schulz Erweiterungsstudium Digitalisierung in der Medizin Stand 25. Jänner 2021
Recherche in Datenbanken

                    SELECT case.[diagnosis(icd)],
                    patients.patID, patients.name,
                    patients.famname, patients.DOB,
                    city.nome FROM
                    (city INNER JOIN patients ON city.ID =
                    patients.icdID) INNER JOIN (ICD INNER
                    JOIN cases ON ICD.Code =
                    cases.[diagnosis(icd)]) ON patients.patID =
                    cases.patID
                    WHERE (((cases.[diagnosis(icd)])="I21.1")
                    AND ((patients.DOB)
WISSENSREPRÄSENTATION UND UNSTRUKTURIERTE KLINISCHE DATEN - Stefan Schulz Erweiterungsstudium Digitalisierung in der Medizin Stand 25. Jänner 2021
Recherche in Datenbanken
                 Query #1
                 famname      patients.name   DOB        city.name
                 Klaus-       Kohler          09.01.1966 Graz-Liebenau
                 Michael
                 Christiane   Thomüller       12.06.1960 Graz
                 Konstantin   Luttenberger    31.08.1963 Lebring

                       SELECT case.[diagnosis(icd)],
                       patients.patID, patients.name,
                       patients.famname, patients.DOB,
                       city.name FROM
                       (city INNER JOIN patients ON city.ID =
                       patients.icdID) INNER JOIN (ICD INNER
                       JOIN cases ON ICD.Code =
                       cases.[diagnosis(icd)]) ON patients.patID =
                       cases.patID
                       WHERE (((cases.[diagnosis(icd)])="I21.1")
                       AND ((patients.DOB)
WISSENSREPRÄSENTATION UND UNSTRUKTURIERTE KLINISCHE DATEN - Stefan Schulz Erweiterungsstudium Digitalisierung in der Medizin Stand 25. Jänner 2021
WISSENSREPRÄSENTATION UND UNSTRUKTURIERTE KLINISCHE DATEN - Stefan Schulz Erweiterungsstudium Digitalisierung in der Medizin Stand 25. Jänner 2021
WISSENSREPRÄSENTATION UND UNSTRUKTURIERTE KLINISCHE DATEN - Stefan Schulz Erweiterungsstudium Digitalisierung in der Medizin Stand 25. Jänner 2021
Natürliche
Sprache
WISSENSREPRÄSENTATION UND UNSTRUKTURIERTE KLINISCHE DATEN - Stefan Schulz Erweiterungsstudium Digitalisierung in der Medizin Stand 25. Jänner 2021
   Kommunikation in der Klinik
                Kommunikation zwischen
Natürliche       Wissenschaftlern
Sprache         Medizinische Dokumentation
                Wissenschaftliches
                 Publizieren
WISSENSREPRÄSENTATION UND UNSTRUKTURIERTE KLINISCHE DATEN - Stefan Schulz Erweiterungsstudium Digitalisierung in der Medizin Stand 25. Jänner 2021
Strukturierte
Daten
…erforderlich für

   Epidemiologie
   Abrechnung
   Medizincontrolling           Strukturierte
   Qualitätssicherung           Daten
   Klinische Studien
   Entscheidungsunterstützung
   Prognose, Planung
Auf kontrollierten Vokabularien
  (Thesauren, Ontologien
   Klassifikationen)

      ICD                        Strukturierte
      SNOMED CT                  Daten
      MedDRA
      LOINC
      etc., etc.
Natürliche   Strukturierte
Sprache      Daten
Aus der Sicht der Kliniker

Natürliche                             Strukturierte
Sprache                                Daten

              +      Qualität      -
              -      Kosten        +
Aus der Sicht von Management /
             Forschung

Natürliche                                Strukturierte
Sprache                                   Daten

                   -     Qualität    +
                   +     Kosten       -
NLP
        Natural Language Processing

Natürliche                       Strukturierte
Sprache                          Daten
Anwendungsbereiche von NLP in der Medizin
       Informationsrecherche (Information Retrieval)
       Automatische Kodierung (Automated Coding)
       Informationsextraktion (Information Extraction)
       Maschinelle Übersetzung (Machine translation)
       Beantwortung von Fragen (Question Answering)
       Summarisierung (Summarization)
       Sprachgenerierung (Natural Language Generation)
       Analyse gesprochener Sprache (Speech Recognition)
Informationsrecherche
    Anfrage
    (Query)     ?         Ergebnisse

              Dokumente
Informationsextraktion
   Physical examination on admission revealed purpura            ADM{419620001
   of the upper and lower extremities, swelling of the           110714004
   gums and tonsils, but no symptoms showing the                 65124004 113279002
   complication of myasthenia gravis. Hematological              NEG{116223007 91637004 252275004
   tests revealed leucocytosis: WBC count 68 700/µl
   (blasts 11.5%, myelocytes 0.5%, bands 2.0%, segments          111583006} 767002[68700] 271040006[11.5]
   16.0%, monocytes 65.5%, lymphocytes 4.0%, atypical            313696224[0.5] 313696667[2.0]
   lymphocytes 0.5%), Hb 7.1 g/dl (reticulocytes 12%)            313696009[16.0] 271037006[65.5]
   and a platelet count of 9.1 × 104/µl. A bone marrow           271036002[4.0] 271036013[0.5]
   aspiration revealed hypercellular bone marrow with a          365809007[7.1] 45995003[12]
   decreased number of erythroblasts and                         365632008[91000]
   megakaryocytes and an increased number of                     49401003 76197007 14016003
   monoblasts. The Monoblasts were positive for staining         420510009 103213002
   by [alpha]-naphthyl butyrate esterase and negative            53945006 35105006
   for staining by naphthol ASD
   chloroacetate esterase.                                       10828004 16788000
                                                                 260385009 16788331 16788021

   Informationsschablone (Template)
   Monoblast staining                     pos     neg      n/a

   [alpha]-naphthyl butyrate esterase       x

   naphthol ASD chloroacetate esterase               x
Automatische Übersetzung
Question Answering
                          IBM Watson at Jeopardy!

          "EACH YEAR THE EU SELECTS CAPITALS OF CULTURE; ONE OF
          THE 2010 CITIES WAS THIS TURKISH "MEETING PLACE OF
          CULTURES"
Gütekriterien für Informationsrecherche:
Precision und Recall

                                            gefundene relevante*
     Precision (Genauigkeit)         =          gefundene*

                                            gefundene relevante*
                                                 relevante*
     Recall (Ausbeute)           =

    * Gesuchte Objekte, i.a. Dokumente, Fakten, Terme
Precision / Recall

   Ein Lehrbuch enthält Krankheitsbeschreibungen zu :
    Pneumonie, Pankreatitis, Hepatitis, Arthritis, Diabetes mellitus,
    Thyreoiditis, Gonarthrose, M. Crohn, Appendizitis, Rachitis.
   Ziel: Selektiere alle Dokumente über entzündliche Erkrankungen
   Methode: Jeder Titel, der den Teilstring "itis" enthält, wird als relevant
    betrachtet (vereinfachte Annahme).
   Aufgabe:
     Wie   ist die Precision, wie der Recall dieser Methode ?
     Gegeben   eine große (n > 1000) Dokumentenkollektion, was ist
       einfacher zu messen, Precision oder Recall?
Problem semantikfreier Suche
  "Makroskopie: "Resektat nach Whipple": Ein noch nicht eröffnetes Resektat,
  bestehend aus einem distalen Magen mit einer kleinen Kurvaturlänge von 9,5
  cm und einer großen Kurvaturlänge von 13,5 cm, sowei einem duodenalen
  Anteil von 14 cm Länge. 2 cm aboral des Pylorus zeigt die Dünndarmwandung
  eine sanduhrartige Stenose. Im Magen- und Duodenallumen reichlich
  zähflüssiger Schleim, sanguinolent; die Schleimhaut ist insgesamt livide. Auf
  lamellierenden Schnitten zähfestes weißliches, teilweise nodulär konfiguriertes
  Gewebe, ohne das Gallengänge manifest werden. Der distale Anteil des Ductus
  pankreaticus ist leicht erweitert und von der Papilla vateri aus 4,5 cm weit
  sondierbar, wobei er hier in einer peripankreatischen Narbenzone abbricht.
  Eine Gallengangsmündung läßt sich makroskopisch nicht abgrenzen. Die
  berichtete Duodenumstenose liegt 2,5 cm oral der Papilla vateri und steht mit
  der beschriebenen Narbenzone in direktem
  Zusammenhang.
 Dokument wird gefunden       Keine Treffer für:
 mit den Suchwörtern:         "Pankreatikoduodenectomie", "Resektion",
 "Whipple", "Magen",          "Duodenum", "Zwölffingerdarm", "Pankreas",
 "Pylorus"                    "Bauchspeicheldrüse", "Gallengang",
                              "Pankreasgang", "Ductus pancreaticus", "Papille",
                              "Magenresektion"
Datenbankretrieval / Freitextsuche

 Beispiel:
 Zähle alle Patienten im Zeitraum
                                    Problem:
 1.1. – 31.12.2014, die während
                                    • Als Sekundärdiagnose fehlt oft der
 eines stationären Aufenthalts
                                        entsprechende ICD – Kode (K25)
 ein Magenulkus hatten
                                    • K25 wird u.U. auch kodiert bei nicht
 (gesicherte Diagnose)
                                        nachgewiesener Diagnose
                                        (Patient wurde auf Magenulkus behandelt)
                                     Im Allgemein: ICD-Kodierung unzuverlässig für
                                    klinisch-epidemiologische Auswertungen

Einfache Freitextsuche nach "Magenulkus" in allen Dokumenten
• "florides Magenulcus"                                          negativ
• "Stressulkus im Corpusbereich":                                negativ
• "Magenulkus kann nicht ausgeschlossen werden"                  positiv
• "Familienanamnese: Vater Magenulkus"                           positiv
• "Gabe von Omeprazol zur Prophylaxe eines Magenulkus"           positiv
Semantische Suche:
 Suche nach Wortbedeutungen
In Befundtext: "Stressulcus im Corpusbereich" Anfrage: "Magenulkus"
Semantische Suche:
 Suche nach Wortbedeutungen
In Befundtext: "Stressulcus im Corpusbereich" Anfrage: "Magenulkus"
    ANNOTATIONEN
                                "Corpusbereich" =syn
"Stressulkus im Corpus"
                                "Corpus"
                                "Stressulcus"   =syn
                                "Stressulkus"
Semantische Suche:
 Suche nach Wortbedeutungen
In Befundtext: "Stressulcus im Corpusbereich" Anfrage: "Magenulkus"
    ANNOTATIONEN                                          ONTOLOGIE
                                "Corpusbereich" =syn
"Stressulkus im Corpus"
                                "Corpus"                 Ulkus
                                "Stressulcus"   =syn
"Ulkus im Corpus"                                           Stressulkus
                                "Stressulkus"
                                                            Druckulkus
                                                            (…)
Semantische Suche:
 Suche nach Wortbedeutungen
In Befundtext: "Stressulcus im Corpusbereich" Anfrage: "Magenulkus"
    ANNOTATIONEN                                           ONTOLOGIE
                                "Corpusbereich" =syn
"Stressulkus im Corpus"
                                "Corpus"                  Ulkus
                                "Stressulcus"   =syn
"Ulkus im Corpus"                                            Stressulkus
                                "Stressulkus"
                                                             Druckulkus
                                       LEXIKON               (…)
                      ?         "Corpus luteum"        Teil von Ovar
                                "Corpus callosum"      Teil von Gehirn
                                "Corpus uteri"         Teil von Uterus
                                "Corpus ventriculi"    Teil von Magen
Semantische Suche:
 Suche nach Wortbedeutungen
In Befundtext: "Stressulcus im Corpusbereich" Anfrage: "Magenulkus"
    ANNOTATIONEN                                           ONTOLOGIE
                                "Corpusbereich" =syn
"Stressulkus im Corpus"
                                "Corpus"                  Ulkus
                                "Stressulcus"   =syn
"Ulkus im Corpus"                                            Stressulkus
                                "Stressulkus"
                                                             Druckulkus
                                       LEXIKON               (…)
                      ?         "Corpus luteum"        Teil von Ovar
"Ovarialulkus"                  "Corpus callosum"      Teil von Gehirn
"Gehirnulkus"                   "Corpus uteri"         Teil von Uterus
"Uterusulkus"                   "Corpus ventriculi"    Teil von Magen
"Magenulkus"
Semantische Suche:
 Suche nach Wortbedeutungen
In Befundtext: "Stressulcus im Corpusbereich" Anfrage: "Magenulkus"
    ANNOTATIONEN                                                                                       ONTOLOGIE
                                "Corpusbereich" =syn
"Stressulkus im Corpus"
                                "Corpus"                                                              Ulkus
                                "Stressulcus"   =syn
"Ulkus im Corpus"                                                                                        Stressulkus
                                "Stressulkus"
                                                                                                         Druckulkus
                                       LEXIKON                                                           (…)
                      ?         "Corpus luteum"                                                    Teil von Ovar
"Ovarialulkus"                  "Corpus callosum"                                                  Teil von Gehirn
"Gehirnulkus"                   "Corpus uteri"                                                     Teil von Uterus
"Uterusulkus"                   "Corpus ventriculi"                                                Teil von Magen
"Magenulkus"
                          ?               sowei einem duodenalen Anteil von 14 cm Länge. 2 cm
                                           aboral des Pylorus zeigt die Dünndarmwandung eine
                                          sanduhrartige Stenose. Im Magen- und Duodenallumen
                                              reichlich zähflüssiger Schleim, sanguinolent; die
                                            Schleimhaut ist insgesamt livide. Auf lamellierenden
                                             Schnitten zähfestes weißliches, teilweise nodulär
                                          konfiguriertes Gewebe, ohne das Gallengänge manifest
                                                                   werden

                                          REFERENZKORPUS
Semantische Suche:
 Suche nach Wortbedeutungen
In Befundtext: "Stressulcus im Corpusbereich" Anfrage: "Magenulkus"
    ANNOTATIONEN                                                                                       ONTOLOGIE
                                "Corpusbereich" =syn
"Stressulkus im Corpus"
                                "Corpus"                                                              Ulkus
                                "Stressulcus"   =syn
"Ulkus im Corpus"                                                                                        Stressulkus
                                "Stressulkus"
                                                                                                         Druckulkus
                                       LEXIKON                                                           (…)
                      ?         "Corpus luteum"                                                    Teil von Ovar
"Ovarialulkus"                  "Corpus callosum"                                                  Teil von Gehirn
"Gehirnulkus"                   "Corpus uteri"                                                     Teil von Uterus
"Uterusulkus"                   "Corpus ventriculi"                                                Teil von Magen
"Magenulkus"

"Ovarialulkus"
                          ?               sowei einem duodenalen Anteil von 14 cm Länge. 2 cm
                                           aboral des Pylorus zeigt die Dünndarmwandung eine
                                          sanduhrartige Stenose. Im Magen- und Duodenallumen
                                              reichlich zähflüssiger Schleim, sanguinolent; die
                                            Schleimhaut ist insgesamt livide. Auf lamellierenden

"Gehirnulkus"                                Schnitten zähfestes weißliches, teilweise nodulär
                                          konfiguriertes Gewebe, ohne das Gallengänge manifest
                                                                   werden

"Uterusulkus"
"Magenulkus"                              REFERENZKORPUS
Textrecherche / Informationsextraktion
   Identifikation von Texten / Extraktion von Informationen, die für einen
    Informationsbedarf relevant sind
   Ohne NLP:
       Strings und logische Operatoren (AND, OR, NOT, NEAR)
   Mit NLP:
       Analyse von Wörtern, ihrer morphologischen Konstitution und ihrer syntaktischen
        Funktion basierend auf symbolischen und probabilistischen Modellen
   Mit NLP und Semantik
       Analyse der Bedeutung sprachlicher Ausdrücke anhand von begrifflichen
        Ordnungssystemen (Thesauren / Ontologien / Klassifikationen)
   Ohne Semantik:
        mittels großer Mengen an Trainingsdaten und neuronaler Modelle, siehe
        Suchmaschinenbetreiber
Grundprinzipien der Linguistik
        Phonetik, Phonologie
        Morphologie
        Syntax
        Semantik
        Pragmatik
        Korpuslinguistik
        Lexikographie
        Terminologielehre
dogs are
             dogs                        ❻
             are
                       ❺                       possible
                                               vectors
             vertebrates                 of
                            Universals         rabies
      "canis familiaris"                      Marley is a
      and "dog"                                       dog
      are
      synonyms   ❹                            ❷
"dog" is a                                          Marley lives
 noun                                               in Florida
 ❸                     denotation
                                                    ❶
    Symbols                         Individuals
             Sprachliche Zeichen
Phoneme                   [ħ] , [ɛ], [p]
                                                                          Sprachliche Zeichen
                       Morpheme                  hepat; -itis

                               Wörter                    Hepatitis

                                      Terme                    Hepatitis Typ B

Das Hepatitis-B-Virus                         Phrasen

Das Hepatitis B-Virus Typ B wird
hauptsächlich über das Blut übertragen.
                                                       Sätze

Die Hepatitis-Viren Typ B (HBV) und C (HCV) werden
hauptsächlich über das Blut übertragen. Das Injizieren von
                                                              Paragraphen
Drogenkonsumenten und Patienten, die kontaminiertes und
nicht wegwerfbares chirurgisches Material erhalten, gehören
zu den größten Opfern

                                                                  Dokumente
Wohlgeformte Ausdrücke und Regelverstöße

   Morphologie (Präfixe, Stämme, Suffixe):
       Mehr|ling|s|schwanger|schaft
       * Mehrl|ings|schwang|er|schaf|t
   Syntax:
       Eine Infektion beendete die Schwangerschaft
       * Beendete Schwangerschaft Infektion die
   Semantik:
       Der Säugling wurde per Kaiserschnitt entbunden
       * Der Zahn wurde per Kaiserschnitt extrahiert
   Diskurs / Pragmatik:
       Eine Infektion beendete die Schwangerschaft. Mutter und Kind sind
        wohlauf
       * Eine Infektion beendete die Schwangerschaft. Vater und Großvater
        sind wohlauf
Token / Type / Lexem

      "When flies fly behind flies, a fly is flying ahead"

         Wie viele Wörter?
Wörter sind
         Begrenzte Zeichenketten (Tokens)
           1    2        3   4     5   6 7 8     9        10
      "When flies fly behind flies, a fly is flying ahead"
         Formen (Types)
          1      2       3   4    2    5 3 6      7       8
      "When flies fly behind flies, a fly is flying ahead"
         Lexeme (lexikalische Einheiten)
          1          2   3   4     2     5 2 6        3       7
      "When flies fly behind flies, a fly is flying ahead"
         Lemmata (Zitierformen)
       "When", "fly" "to fly" "behind", "a", "to be", "ahead"
Morphologie und Syntax
   Morphologie
     Flexionsregeln:Substantiv, Adjektiv, Verb, Pronomen
      Deklination: Genus, Kasus, Numerus (Subst., Adj. Pronomen)
      Konjugation: Tempus, Numerus, Person (Verben)
   Syntax: Theorie des Satzbaus
     Grammatikregeln: Regeln zum Kombinieren von Ausdrücken
      zu komplexen Ausdrücken
     Wortklassen: POS ("Part of Speech"): Verb, Substantiv,
      Adjektiv, Adverb, Artikel, Präposition…
Baumdarstellung - Dependenzgrammatik

                                       s = Satz
                                       vp = Verbphrase
                                       pp = Präpositionalphrase
                                       np = Nominalphrase
                                       det = Determiner
                                       n = Nomen
                                       pn = Pronomen
                                       v = Verb
Morphologische Eigenheiten deutscher Medizinterme

   Viele Morpheme von Latein, Griechisch, Englisch abgeleitet:
    "arteri-", "nephr-", "bypaß", "anti-", "ektomie"
   Rein lateinisch deklinierte Mehrwort-Terme: "Angina pectoris"
   Eindeutschung: "Ulcus ventriculi", aber "Magenulkus"
   Infix "o": hepatozellulär, gastrointestinal
   Eponyme: Alzheimer, Asperger, Hodgkin
   Kompositabildung: "Tarsometatarsalgelenk", "Bleivergiftung"
   Akronyme: "HWI": Harnwegsinfekt, Hinterwandinfarkt
Akronymbildung
Pragmatik der Kliniksprache
           Tippfehler, Schreibfehler: "Bantobrazol", "Pantoprasol"
           Schreibvarianten*: "rectale Untersuchung", "Oesophagus"
           Unvollständige Sätze: "Überweisung Neurologie"
           Metonymien: "Blinddarm wurde entlassen"
           Transkriptionsfehler: "nach theoretischer Therapie" **
           Ad-Hoc-Abkürzungen: "lymphozyteninfiltr.", "Abkl."
           Ellipsen: "Totaloperation"
           Floskeln, Pleonasmen: "kein Zweifel am Vorliegen eines…", "im
            Kniebereich", "Durchuntersuchung", "wir ersuchen höflichst",
            "Cor… Pulmo…", "objektiver Befund"
* Rechtschreibekonvention Thieme: https://www.thieme.de/statics/dokumente/thieme/final/de/dokumente/sw_%20autorenlounge/Rechtschreibkonvention_20171023.pdf
** arztbriefperlen.de
NLP - Klassische Textverstehenssysteme

                              ended                  Ending                            Pregnancy
                                                                                           P-patient
                                                     E-patient   Pregnancy                            Mother
                         infection       pregnancy   E-agent                               P-co-patient
                                                                 Infection                              Baby
                     a     severe       the                                            IF ... Pregnancy & inf.
                                                                   I-degree            THEN ... mortal danger
 end + edPastTense                                                            severe
                                                                                       *     The baby survived
                                      Syntactic
 Morphological                        Processor                   Semantic                       Inference
   Processor                           (Parser/                  Interpreter                       Engine
                                     Generator)

   Word                                                       Semantic                          Domain
 Lexicon                        Grammar
 Grammar                                                      Rule Base                         Ontology

                                                                                 Source: Udo Hahn, Univ. Jena
Klassische Textverstehenssysteme
              auf formaler Logik basierende Analyse und Inferenzsysteme
              Beispiel:
                  Parsing von Sätzen: Erstellen von Syntaxbäumen
                  Pattern matching aufgrund von
                   regulären Ausdrücken
              Probleme:
                  geringe Fehlertoleranz
                  Komplexität, Berechenbarkeit
                  Ambiguitäten
                  manuelle Spezifikationen
              Dennoch für viele Aufgaben Verfahren der Wahl:
                    Klassifikation von Pathobefunden maligne/benigne oder infektiös / nichtinfektiös
Daniel Jurafsky, James H. Martin. Speech and Language Processing - An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. 3rd Edition draft 12/2020
Probabilistisches NLP
    statt formal-logischer "Tiefen"-Analyse robuste
     Approximationen
    Maschinelles Lernen mit probabilistischen
     Sprachmodellen.
    Einfaches Beispiel:
     Bedingte Wahrscheinlichkeiten
     in n-Gramm-Modellen
    Seit 2016 Hinwendung zu
     neuronalen Netzen
     ("Deep learning")
    Große Korpora für Training der
     Modelle notwendig
    Evaluierung:
        Goldstandards für die Bewertung des maschinellen Lernens
Maschinelles Lernen

 Zunehmend wichtige Technologie im NLP-Kontext
 Schließen aus Mustern in Trainingsdaten, um Vorhersagen über
  neue Daten zu treffen.
 Während der Lernphase werden die Parameter, die das
  verwendete Modell charakterisieren, durch numerische Maße
  berechnet
 Überwachtes ("supervised") Lernen: Jede Einheit im
  Trainingsdatensatz ist mit der richtigen Antwort gekennzeichnet
 Unbeaufsichtigtes ("unsupervised") Lernen: versucht Muster
  automatisch zu erkennen
NLP – Online Demos
    Stanford Core NLP
      (https://corenlp.run/        | http://nlp.stanford.edu:8080/corenlp/ )

      Bioportal   annotator
       https://bioportal.bioontology.org/annotatorplus
      Spark NLP
      Google Cloud
      IBM Cloud
      Averbis Health Discovery (Deutsch)
Herausforderung klinisches NLP (I)
   Abkürzungen ("RA", "ml"), häufig, mehrdeutig ("Ca" = Krebs
    oder Kalzium), können standardisiert oder spontan sein:
     "Umstellung   von Cipro auf Genta + Ampi
     "Schleimh.   lymphozyteninfiltr."
   Tokenisierung: Identifizierung einzelner Token
    innerhalb eines Satzes.
     Problem  mit Zeichen, die normalerweise als
      Trennzeichen verwendet werden (Bindestriche,
      Schrägstriche, Kommas, Punkte):
      "10k Leuk.", 2,4-Dichlorphenol
Herausforderung klinisches NLP (II)
   Wortklassenerkennung (Part-of-speech-Tagging = POS):
     "der   gefangene Floh" – "der Gefangene floh"
     "Diabetes     mellitus" – "Angina pectoris"
   Wortkompositionen
     Einzelwort:
        Trichlorophenoxyessigsäure,    Glomerulonephritissyndrom
     Mehrwort:
        "...   Patient berichtet von Arzneimittel Exanthem"
        "...unabhängig von Arzneimittel Exanthem Exazerbation"
         (korrekt Zusammenschreibung oder Bindestrich statt "Deppenleerzeichen")
Herausforderung klinisches NLP (III)
   Termidentifikation: "Mycosis" , "Mycosis fungoides"
     Wichtig: anonymisierungsreevante Entitäten:
      Arzt, Patienten, Institutionsnamen
   Identifikation von Eigennamen: "Frau Iris Leber",
    "Läsion der Iris", "Einblutung in die Leber"
   Sprachökonomie (Ellipsen, Koordinationen)
     Messwerte:    88/min
     AST,   ALT, Gamma-GT normal
   Implizite Kontexte
     Diff-BB   bis auf Eos (11) normal
Herausforderung klinisches NLP (IV)
   Deklinationsmuster:
     "Karotis"   – "Karotiden"
     "Bypass"    –"Bypässe"
     "Baby"   – "Babys"
   Synonymie auf Phrasen- und Satzebene:
     "X   der Niere" = "renale(s) X"
    -  "Pat. hat Schwierigkeiten beim Duschen" –
      - "Es fällt dem Pat. schwer, die Dusche selbstständig zu nutzen"
      – "Der Patient klagt über Schwierigkeiten bei der Benutzung von
         WC und Dusche"
Herausforderung klinisches NLP (V)
   Fehlendes Weltwissen:
     "Mütter   mit Kindern unter 10 Jahren" - "Mütter mit erstem Kind über 40"
   Negations- und andere Kontexte
     "Bronchialkarzinom   in der Familienanamnese"
     Ausbleiben   der Monatsblutung
     geplante   Lebertransplantation
     Hyperandrogenismus,    vermutlich ovarieller Genese
     Phäochromozytom     nicht auszuschließen
     Pat.   wurde auf Meningitis behandelt
     V.a.   MI, DD: Lungenembolie
Herausforderung klinisches NLP (VI)
   Erkennen von Relationen:
     "Kaiserschnitt   nach Beckenendlage"  Indikation
     Biopsie   Pylorusschleimhaut: massiv lymphozytär infiltriert  Lokalisation
     Typ    I Diabetes ED 2012. Seit 2020 massiver Visusverlust bds.  Zeitfolge
   Anaphern:
     Identität:   "...Lungenödem. Dieses wurde diuretisch behandelt"
     Generalisierung:    "... Desensibilisierung. Die Behandlung wurde in..."
     Teil / Ganzes: Knochenmarkbiopsie
      (...) Megakaryozyten erhöht, Blasten normal
Beispiel Kontext
   "Pat. stat. aufgenommen, da Narbenhernie (St.p.
    exploratorische Laparotomie nach Messerstich) für
    operative Revision vorgesehen. OP wurde aufgrund eines
    Notfalls (Polytraumata nach Busunglück) abgesetzt.
    Entlassung in hausärztl. Betreuung mit Bitte um erneute
    Vereinbarung eines OP-Termins."
   Welche Kontexte spielen hier eine Rolle?
Zielstrukturen klinische Informationsextraktion

   "Term Grounding": Zuordnung von
    Termen eines kontrollierten
    Vokabulars
   Terminologie in Kontext
     Ontologie:
      z.B. SNOMED CT: "Model of Meaning"
     Informationsmodell:
      z.B. FHIR; "Model of Use"
Probleme bei der eindeutigen Zuordnung von Codes zu
Text
   Insbesondere bei großen, detailreichen Terminologien
    Tokens       Annotator #1        Annotator #2        Gold standard         Tokens     Annotator #1         Annotator #2         Gold standard
                 Finding of          Structure of        Measure of            "Motor:    'Skeletal muscle
                                                                                                               'Muscle finding
    "palpebral   measures of         palpebral fissure   palpebral fissure     normal     structure (body
                                                                                                               (finding)'              'Skeletal muscle
    fissure"     palpebral fissure   (body structure)    (observable entity)   bulk and   structure)'
                                                                                                                                       normal (finding)'
                 (finding)                                                     tone"      'Normal              'Normal
                                                                                          (qualifier value)'   (qualifier value)'

   Prä-Koordination vs. Post-Koordination
Lexikalische Semantik, Vektorrepräsentationen,
Embeddings
Verteilungshypothese

   “words which are similar in meaning occur in similar contexts”
    (Rubenstein & Goodenough, 1965)

   Verteilungsmuster sprachlicher Einheiten in Korpora lässt
    Rückschlüsse auf ihre Bedeutung zu
   Damit können Ähnlichkeiten sprachlicher Einheiten aus Daten
    errechnet ("gelernt") werden
   Grundlegendes Prinzip derzeitiger KI-Ansätze zur Verarbeitung
    natürlicher Sprache mittels maschinellen Lernens

 Rubenstein, H., & Goodenough, J. (1965). Contextual correlates of synonymy. Communications of the ACM, 8 (10), 627–633.
Vektordarstellung

              Ähnlichkeitsfunktion
                    Kosinus der aus Häufigkeitstabelle abgeleiteten TF-IDF oder PPMI-Werte
                    Problem: riesige, "sparse" – Vektoren (1 Dimension pro Type)
                    Neue Alternative: Word Embeddings

Daniel Jurafsky, James H. Martin. Speech and Language Processing - An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. 3rd Edition draft 12/2020
Embeddings

   kurze "dichte" Vektoren (viel weniger Dimensionen, besser
    gefüllt)
   Bessere Performanz, aber keine klare Semantik pro Dimension
   Statische Embeddings:
     word2vec

   Kontextuelle Embeddings:
     BERT,   ELMO
word2vec

         Beispiel: Skip-gramm-Ansatz
          Zielwort und benachbartes Kontextwort als
           positives Label.
          Test Sie zufällig andere Wörter im Lexikon,
           um negative Stichproben zu erhalten.
          Logistische Regression zum Training eines
           Klassifikators, um diese beiden Fälle zu
           unterscheiden.
          Verwendung der erlernten Gewichte als
           Embeddings.

Mikolov, T., Chen, K., Corrado, G. S., and Dean, J. (2013). Efficient estimation of word representations in vector space. ICLR 2013
Semantik von Embeddings

Daniel Jurafsky, James H. Martin. Speech and Language Processing - An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. 3rd Edition draft 12/2020
Semantik von Embeddings

Daniel Jurafsky, James H. Martin. Speech and Language Processing - An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. 3rd Edition draft 12/2020
Ausblick Embedding-Ansätze und Neuronale Netze

   fasttext: Inkludiert auch Wortfragmente (Subwords)
   BERT: Embeddings inkludiert in neuronal Netzarchitektur
     derzeit   beste Ergebnisse für viele NLP-Aufgaben
     Erklärungsansätze   schwierig
   Vortrainierte Sprachmodelle:
     Werden   auf großen, Domänen- oder sprachspezifischen Korpora
      trainiert und dann an eine neue Domäne angepasst
     Beispiel: Training auf Pubmed-Abstracts und Wikipedia, Anpassung auf
      Kliniksprache
dogs are
             dogs                        ❻
             are
                       ❺                       possible
                                               vectors
             vertebrates                 of
                            Universals         rabies
      "canis familiaris"                      Marley is a
      and "dog"                                       dog
      are
      synonyms   ❹                            ❷
"dog" is a                                          Marley lives
 noun                                               in Florida
 ❸                     denotation
                                                    ❶
    Symbols                         Individuals
Wissensrepräsentation – was fehlt noch

   Repräsentation von prozessualem Wissen, z.B. klinische
    Guidelines und Protokolle
   Wissensrepräsentation in prädiktive Modellen  Maschinelles
    Lernen, neuronale Netze ( Bastian Pfeifer)
   Wissensrepräsentation in Systemen zur diagnostischen
    Entscheidungsunterstützung ( Übungen Modul 17)
   Repräsentation in Form semantischer Annotationen, z.B.
    medizinische und biomedizinische Datenbanken
     "Biomedical      Databases" aus dem Doktoratsstudium:
      https://user.medunigraz.at/stefan.schulz/presentations/2020_Biomedical_Databases.pptx
Sie können auch lesen