WISSENSREPRÄSENTATION UND UNSTRUKTURIERTE KLINISCHE DATEN - Stefan Schulz Erweiterungsstudium Digitalisierung in der Medizin Stand 25. Jänner 2021
←
→
Transkription von Seiteninhalten
Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten
WISSENSREPRÄSENTATION UND UNSTRUKTURIERTE KLINISCHE DATEN Stefan Schulz Erweiterungsstudium Digitalisierung in der Medizin Stand 25. Jänner 2021
Anforderung Medizinische Dokumentation Daten erheben Daten Speichern Daten • Zur richtigen Zeit ordnen • Am richtigen Ort Wiederge- Daten • In der richtigen Form winnen wiederfinden • Durch berechtigte Nutzer
Recherche in Datenbanken SELECT case.[diagnosis(icd)], patients.patID, patients.name, patients.famname, patients.DOB, city.nome FROM (city INNER JOIN patients ON city.ID = patients.icdID) INNER JOIN (ICD INNER JOIN cases ON ICD.Code = cases.[diagnosis(icd)]) ON patients.patID = cases.patID WHERE (((cases.[diagnosis(icd)])="I21.1") AND ((patients.DOB)
Recherche in Datenbanken Query #1 famname patients.name DOB city.name Klaus- Kohler 09.01.1966 Graz-Liebenau Michael Christiane Thomüller 12.06.1960 Graz Konstantin Luttenberger 31.08.1963 Lebring SELECT case.[diagnosis(icd)], patients.patID, patients.name, patients.famname, patients.DOB, city.name FROM (city INNER JOIN patients ON city.ID = patients.icdID) INNER JOIN (ICD INNER JOIN cases ON ICD.Code = cases.[diagnosis(icd)]) ON patients.patID = cases.patID WHERE (((cases.[diagnosis(icd)])="I21.1") AND ((patients.DOB)
Kommunikation in der Klinik Kommunikation zwischen Natürliche Wissenschaftlern Sprache Medizinische Dokumentation Wissenschaftliches Publizieren
…erforderlich für Epidemiologie Abrechnung Medizincontrolling Strukturierte Qualitätssicherung Daten Klinische Studien Entscheidungsunterstützung Prognose, Planung
Auf kontrollierten Vokabularien (Thesauren, Ontologien Klassifikationen) ICD Strukturierte SNOMED CT Daten MedDRA LOINC etc., etc.
Natürliche Strukturierte Sprache Daten
Aus der Sicht der Kliniker Natürliche Strukturierte Sprache Daten + Qualität - - Kosten +
Aus der Sicht von Management / Forschung Natürliche Strukturierte Sprache Daten - Qualität + + Kosten -
NLP Natural Language Processing Natürliche Strukturierte Sprache Daten
Anwendungsbereiche von NLP in der Medizin Informationsrecherche (Information Retrieval) Automatische Kodierung (Automated Coding) Informationsextraktion (Information Extraction) Maschinelle Übersetzung (Machine translation) Beantwortung von Fragen (Question Answering) Summarisierung (Summarization) Sprachgenerierung (Natural Language Generation) Analyse gesprochener Sprache (Speech Recognition)
Informationsrecherche Anfrage (Query) ? Ergebnisse Dokumente
Informationsextraktion Physical examination on admission revealed purpura ADM{419620001 of the upper and lower extremities, swelling of the 110714004 gums and tonsils, but no symptoms showing the 65124004 113279002 complication of myasthenia gravis. Hematological NEG{116223007 91637004 252275004 tests revealed leucocytosis: WBC count 68 700/µl (blasts 11.5%, myelocytes 0.5%, bands 2.0%, segments 111583006} 767002[68700] 271040006[11.5] 16.0%, monocytes 65.5%, lymphocytes 4.0%, atypical 313696224[0.5] 313696667[2.0] lymphocytes 0.5%), Hb 7.1 g/dl (reticulocytes 12%) 313696009[16.0] 271037006[65.5] and a platelet count of 9.1 × 104/µl. A bone marrow 271036002[4.0] 271036013[0.5] aspiration revealed hypercellular bone marrow with a 365809007[7.1] 45995003[12] decreased number of erythroblasts and 365632008[91000] megakaryocytes and an increased number of 49401003 76197007 14016003 monoblasts. The Monoblasts were positive for staining 420510009 103213002 by [alpha]-naphthyl butyrate esterase and negative 53945006 35105006 for staining by naphthol ASD chloroacetate esterase. 10828004 16788000 260385009 16788331 16788021 Informationsschablone (Template) Monoblast staining pos neg n/a [alpha]-naphthyl butyrate esterase x naphthol ASD chloroacetate esterase x
Automatische Übersetzung
Question Answering IBM Watson at Jeopardy! "EACH YEAR THE EU SELECTS CAPITALS OF CULTURE; ONE OF THE 2010 CITIES WAS THIS TURKISH "MEETING PLACE OF CULTURES"
Gütekriterien für Informationsrecherche: Precision und Recall gefundene relevante* Precision (Genauigkeit) = gefundene* gefundene relevante* relevante* Recall (Ausbeute) = * Gesuchte Objekte, i.a. Dokumente, Fakten, Terme
Precision / Recall Ein Lehrbuch enthält Krankheitsbeschreibungen zu : Pneumonie, Pankreatitis, Hepatitis, Arthritis, Diabetes mellitus, Thyreoiditis, Gonarthrose, M. Crohn, Appendizitis, Rachitis. Ziel: Selektiere alle Dokumente über entzündliche Erkrankungen Methode: Jeder Titel, der den Teilstring "itis" enthält, wird als relevant betrachtet (vereinfachte Annahme). Aufgabe: Wie ist die Precision, wie der Recall dieser Methode ? Gegeben eine große (n > 1000) Dokumentenkollektion, was ist einfacher zu messen, Precision oder Recall?
Problem semantikfreier Suche "Makroskopie: "Resektat nach Whipple": Ein noch nicht eröffnetes Resektat, bestehend aus einem distalen Magen mit einer kleinen Kurvaturlänge von 9,5 cm und einer großen Kurvaturlänge von 13,5 cm, sowei einem duodenalen Anteil von 14 cm Länge. 2 cm aboral des Pylorus zeigt die Dünndarmwandung eine sanduhrartige Stenose. Im Magen- und Duodenallumen reichlich zähflüssiger Schleim, sanguinolent; die Schleimhaut ist insgesamt livide. Auf lamellierenden Schnitten zähfestes weißliches, teilweise nodulär konfiguriertes Gewebe, ohne das Gallengänge manifest werden. Der distale Anteil des Ductus pankreaticus ist leicht erweitert und von der Papilla vateri aus 4,5 cm weit sondierbar, wobei er hier in einer peripankreatischen Narbenzone abbricht. Eine Gallengangsmündung läßt sich makroskopisch nicht abgrenzen. Die berichtete Duodenumstenose liegt 2,5 cm oral der Papilla vateri und steht mit der beschriebenen Narbenzone in direktem Zusammenhang. Dokument wird gefunden Keine Treffer für: mit den Suchwörtern: "Pankreatikoduodenectomie", "Resektion", "Whipple", "Magen", "Duodenum", "Zwölffingerdarm", "Pankreas", "Pylorus" "Bauchspeicheldrüse", "Gallengang", "Pankreasgang", "Ductus pancreaticus", "Papille", "Magenresektion"
Datenbankretrieval / Freitextsuche Beispiel: Zähle alle Patienten im Zeitraum Problem: 1.1. – 31.12.2014, die während • Als Sekundärdiagnose fehlt oft der eines stationären Aufenthalts entsprechende ICD – Kode (K25) ein Magenulkus hatten • K25 wird u.U. auch kodiert bei nicht (gesicherte Diagnose) nachgewiesener Diagnose (Patient wurde auf Magenulkus behandelt) Im Allgemein: ICD-Kodierung unzuverlässig für klinisch-epidemiologische Auswertungen Einfache Freitextsuche nach "Magenulkus" in allen Dokumenten • "florides Magenulcus" negativ • "Stressulkus im Corpusbereich": negativ • "Magenulkus kann nicht ausgeschlossen werden" positiv • "Familienanamnese: Vater Magenulkus" positiv • "Gabe von Omeprazol zur Prophylaxe eines Magenulkus" positiv
Semantische Suche: Suche nach Wortbedeutungen In Befundtext: "Stressulcus im Corpusbereich" Anfrage: "Magenulkus"
Semantische Suche: Suche nach Wortbedeutungen In Befundtext: "Stressulcus im Corpusbereich" Anfrage: "Magenulkus" ANNOTATIONEN "Corpusbereich" =syn "Stressulkus im Corpus" "Corpus" "Stressulcus" =syn "Stressulkus"
Semantische Suche: Suche nach Wortbedeutungen In Befundtext: "Stressulcus im Corpusbereich" Anfrage: "Magenulkus" ANNOTATIONEN ONTOLOGIE "Corpusbereich" =syn "Stressulkus im Corpus" "Corpus" Ulkus "Stressulcus" =syn "Ulkus im Corpus" Stressulkus "Stressulkus" Druckulkus (…)
Semantische Suche: Suche nach Wortbedeutungen In Befundtext: "Stressulcus im Corpusbereich" Anfrage: "Magenulkus" ANNOTATIONEN ONTOLOGIE "Corpusbereich" =syn "Stressulkus im Corpus" "Corpus" Ulkus "Stressulcus" =syn "Ulkus im Corpus" Stressulkus "Stressulkus" Druckulkus LEXIKON (…) ? "Corpus luteum" Teil von Ovar "Corpus callosum" Teil von Gehirn "Corpus uteri" Teil von Uterus "Corpus ventriculi" Teil von Magen
Semantische Suche: Suche nach Wortbedeutungen In Befundtext: "Stressulcus im Corpusbereich" Anfrage: "Magenulkus" ANNOTATIONEN ONTOLOGIE "Corpusbereich" =syn "Stressulkus im Corpus" "Corpus" Ulkus "Stressulcus" =syn "Ulkus im Corpus" Stressulkus "Stressulkus" Druckulkus LEXIKON (…) ? "Corpus luteum" Teil von Ovar "Ovarialulkus" "Corpus callosum" Teil von Gehirn "Gehirnulkus" "Corpus uteri" Teil von Uterus "Uterusulkus" "Corpus ventriculi" Teil von Magen "Magenulkus"
Semantische Suche: Suche nach Wortbedeutungen In Befundtext: "Stressulcus im Corpusbereich" Anfrage: "Magenulkus" ANNOTATIONEN ONTOLOGIE "Corpusbereich" =syn "Stressulkus im Corpus" "Corpus" Ulkus "Stressulcus" =syn "Ulkus im Corpus" Stressulkus "Stressulkus" Druckulkus LEXIKON (…) ? "Corpus luteum" Teil von Ovar "Ovarialulkus" "Corpus callosum" Teil von Gehirn "Gehirnulkus" "Corpus uteri" Teil von Uterus "Uterusulkus" "Corpus ventriculi" Teil von Magen "Magenulkus" ? sowei einem duodenalen Anteil von 14 cm Länge. 2 cm aboral des Pylorus zeigt die Dünndarmwandung eine sanduhrartige Stenose. Im Magen- und Duodenallumen reichlich zähflüssiger Schleim, sanguinolent; die Schleimhaut ist insgesamt livide. Auf lamellierenden Schnitten zähfestes weißliches, teilweise nodulär konfiguriertes Gewebe, ohne das Gallengänge manifest werden REFERENZKORPUS
Semantische Suche: Suche nach Wortbedeutungen In Befundtext: "Stressulcus im Corpusbereich" Anfrage: "Magenulkus" ANNOTATIONEN ONTOLOGIE "Corpusbereich" =syn "Stressulkus im Corpus" "Corpus" Ulkus "Stressulcus" =syn "Ulkus im Corpus" Stressulkus "Stressulkus" Druckulkus LEXIKON (…) ? "Corpus luteum" Teil von Ovar "Ovarialulkus" "Corpus callosum" Teil von Gehirn "Gehirnulkus" "Corpus uteri" Teil von Uterus "Uterusulkus" "Corpus ventriculi" Teil von Magen "Magenulkus" "Ovarialulkus" ? sowei einem duodenalen Anteil von 14 cm Länge. 2 cm aboral des Pylorus zeigt die Dünndarmwandung eine sanduhrartige Stenose. Im Magen- und Duodenallumen reichlich zähflüssiger Schleim, sanguinolent; die Schleimhaut ist insgesamt livide. Auf lamellierenden "Gehirnulkus" Schnitten zähfestes weißliches, teilweise nodulär konfiguriertes Gewebe, ohne das Gallengänge manifest werden "Uterusulkus" "Magenulkus" REFERENZKORPUS
Textrecherche / Informationsextraktion Identifikation von Texten / Extraktion von Informationen, die für einen Informationsbedarf relevant sind Ohne NLP: Strings und logische Operatoren (AND, OR, NOT, NEAR) Mit NLP: Analyse von Wörtern, ihrer morphologischen Konstitution und ihrer syntaktischen Funktion basierend auf symbolischen und probabilistischen Modellen Mit NLP und Semantik Analyse der Bedeutung sprachlicher Ausdrücke anhand von begrifflichen Ordnungssystemen (Thesauren / Ontologien / Klassifikationen) Ohne Semantik: mittels großer Mengen an Trainingsdaten und neuronaler Modelle, siehe Suchmaschinenbetreiber
Grundprinzipien der Linguistik Phonetik, Phonologie Morphologie Syntax Semantik Pragmatik Korpuslinguistik Lexikographie Terminologielehre
dogs are dogs ❻ are ❺ possible vectors vertebrates of Universals rabies "canis familiaris" Marley is a and "dog" dog are synonyms ❹ ❷ "dog" is a Marley lives noun in Florida ❸ denotation ❶ Symbols Individuals Sprachliche Zeichen
Phoneme [ħ] , [ɛ], [p] Sprachliche Zeichen Morpheme hepat; -itis Wörter Hepatitis Terme Hepatitis Typ B Das Hepatitis-B-Virus Phrasen Das Hepatitis B-Virus Typ B wird hauptsächlich über das Blut übertragen. Sätze Die Hepatitis-Viren Typ B (HBV) und C (HCV) werden hauptsächlich über das Blut übertragen. Das Injizieren von Paragraphen Drogenkonsumenten und Patienten, die kontaminiertes und nicht wegwerfbares chirurgisches Material erhalten, gehören zu den größten Opfern Dokumente
Wohlgeformte Ausdrücke und Regelverstöße Morphologie (Präfixe, Stämme, Suffixe): Mehr|ling|s|schwanger|schaft * Mehrl|ings|schwang|er|schaf|t Syntax: Eine Infektion beendete die Schwangerschaft * Beendete Schwangerschaft Infektion die Semantik: Der Säugling wurde per Kaiserschnitt entbunden * Der Zahn wurde per Kaiserschnitt extrahiert Diskurs / Pragmatik: Eine Infektion beendete die Schwangerschaft. Mutter und Kind sind wohlauf * Eine Infektion beendete die Schwangerschaft. Vater und Großvater sind wohlauf
Token / Type / Lexem "When flies fly behind flies, a fly is flying ahead" Wie viele Wörter?
Wörter sind Begrenzte Zeichenketten (Tokens) 1 2 3 4 5 6 7 8 9 10 "When flies fly behind flies, a fly is flying ahead" Formen (Types) 1 2 3 4 2 5 3 6 7 8 "When flies fly behind flies, a fly is flying ahead" Lexeme (lexikalische Einheiten) 1 2 3 4 2 5 2 6 3 7 "When flies fly behind flies, a fly is flying ahead" Lemmata (Zitierformen) "When", "fly" "to fly" "behind", "a", "to be", "ahead"
Morphologie und Syntax Morphologie Flexionsregeln:Substantiv, Adjektiv, Verb, Pronomen Deklination: Genus, Kasus, Numerus (Subst., Adj. Pronomen) Konjugation: Tempus, Numerus, Person (Verben) Syntax: Theorie des Satzbaus Grammatikregeln: Regeln zum Kombinieren von Ausdrücken zu komplexen Ausdrücken Wortklassen: POS ("Part of Speech"): Verb, Substantiv, Adjektiv, Adverb, Artikel, Präposition…
Baumdarstellung - Dependenzgrammatik s = Satz vp = Verbphrase pp = Präpositionalphrase np = Nominalphrase det = Determiner n = Nomen pn = Pronomen v = Verb
Morphologische Eigenheiten deutscher Medizinterme Viele Morpheme von Latein, Griechisch, Englisch abgeleitet: "arteri-", "nephr-", "bypaß", "anti-", "ektomie" Rein lateinisch deklinierte Mehrwort-Terme: "Angina pectoris" Eindeutschung: "Ulcus ventriculi", aber "Magenulkus" Infix "o": hepatozellulär, gastrointestinal Eponyme: Alzheimer, Asperger, Hodgkin Kompositabildung: "Tarsometatarsalgelenk", "Bleivergiftung" Akronyme: "HWI": Harnwegsinfekt, Hinterwandinfarkt
Akronymbildung
Pragmatik der Kliniksprache Tippfehler, Schreibfehler: "Bantobrazol", "Pantoprasol" Schreibvarianten*: "rectale Untersuchung", "Oesophagus" Unvollständige Sätze: "Überweisung Neurologie" Metonymien: "Blinddarm wurde entlassen" Transkriptionsfehler: "nach theoretischer Therapie" ** Ad-Hoc-Abkürzungen: "lymphozyteninfiltr.", "Abkl." Ellipsen: "Totaloperation" Floskeln, Pleonasmen: "kein Zweifel am Vorliegen eines…", "im Kniebereich", "Durchuntersuchung", "wir ersuchen höflichst", "Cor… Pulmo…", "objektiver Befund" * Rechtschreibekonvention Thieme: https://www.thieme.de/statics/dokumente/thieme/final/de/dokumente/sw_%20autorenlounge/Rechtschreibkonvention_20171023.pdf ** arztbriefperlen.de
NLP - Klassische Textverstehenssysteme ended Ending Pregnancy P-patient E-patient Pregnancy Mother infection pregnancy E-agent P-co-patient Infection Baby a severe the IF ... Pregnancy & inf. I-degree THEN ... mortal danger end + edPastTense severe * The baby survived Syntactic Morphological Processor Semantic Inference Processor (Parser/ Interpreter Engine Generator) Word Semantic Domain Lexicon Grammar Grammar Rule Base Ontology Source: Udo Hahn, Univ. Jena
Klassische Textverstehenssysteme auf formaler Logik basierende Analyse und Inferenzsysteme Beispiel: Parsing von Sätzen: Erstellen von Syntaxbäumen Pattern matching aufgrund von regulären Ausdrücken Probleme: geringe Fehlertoleranz Komplexität, Berechenbarkeit Ambiguitäten manuelle Spezifikationen Dennoch für viele Aufgaben Verfahren der Wahl: Klassifikation von Pathobefunden maligne/benigne oder infektiös / nichtinfektiös Daniel Jurafsky, James H. Martin. Speech and Language Processing - An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. 3rd Edition draft 12/2020
Probabilistisches NLP statt formal-logischer "Tiefen"-Analyse robuste Approximationen Maschinelles Lernen mit probabilistischen Sprachmodellen. Einfaches Beispiel: Bedingte Wahrscheinlichkeiten in n-Gramm-Modellen Seit 2016 Hinwendung zu neuronalen Netzen ("Deep learning") Große Korpora für Training der Modelle notwendig Evaluierung: Goldstandards für die Bewertung des maschinellen Lernens
Maschinelles Lernen Zunehmend wichtige Technologie im NLP-Kontext Schließen aus Mustern in Trainingsdaten, um Vorhersagen über neue Daten zu treffen. Während der Lernphase werden die Parameter, die das verwendete Modell charakterisieren, durch numerische Maße berechnet Überwachtes ("supervised") Lernen: Jede Einheit im Trainingsdatensatz ist mit der richtigen Antwort gekennzeichnet Unbeaufsichtigtes ("unsupervised") Lernen: versucht Muster automatisch zu erkennen
NLP – Online Demos Stanford Core NLP (https://corenlp.run/ | http://nlp.stanford.edu:8080/corenlp/ ) Bioportal annotator https://bioportal.bioontology.org/annotatorplus Spark NLP Google Cloud IBM Cloud Averbis Health Discovery (Deutsch)
Herausforderung klinisches NLP (I) Abkürzungen ("RA", "ml"), häufig, mehrdeutig ("Ca" = Krebs oder Kalzium), können standardisiert oder spontan sein: "Umstellung von Cipro auf Genta + Ampi "Schleimh. lymphozyteninfiltr." Tokenisierung: Identifizierung einzelner Token innerhalb eines Satzes. Problem mit Zeichen, die normalerweise als Trennzeichen verwendet werden (Bindestriche, Schrägstriche, Kommas, Punkte): "10k Leuk.", 2,4-Dichlorphenol
Herausforderung klinisches NLP (II) Wortklassenerkennung (Part-of-speech-Tagging = POS): "der gefangene Floh" – "der Gefangene floh" "Diabetes mellitus" – "Angina pectoris" Wortkompositionen Einzelwort: Trichlorophenoxyessigsäure, Glomerulonephritissyndrom Mehrwort: "... Patient berichtet von Arzneimittel Exanthem" "...unabhängig von Arzneimittel Exanthem Exazerbation" (korrekt Zusammenschreibung oder Bindestrich statt "Deppenleerzeichen")
Herausforderung klinisches NLP (III) Termidentifikation: "Mycosis" , "Mycosis fungoides" Wichtig: anonymisierungsreevante Entitäten: Arzt, Patienten, Institutionsnamen Identifikation von Eigennamen: "Frau Iris Leber", "Läsion der Iris", "Einblutung in die Leber" Sprachökonomie (Ellipsen, Koordinationen) Messwerte: 88/min AST, ALT, Gamma-GT normal Implizite Kontexte Diff-BB bis auf Eos (11) normal
Herausforderung klinisches NLP (IV) Deklinationsmuster: "Karotis" – "Karotiden" "Bypass" –"Bypässe" "Baby" – "Babys" Synonymie auf Phrasen- und Satzebene: "X der Niere" = "renale(s) X" - "Pat. hat Schwierigkeiten beim Duschen" – - "Es fällt dem Pat. schwer, die Dusche selbstständig zu nutzen" – "Der Patient klagt über Schwierigkeiten bei der Benutzung von WC und Dusche"
Herausforderung klinisches NLP (V) Fehlendes Weltwissen: "Mütter mit Kindern unter 10 Jahren" - "Mütter mit erstem Kind über 40" Negations- und andere Kontexte "Bronchialkarzinom in der Familienanamnese" Ausbleiben der Monatsblutung geplante Lebertransplantation Hyperandrogenismus, vermutlich ovarieller Genese Phäochromozytom nicht auszuschließen Pat. wurde auf Meningitis behandelt V.a. MI, DD: Lungenembolie
Herausforderung klinisches NLP (VI) Erkennen von Relationen: "Kaiserschnitt nach Beckenendlage" Indikation Biopsie Pylorusschleimhaut: massiv lymphozytär infiltriert Lokalisation Typ I Diabetes ED 2012. Seit 2020 massiver Visusverlust bds. Zeitfolge Anaphern: Identität: "...Lungenödem. Dieses wurde diuretisch behandelt" Generalisierung: "... Desensibilisierung. Die Behandlung wurde in..." Teil / Ganzes: Knochenmarkbiopsie (...) Megakaryozyten erhöht, Blasten normal
Beispiel Kontext "Pat. stat. aufgenommen, da Narbenhernie (St.p. exploratorische Laparotomie nach Messerstich) für operative Revision vorgesehen. OP wurde aufgrund eines Notfalls (Polytraumata nach Busunglück) abgesetzt. Entlassung in hausärztl. Betreuung mit Bitte um erneute Vereinbarung eines OP-Termins." Welche Kontexte spielen hier eine Rolle?
Zielstrukturen klinische Informationsextraktion "Term Grounding": Zuordnung von Termen eines kontrollierten Vokabulars Terminologie in Kontext Ontologie: z.B. SNOMED CT: "Model of Meaning" Informationsmodell: z.B. FHIR; "Model of Use"
Probleme bei der eindeutigen Zuordnung von Codes zu Text Insbesondere bei großen, detailreichen Terminologien Tokens Annotator #1 Annotator #2 Gold standard Tokens Annotator #1 Annotator #2 Gold standard Finding of Structure of Measure of "Motor: 'Skeletal muscle 'Muscle finding "palpebral measures of palpebral fissure palpebral fissure normal structure (body (finding)' 'Skeletal muscle fissure" palpebral fissure (body structure) (observable entity) bulk and structure)' normal (finding)' (finding) tone" 'Normal 'Normal (qualifier value)' (qualifier value)' Prä-Koordination vs. Post-Koordination
Lexikalische Semantik, Vektorrepräsentationen, Embeddings
Verteilungshypothese “words which are similar in meaning occur in similar contexts” (Rubenstein & Goodenough, 1965) Verteilungsmuster sprachlicher Einheiten in Korpora lässt Rückschlüsse auf ihre Bedeutung zu Damit können Ähnlichkeiten sprachlicher Einheiten aus Daten errechnet ("gelernt") werden Grundlegendes Prinzip derzeitiger KI-Ansätze zur Verarbeitung natürlicher Sprache mittels maschinellen Lernens Rubenstein, H., & Goodenough, J. (1965). Contextual correlates of synonymy. Communications of the ACM, 8 (10), 627–633.
Vektordarstellung Ähnlichkeitsfunktion Kosinus der aus Häufigkeitstabelle abgeleiteten TF-IDF oder PPMI-Werte Problem: riesige, "sparse" – Vektoren (1 Dimension pro Type) Neue Alternative: Word Embeddings Daniel Jurafsky, James H. Martin. Speech and Language Processing - An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. 3rd Edition draft 12/2020
Embeddings kurze "dichte" Vektoren (viel weniger Dimensionen, besser gefüllt) Bessere Performanz, aber keine klare Semantik pro Dimension Statische Embeddings: word2vec Kontextuelle Embeddings: BERT, ELMO
word2vec Beispiel: Skip-gramm-Ansatz Zielwort und benachbartes Kontextwort als positives Label. Test Sie zufällig andere Wörter im Lexikon, um negative Stichproben zu erhalten. Logistische Regression zum Training eines Klassifikators, um diese beiden Fälle zu unterscheiden. Verwendung der erlernten Gewichte als Embeddings. Mikolov, T., Chen, K., Corrado, G. S., and Dean, J. (2013). Efficient estimation of word representations in vector space. ICLR 2013
Semantik von Embeddings Daniel Jurafsky, James H. Martin. Speech and Language Processing - An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. 3rd Edition draft 12/2020
Semantik von Embeddings Daniel Jurafsky, James H. Martin. Speech and Language Processing - An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. 3rd Edition draft 12/2020
Ausblick Embedding-Ansätze und Neuronale Netze fasttext: Inkludiert auch Wortfragmente (Subwords) BERT: Embeddings inkludiert in neuronal Netzarchitektur derzeit beste Ergebnisse für viele NLP-Aufgaben Erklärungsansätze schwierig Vortrainierte Sprachmodelle: Werden auf großen, Domänen- oder sprachspezifischen Korpora trainiert und dann an eine neue Domäne angepasst Beispiel: Training auf Pubmed-Abstracts und Wikipedia, Anpassung auf Kliniksprache
dogs are dogs ❻ are ❺ possible vectors vertebrates of Universals rabies "canis familiaris" Marley is a and "dog" dog are synonyms ❹ ❷ "dog" is a Marley lives noun in Florida ❸ denotation ❶ Symbols Individuals
Wissensrepräsentation – was fehlt noch Repräsentation von prozessualem Wissen, z.B. klinische Guidelines und Protokolle Wissensrepräsentation in prädiktive Modellen Maschinelles Lernen, neuronale Netze ( Bastian Pfeifer) Wissensrepräsentation in Systemen zur diagnostischen Entscheidungsunterstützung ( Übungen Modul 17) Repräsentation in Form semantischer Annotationen, z.B. medizinische und biomedizinische Datenbanken "Biomedical Databases" aus dem Doktoratsstudium: https://user.medunigraz.at/stefan.schulz/presentations/2020_Biomedical_Databases.pptx
Sie können auch lesen