FROM DATA TO KNOWLEDGE - STRATIFIZIERTE SUBGRUPPEN FÜR DIE ENTWICKLUNG VON PRÄDIKTIONSMODELLEN - USE CASE 2 - MIRACUM
←
→
Transkription von Seiteninhalten
Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten
FROM DATA TO KNOWLEDGE – STRATIFIZIERTE SUBGRUPPEN FÜR DIE ENTWICKLUNG VON PRÄDIKTIONSMODELLEN Erfahrungen, Erkenntnisse und Berichte 2018 bis 2020 USE CASE 2
UC2: From Data to Knowledge – Stratifizierte Subgruppen für die Entwicklung von Prädiktionsmodellen Fotos: Sommer Vorwort Daniela Zöller Harald Binder Das MIRACUM Konsortium hat für die Aufbau- sagemodelle schnellstmöglich mittels Smart- und Vernetzungsphase der Medizininforma- Apps in den Klnikalltag zurückzuspielen, um tik-Initiative (MII) drei Use Cases definiert und Ärzt:innen in ihren diagnostischen und thera- darüber Anwendungsszenarien beschrieben, peutischen Entscheidungen zu unterstützen. welche auf den Basiskomponenten der MIRA- Der klinische Fokus liegt hierbei zunächst auf CUM Datenintegrationszentren (DIZ) aufset- medizinische Fragestellungen aus dem Be- zen und so deren Nutzen durch ergänzende reich Asthma/COPD und auf Hirntumoren. innovative IT-Lösungen belegen. In dieser Broschüre stellen wir unsere Ziele, In Use Case 2 „From Data to Knowledge bisher etablierte Konzepte und die derzeiti- – Stratifizierte Subgruppen für die Ent- gen Umsetzungsergebnisse vor. Herausgeber wicklung von Prädiktionsmodellen“ wer- Auch bedanken wir uns hiermit bei unserem Steering Board des MIRACUM Konsortiums den mit Techniken des maschinellen Lernens Use Case 2-Team für die letzten dreieinhalb Artdirection W.A.S. (insbesondere mit Deep Learning) valide Vor- Jahre sehr engagierter und fruchtvoller Zu- Illustrationen hersagemodelle auf Grundlage einer große sammenarbeit. Nina Eggemann Fülle an Daten entwickelt. Der schrittweise Druck inhaltliche Ausbau der DIZ an den MIRACUM Daniela Zöller Pinguin Druck GmbH Standorten bietet dabei eine solide Datenba- Harald Binder Printed in Germany Nachdruck, auch auszugsweise, Aufnahme sis, um Patientenkohorten anhand klinischer Use Case 2 Koordinatoren in Onlinedienste und Internet sowie Parameter, Biomarker und molekularer/geno- Vervielfältigungen auf Datenträgern wie mischer Untersuchungen in Subgruppen zu Hans-Ulrich Prokosch CD-ROM, DVD-ROM etc. nur nach vorheriger schriftlicher Zustimmung der Herausgeber. stratifizieren. Das Konsortium hat sich auch Konsortialleiter MIRACUM Germany 2021 zur Aufgabe gemacht, entstehende Vorher- 3
UC2: From Data to Knowledge – Stratifizierte Subgruppen für die Entwicklung von Prädiktionsmodellen Verantwortliche Prof. Dr. Harald Binder Prof. Dr. Harald Renz Er hat in Regensburg und an der University of California, Irvine, Psy- Seit 1999 ist er Direktor des Instituts für Laboratoriumsmedizin am chologie und Mathematical Behavioral Sciences studiert und pro- Universitätsklinikum Gießen und Marburg (UKGM) und Professor der movierte 2006 an der LMU München. Nach seiner Postdoc-Zeit in Philipps-Universität Marburg. Seit 2010 ist Prof. Renz stellvertreten- Freiburg und einer Professur an der Universitätsmedizin Mainz trat der Sprecher des UKGM Lung Center. Sein Forschungsinteresse gilt er 2017 die Professur für Medizinische Biometrie und Statistik am der Pathogenese von Allergien und Asthma. In den Jahren 2012/13 Uniklinikum Freiburg an, verbunden mit der Leitung des gleich- war er Gastprofessor und Fulbright-Stipendiat an der Harvard Medi- namigen Instituts. Sein Forschungsschwerpunkt ist die Verknüp- cal School in Boston. Seit 2015 ist er CMO des UKGM, Standort Mar- fung statistischer Techniken mit Ansätzen des Deep Learning für burg. Von 2010 bis 2016 war er Präsident der Deutschen Gesellschaft molekularen und klinischen Daten. für Allergologie und Klinische Immunologie (DGAKI) und seit 2018 ist er Vizepräsident der Deutschen Gesellschaft für Laboratoriumsmedizin. Prof. Dr. Till Acker Derzeit hält er Gastprofessuren in Moskau, Russland und Moshi, Tansania. Er hat Medizin in Freiburg, London, San Diego und Kapstadt stu- diert. Seit 2008 ist er Direktor des Instituts für Neuropathologie an der Justus-Liebig-Universität Gießen, seit 2015 medizinischer Forschungsdekan und seit 2019 Vorsitzender der Deutschen Ge- Team sellschaft für Neuropathologie und Neuroanatomie (DGNN). Sein Forschungsschwerpunkt liegt auf der molekularen und funktio- Christian Bruns Michael Maxheim nellen Kartierung der Rolle des Mikromilieus in der Regulation von Roland Buhl Attila Nemeth „Hallmarks of Cancer“. Klinisch ist seine Gruppe an der Aufdeckung Alejandro Cosa Linan Michael Neumaier morphomolekularer Biomarker durch angewandte KI für die Diffe- Hildegard Dohmen Alan Race rentialdiagnose und Prognose bei Hirntumoren interessiert. Fotos: Sommer; JLU / Rolf K. Wegst; UK Gießen und Marburg GmbH Frederike Euchner Stephan Ringshandl Kiana Farhadyar Jannik Schaaf Dr. Daniela Zöller Patrick Fischer Jan Scheer Sie hat an der Hochschule Koblenz Biomathematik studiert und Denis Gebele Stefanie Schild 2017 an der Universitätsmedizin Mainz im Bereich Biostatistik Timm Greulich Sebastian Schindler promoviert. Nach einer 3-jährigen Postdoc-Zeit im Bereich Julian Gründner Bernd Schmeck Knowledge Discovery and Synthesis des Instituts Medizinische Dennis Hasenpflug Amir Tabatabaei Biometrie und Statistik des Universitätsklinikums Freiburg, Christian Haverkamp Dativa Tibyampansha hat sie 2021 die Leitung des Bereichs Medical Data Petar Horki Dennis Toddenroth Science übernommen. Ihr Forschungsschwerpunkt liegt Nattika Jugkaeo Frederik Trinkmann im Bereich der Statistischen Methodenentwicklung für Stefanie Korn Abishaa Vengadeswaran Routine- und Registerdaten und für verteilte Analysen unter Stefan Lenz Johannes Wolf Datenschutzbeschränkungen. Anke Lux Jochen Zohner 4 miracum 5
UC2: From Data to Knowledge – Stratifizierte Subgruppen für die Entwicklung von Prädiktionsmodellen Vorhersagen entwickeln und klinische Prozesse revolutionieren Das Gesundheitswesen produziert gigantische Datenmengen mit vielen bislang unbekannten Informationen. Statistische Werkzeuge, wie z.B. Deep Learning, können aus diesen ungehobenen Schätzen potenziell präzise Vorhersagen über Krankheitsverläufe oder Therapieoptionen in praxisrelevanten Situationen ermitteln. Ziel des Use Case 2 ist es, relevante Datenmuster zu identifizieren und zu validen Vorhersagemodellen zu kombinieren. A ufgrund individueller Unterschiede, beispielsweise in der Ansprechrate auf Medikamente, ist oftmals die optimale Ressourcen des Gesundheitswesens nicht optimal genutzt werden. Aus diesem Grund ist es wünschenswert, Patient:innen, anhand Therapiekombination noch unbekannt und von Biomarkern und -signaturen in therapeu- zahlreiche Krankheitsbilder in Deutschland tisch relevante Subgruppen (Endotypen) werden noch immer nach Trial-and-Error einteilen zu können, um sie effizienter und therapiert. Ein System, das für alle Beteilig- individueller zu behandeln. ten gleichermaßen unbefriedigend ist: Pa- tient:innen haben oftmals mit unerwünsch- Noch zu viel Theorie für die Praxis ten Nebenwirkungen von Medikamenten zu Im klinischen Kontext ist eine immer grö- kämpfen, die letztendlich nur suboptimal ßere Menge an Patientendaten elektronisch wirken; Ärzt:innen wollen den Patient:innen verfügbar. Sowohl klinische als auch Labor- schnelle und wirkungsvolle Therapien an- daten, Röntgenaufnahmen und individuelle bieten; und auch für die Pharmaindustrie Krankheitsbilder sind dabei oft sogar im Zeit- wird es zum Problem, sich den Vorwürfen verlauf vorhanden, so dass prinzipiell hoch- ausgesetzt zu sehen, unwirksame Mittel zu informative Profile vorliegen. Um jedoch vertreiben. Dazu kommt, dass dieses Vor- umsetzbares Wissen zu generieren, müssen gehen tatsächlich auch volkswirtschaftlich aus diesen Daten mit Verfahren der Statistik eigentlich nicht zu verantworten ist, da die und der künstlichen Intelligenz Muster iden- 6 miracum 7
UC2: From Data to Knowledge – Stratifizierte Subgruppen für die Entwicklung von Prädiktionsmodellen tifiziert werden, welche für die Behandlung von Patient:innen relevant sind. » Wir möchten im Use Case 2 für mindestens zwei Aus solchen Mustern können Diagnose- große Krankheitsbilder Vorhersagemodelle mit Deep und Vorhersagemodelle entwickelt werden, die zurück in den Routineeinsatz übertra- Learning entwickeln, trainieren und evaluieren. gen werden müssen. Trotz der Fortschritte Und wir möchten zeigen, wie unsere Ergebnisse bei der Entwicklung derartiger Modelle in als innovative IT-Lösungen die Mediziner bei den letzten Jahren, ist es immer noch eine konkreten Entscheidungen unterstützen. « Herausforderung, auch tatsächlich den Kreis Harald Binder bis in die klinische Routine zu schließen. So markiert in vielen Fällen schon die Bewer- tung der prinzipiellen Einsetzbarkeit von gener Datenquellen zur Identifizierung prog- zellulären und molekularen Entzündungs- Vorhersagemodellen bereits den Abschluss nostisch relevanter Subgruppen darstellen. signalwege bei Patientenuntergruppen hin, solcher Forschungsprojekte. Nur selten wird Obwohl dies zwei unterschiedliche medizini- welche als „Endotypen“ bezeichnet wer- versucht, die entwickelten Modelle auch tat- sche Spezialgebiete sind, erfordern sie einen den. Die Endotypisierung von Asthma- und Hirntumore im Visier sächlich in der Krankenversorgung zum Ein- gemeinsamen methodischen Kern, welcher COPD-Patient:innen entwickelt sich so zu Hirntumore werden als besonders be- satz zu bringen. Um das Potenzial wirklich in den Datenintegrationszentren (DIZ) der einer vorrangigen Aufgabe, da darauf auf- lastend empfunden und gehen mit einer auszuschöpfen, ist es wichtig, diesen Schritt MIRACUM-Standorte etabliert werden wird. bauende gezielte Therapien die Möglichkeit hohen Morbidität und Mortalität sowie zu gehen und Algorithmen und Tools für die Beide medizinischen Fragen profitieren von bieten, strategische Mediatoren in diesen hohen sozioökonomischen Kosten ein- tägliche Entscheidungsunterstützung einzu- der Kooperation mehrerer Kliniken. Für bei- Entzündungsnetzwerken selektiv und spe- her. Bei Kindern und Jugendlichen sind setzen und zu verbreiten. de Indikationen gilt, je größer die Fallzahlen, zifisch zu beeinflussen. Eine Präzisions- Hirntumore der zweithäufigste Krebs- Im Use Case 2 wird MIRACUM deshalb nicht desto besser lassen sich klinisch relevante medizin bei Asthma und COPD basiert auf typ. Bei Erwachsenen ist der häufigste nur Vorhersagemodelle entwickeln, sondern Muster identifizieren und bewerten. So ist der Charakterisierung solcher Endotypen Hirntumor das Glioblastom mit einer in- diese in die klinischen Versorgungsprozesse z.B. die Existenz bestimmter Patientenunter- unter Verwendung von Biomarkern. Eine fausten Prognose und medianen Über- integrieren. Ziel ist es, für mindestens zwei gruppen oft bereits aus Forschungsdatensät- besondere Herausforderung besteht darin, lebenszeit von 12-15 Monaten und einer große Krankheitsbilder zu demonstrieren, zen bekannt, doch noch ist unklar, wie solche dass eine adäquate Charakterisierung der der schlechtesten Fünf-Jahres-Über- wie Vorhersagemodelle entwickelt, trainiert Untergruppen basierend auf Routinedaten Patient:innen die Integration longitudinaler lebensraten unter allen Krebserkran- und evaluiert werden können, und wie diese erkannt werden können und ob Patient:in- Daten erfordert, die verschiedenen Krank- kungen. Bis heute ist die korrekte Diag- in innovative IT-Lösungen überführt werden nen zuverlässig als Mitglied bestimmter heitszuständen entsprechen. Leider ist auch nose von Hirntumoren herausfordernd, können, die Ärzt:innen bei konkreten Ent- Untergruppen identifiziert werden können. die longitudinale sektorübergreifende Daten- auch bei erfahrenen Neuropathologen, scheidungen unterstützen. speicherung und Datenintegration ein Ge- was die Notwendigkeit herausstreicht, MIRACUM hat mit Asthma/COPD (Chro- Asthma & COPD biet, in dem sich Deutschland bislang nicht unsere Fähigkeit zur Diagnose und ad- nisch obstruktive Lungenerkrankung) und Asthma und COPD gehören zu den häu- als Vorreiter auszeichnete. äquaten Therapie von Hirntumoren zu Neuroonkologie den thematischen Schwer- figsten chronisch-entzündlichen Lungener- Eine weitere Herausforderung in diesem verbessern. punkt auf zwei medizinische Bereiche gelegt, krankungen. Jüngste Forschungsergebnis- Zusammenhang ist die Entwicklung von die gute Beispiele für die Integration hetero- se weisen auf eine große Heterogenität der Biomarker-Panels, die Endotypen präzise 8 miracum 9
UC2: From Data to Knowledge – Stratifizierte Subgruppen für die Entwicklung von Prädiktionsmodellen widerspiegeln. Eine wichtige Rolle kommt Künstliche Intelligenz für Prädiktion dabei Eosinophilen im Blut zu, wobei gerade » Wir wissen, dass das One-size-fits-all-Modell in der Die Erstellung von Prognosen oder prä- Fragen bei nicht-eosinophilem Asthma und Therapie oft nicht funktioniert. Die großen Fallzahlen diktiven Vorhersagen spielt in vielen Be- COPD aufgeworfen wurden. Neuere klinische helfen uns, klinisch relevante Muster besser identifizieren reichen des täglichen Lebens eine Rolle. und experimentelle Daten legen nahe, dass So benutzen E-Commerce-Anbieter diese Patientenpopulation nicht nur größer und bewerten zu können. « Techniken der künstlichen Intelligenz/ als erwartet ist, sondern auch innerhalb Harald Renz des Deep Learnings um das Kaufverhal- eines Endotyps eine breite Heterogenität ten von Kunden auf Basis der Historie besteht. Was erklärt, dass eine erfolgreiche besuchter Webseiten vorherzusagen. In Therapie dieser Patient:innen von Variablen ähnlicher Weise können biomedizinische abhängen kann, die wir bisher nicht immer nicht nur eine wichtige Basis für die Auswahl COPD Patient:innen unterscheiden, welche Parameter als „Marker“ bzw. „Signatu- im Griff haben. Für uns ergibt sich daraus und Implementierung von Behandlungsop- zumeist älter sind und eine starke Rauch- ren“ verwendet werden, um individuell auch gezielte Therapien für diese wichti- tionen bieten, sondern langfristig auch zu historie haben. In der ersten Fragestellung auf bevorstehende Krankheitsverände- gen Untergruppen von Asthma-/COPD-Pa- einer Risikobewertung und Vorhersage der vergleichen wir die Ergebnisse innerhalb des rungen hinzuweisen bzw. abhängig vom tient:innen mit im Auge zu haben. Patient:innen hinsichtlich ihrer klinischen MIRACUM Konsortiums mit denen des COSY- Krankheitsbild bzw. -verlauf individuell Um also klinisch relevante Asthma- und Ursache führen, z.B. eine Entwicklung von CONET Registers. Die Daten des COSYCONET passende und maßgeschneiderte thera- COPD-Endotypen besser zu definieren, Asthma Exazerbation als Haupttreiber der Registers sind im Gegensatz zu den MIRA- peutische Maßnahmen zu ergreifen. haben wir den MIRACUM-DIZ-Datensatz Schwere der Erkrankung. CUM Daten speziell zu Forschungszwecken um Elemente von Asthma- und COPD-Pa- erhoben worden und bilden dadurch einen tient:innen erweitert, wobei insbesondere COPD: Unterschiede zwischen Goldstandard. Wir konnten die wichtigsten Parameter der Lungenfunktionsmessung zu Patient:innen mit und ohne Alpha-1- Ergebnisse reproduzieren: Beispielsweise ist nennen sind. Alle Universitätskliniken, die Antitrypsin-Mangel bekannt, dass Patient:innen mit AATM ein er- an MIRACUM teilnehmen, bieten bereits bei Mittlerweile haben sich durch die enge Zu- höhtes Risiko für Lungenemphysemen und Erwachsenen- und/ oder Kinderasthma-/ sammenarbeit mit Klinikern an den Stand- Bronchiektasien im Vergleich mit Patient:in- COPD-Patient:innen eine (spezialisierte) Be- orten Freiburg, Marburg und Mannheim nen ohne AATM aufweisen, was sich auch in treuung an. Insgesamt erwarten wir mehr als mehrere wissenschaftliche Fragestellungen den MIRACUM Analysen gezeigt hat. Umge- 3.500 Fälle pro Jahr. Hier zeigt sich der Vor- ergeben, die kurz davor sind publiziert zu kehrt konnte wie erwartet kein Unterschied teil einer großen Zahl von Zentren, um eine werden. Ein spezieller Fokus liegt dabei auf beim Auftreten von Lipoprotein oder Diabe- Unterklassifizierung von Patientengruppen COPD Patient:innen mit einer Erbkrankheit, tes beobachtet werden. Dies zeigt, dass die zu ermöglichen. Die Integration heterogener Alpha-1-Antitrypsin-Mangel (AATM), der be- Routinedaten grundsätzlich plausibel sind Datenquellen ermöglicht dabei eine tiefe Im- wirkt, dass die Leberzellen das Enzym Alpha- und somit, bei vorsichtiger Interpretation, in munphänotypisierung. 1-Antitrypsin fehlerhaft oder in zu geringer der Forschung verwendet werden können. Als Ergebnis werden wir die erste Plattform Menge bilden oder freisetzen. Dieser Enzym- Des Weiteren haben wir erste Hinweise auf entwickeln, die die klinische Beratung von mangel kann dann bereits in jungen Jahren das große Potential der Routinedaten zur Asthma-/ COPD-Patient:innen basierend auf eine COPD auslösen, wodurch sich solche Unterstützung der Gewinnung neuer medi- klinischem Clustering ermöglicht. Dies wird Patient:innen grundlegende von anderen zinischer Erkenntnisse gefunden: Der Anteil 10 miracum 11
UC2: From Data to Knowledge – Stratifizierte Subgruppen für die Entwicklung von Prädiktionsmodellen an Pneumokokken- und Pseudomonasinfek- die geistigen Fähigkeiten und die Persönlich- tionen ist bei Patient:innen mit AATM im Ver- keit der Patient:innen. Neben diesen hohen » Prädiktionsmodelle benötigen strukturierte Daten, hältnis höher als bei den Patient:innen ohne Morbiditätsraten sind sie mit einer hohen die wir innerhalb von MIRACUM liefern können. Dies ist AATM. Auch wenn diese Ergebnisse aktuell Mortalität und hohen sozioökonomischen eine essentielle Voraussetzung, um diagnostische und noch als Work-In-Progress zu sehen sind, Kosten verbunden. Eine präzise Tumordiag- könnte diese Beobachtung einen Hinweis nostik ist daher von zentraler Bedeutung für therapeutische Ansätze in der Präzisionsmedizin mit auf unterschiedliche Infektionsprofile und die richtige Behandlung der Patient:innen. Hilfe von KI optimieren zu können. « damit unterschiedliche klinische Behand- Bis heute ist die korrekte Diagnose von Till Acker lungsfokusierungen liefern. Hirntumoren herausfordernd, was die Not- wendigkeit hervorhebt, unsere Fähigkeit Asthma & COPD: Der Einfluss von zur Diagnose und adäquaten Therapie unschätzbarer Vorteil. Zu den wichtigsten chronischen Lungenerkrankungen von Hirntumoren zu verbessern. Moderne Fragen gehört die Untersuchung neuartiger auf den Verlauf von hospitalisierten Hochdurchsatzanalysen von großen Hirn- Tumor-Untergruppen und ihrer klinischen Patient:innen mit COVID-19 tumor-Kohorten haben gezeigt, dass DNA- Verläufe. Für die klinische Anwendung wird Im Zuge der COVID-19 Pandemie haben Methylierung als robuste Methode zur Klas- schließlich entscheidend sein, ob methylie- sich neue Fragestellungen entwickelt, für sifizierung verschiedener Tumoreinheiten rungsbasierte Hirntumorklassen Ärzt:innen die Use Case 2 bereits wichtige Vorarbeiten und zur Entdeckung neuartiger, molekular dabei unterstützen können, Patient:innen, geleistet hatte: Wie wird der Verlauf der CO- unterschiedlicher Tumorsubtypen verwen- die wahrscheinlich innerhalb der nächsten VID-19 Erkrankung im Krankenhaus durch det werden kann. Hierbei werden pro Hirn- 12 Monate versterben werden, zuverlässiger chronische Lungenerkrankungen wie Asth- tumor parallel bis zu 850.000 DNA-Methy- zu identifizieren, um sie besser palliativ ver- ma und COPD beeinflusst? Um dies zu ad- lierungsstellen untersucht und analysiert. In sorgen zu können. ressieren, wurde der Use Case 2 Datensatz Zusammenarbeit mit dem Deutschen Krebs- Durch Analyse dieser hochkomplexen für Asthma und COPD um COVID-19 relevante forschungszentrum (DKFZ) in Heidelberg Daten mit Techniken des Deep Learning Parameter wie Beatmungsdauer und Kran- kombinieren wir darauf aufbauend DNA-met- werden Schlüsselfragen zu den Auswirkun- kenhausmortalität erweitert. Erste vorläufige hylierungsbasierte integrative Hirntumordi- gen der verfeinerten, integrativen histomo- Ergebnisse zeigen, dass der Anteil an Asthma agnosen mit klinischen und longitudinalen lekularen Diagnostik auf die Therapie und Patient:innen innerhalb der COVID-19 Kohor- Schlüsselparametern, um den Einfluss der den Outcome von Hirntumorpatient:innen te unter der deutschlandweiten Prävalenz molekularen Hirntumor-Klassifikation auf beantwortet. Da auch in anderen medizi- liegt, während dies bei COPD Patient:innen die Diagnostik und Behandlung von neuro- nischen Bereichen verstärkt molekulare nicht der Fall ist. onkologischen Patient:innen zu untersuchen. Messungen aus Hochdurchsatzverfahren Mit 7.000 Neuerkrankungen pro Jahr in (omics), wie z.B. zur DNA-Methylierung oder Hirntumore im Visier Deutschland gehören Hirntumore zu den NGS (next generation sequencing) Verfah- Foto: iStock/luchschen Das zweite medizinische Anwendungsfeld selteneren Tumorerkrankungen, was die ren, verwendet werden, betrachten wir die liegt im Bereich der Hirntumore. Sie haben Identifizierung von Subtypen weiter er- beschriebenen Analysen dementsprechend einen direkten und zutiefst beeinträchtigen- schwert. Die Größe des MIRACUM Konsor- als beispielhaft und zentral für weitere zu- den Einfluss auf die kognitiven Funktionen, tiums ist hierbei für unsere Forschung ein künftige Anwendungen. 12 miracum 13
UC2: From Data to Knowledge – Stratifizierte Subgruppen für die Entwicklung von Prädiktionsmodellen N eue Techniken des maschinellen Lernens sollen komplexere Mechanismen und Muster identifizieren, um Empfehlungen für » Eine zentrale Datenbank wäre ein sehr prominenter individuellere Behandlungen von Patient:in- Angriffspunkt und nen geben zu können. Um neue Erkenntnisse sollte womöglich schon zu generieren, sind diese Verfahren aber auf aus Sicherheitsgründen große, freiwillig gespendete Datenmengen (Stichwort „Big Data“) angewiesen. Durch die vermieden werden. « Erarbeitung eines Datenschutzkonzeptes an den einzelnen Standorten des MIRACUM Kon- sortiums ist es möglich, die sensiblen Patien- tendaten unterschiedlicher Standorte mithilfe verteilten Rechnens mit DataSHIELD zu analy- sieren und Prädiktionsmodelle zu entwickeln. Die Analyse soll zu den Daten Patient:innen zu. Dabei werden die teilneh- Der große Datenschatz, der derzeit verteilt menden Institutionen (Krankenhäuser) zu auf die zehn Universitätskliniken im MIRA- einem Analysenetzwerk verbunden, so dass CUM Konsortium liegt, soll nicht in einen zen- Wissenschaftler:innen über die Plattform tralen Speicher zusammengeführt, sondern Analysen in den teilnehmenden Krankenhäu- verteilt über alle Standorte für Auswertungen sern durchführen können, ohne Individual- genutzt werden. So kann die notwendige kri- daten der Patient:innen zu sehen. tische Masse an Daten für die Beantwortung Internationale Kooperationen bestimmter Fragestellungen zustande kom- Das Projekt DataSHIELD men. Das Motto und datenschutzrechtliche Um solche Analysen durchzuführen, muss auf dem Weg zum verteilten Grundkonzept des MIRACUM Konsortiums eine entsprechend sichere Infrastruktur zwi- lautet daher „Wir wollen nicht die Daten zur schen den Kliniken aufgebaut werden. Eine maschinellen Lernen Analyse bringen, sondern die Analysen zu Forschergruppe aus England hat auf diesem den Daten.“ D.h. Analysen werden dezentral Gebiet bereits Pionierarbeit geleistet und die durchgeführt, ohne dass Kliniken die Patien- Open-Source-Software „DataSHIELD“ ent- Valide Prädiktionsmodelle, wie sie in Use Case 2 entwickelt werden tendaten selbst herausgeben müssen. Viele wickelt (Gaye et al. 2014, Budin-Ljøsne et al. sollen, benötigen große Datenmengen, welche oftmals nur durch der Algorithmen zur Datenauswertung lassen 2015). Diese Software bietet bereits verschie- die Kombination diverser Datenquellen erstellt werden können. Die sich so umformulieren, dass sie auch auf ver- dene Verfahren an, die zum statistischen Herausforderung besteht im Extrahieren relevanter Subgruppen aus teilte Daten angewendet werden können. Handwerkszeug gehören. Angefangen bei heterogenen Datenquellen – dafür kooperiert MIRACUM jetzt auch Zwischen- und Endergebnisse dieser Ana- der Berechnung einfacher Kennzahlen, wie mit Pionieren aus Newcastle. lysen lassen keine Rückschlüsse auf einzelne Durchschnittswerten oder Häufigkeiten, bis 14 miracum 15
UC2: From Data to Knowledge – Stratifizierte Subgruppen für die Entwicklung von Prädiktionsmodellen VERTRAUENSWÜRDIGE NETZE Dieser Queue-Poll- FIREWALL FIREWALL FIREWALL FIREWALL Mechanismus erlaubt es Krankenhäusern einfach KLINIKUM A Krankenhausnetzwerk KLINIKUM B Krankenhausnetzwerk einem Analysenetzwerk beizutreten, ohne Forschungs- Analyse Analyse Forschungs- die bestehenden datenbank Client Client datenbank Sicherheitsstandards der Krankenhaus- Krankenhaus- Institutionen absenken zu subnetzwerk subnetzwerk müssen. Auf diese Weise werden im MIRACUM Berechnungs- POLL QUEUE QUEUE POLL Berechnungs- Konsortium mehrere Server Server Server Server Server Server Standorte sicher zu einem vertrauenswürdigen Netzwerk verbunden. hin zu komplexeren Regressionsmodellen. dann im lokalen Netzwerk bereit zu stellen. Vertrauenswürdige Netzwerke Kernentwicklerteam (Prof. Paul Burton, Dr. Zusätzlich zu diesen fertigen Analyseverfah- Dies würde aus Sicherheitsgründen in einem generieren Olly Butters und Dr. Rebecca Wilson) initiiert. ren bietet DataSHIELD aber auch eine flexible deutschen Universitätsklinikum durch die Dieser Queue-Poll-Mechanismus erlaubt Dieses nahm den Konzeptvorschlag sofort Infrastruktur, um neue Arten von Analysen zu vor dem Klinikumsnetzwerk eingerichtete es Krankenhäusern, einfach einem Analyse- positiv auf, und reagierte mit einer freund- entwickeln, die dann auf vernetzte, aber über Firewall abgewiesen. Dieses Problem wurde netzwerk beizutreten, ohne die bestehen- lichen Aufnahme in die DataSHIELD-Entwi- mehrere Standorte verteilte Datenbestände vom MIRACUM Use Case 2 Team gelöst, in- den Sicherheitsstandards der Institutionen ckler:innen-Community. Nach dieser ersten angewendet werden können. Hier setzen die dem eine DataSHIELD Erweiterung konzipiert absenken zu müssen. Weiterhin erfasst der Abstimmung konnten die MIRACUM-Ent- Use Case 2 Kernentwickler:innen aus Frei- und implementiert wurde, welche diesen Mechanismus jede Anfrage und bietet die wicklungen schon im November 2018 beim burg (Biometrie: Maschinelles Lernen) und Analysen-Verteilungs-/Zugriffsweg umdreht. Möglichkeit, nur bestimmten Analyse Cli- internationalen DataSHIELD-Workshop in Erlangen (Medizininformatik: sichere IT-Inf- Die mit einem zentralen Client erstellten ents (aus anderen Institutionen) eine Anfra- Newcastle (UK) präsentiert werden. Es ergab rastruktur) an und bringen ihre Expertise ein. Analysen werden zunächst außerhalb in ei- ge zu erlauben. Auf diese Weise werden im sich auch ein Einblick in weitere EU-Projek- ner Warteschlange (Queue) abgelegt. Inner- MIRACUM Konsortium mehrere Standorte te, die ihrerseits Gesundheitsdaten dezentral Erweiterung des DataSHIELD- halb des Netzwerks fragt ein Prozess diese sicher zu einem vertrauenswürdigen Netz- analysieren wollen. Europaweit gibt es meh- Werkzeugkastens Warteschleife ständig ab, um zu prüfen, ob werk verbunden. rere Studien, die DataSHIELD einsetzen und Um die Analysen zu den Datenbeständen dort eine neue auszuführende Analyse be- mit ihrem Feedback helfen, die Software zu in einem Netzwerk an die einzelnen Standor- reitgestellt wurde. Eine dort abgelegte Ana- DataSHIELD-Community verbessern und auch weitere Gruppen, die te zu bringen, nutzt das Original DataSHIELD- lyse wird dann von diesem Prozess mittels Um diese Erweiterung in die DataSHIELD- neue Funktionalitäten beisteuern. Das von Konzept einen Zugriff auf das jeweilige Klini- eines, über die Firewall erlaubten Prozesses, Community zu bringen, wurde bereits im Mai der EU und vom kanadischen Gesundheits- kumsnetzwerk von außen, um die Analysen von außen hinein geholt (Poll). 2018 ein erstes Abstimmungstreffen mit dem ministerium geförderte und 2019 angelaufe- 16 miracum 17
UC2: From Data to Knowledge – Stratifizierte Subgruppen für die Entwicklung von Prädiktionsmodellen Julian Gründner (M. Sc., Erlangen) und Fokus: chronische Lungenerkrankungen genauen Wirkmechanismen zu erforschen. Stefan Lenz (M. Sc., und Hirntumore Dafür entwickelte die Freiburger Biometrie ein Freiburg) präsentieren Gemäß dem Motto „Learning by doing“ neues Werkzeug zum Finden von Einflussfak- ihre DataSHIELD wird der Fokus zuerst auf die zwei bereits toren für DataSHIELD, das seit 2019 an Hirn- Erweiterungen auf dem vorgestellten Erkrankungsgruppen Asthma/ tumordaten erprobt werden kann. DataSHIELD Workshop im COPD und Hirntumore gelegt, um die neuen Diese selbst gestellten Herausforderun- November 2018 Techniken zu entwickeln und zu erproben. gen dienen auch der Motivation, um eine in Newcastle. Diese beiden Projekte stellen die Beteiligten nachhaltige und flexible Dateninfrastruktur vor verschiedene Herausforderungen. aufzubauen, damit Forschung und Pati- Im Bezug auf Daten von Asthma/COPD-Pa- ent:innen von dem verstreuten Datenschatz tient:innen hat man es vor allem mit Daten profitieren. So wird darauf hin gearbeitet, aus dem klinischen Routinebetrieb zu tun. Werkzeuge bereit zu stellen, damit Ärzt:in- Foto: iStock/dem10; Wilson Hier ist eine enge Zusammenarbeit zwischen nen und Biolog:innen Krankheiten genauer nen EUCAN-Connect-Projekt arbeitet daran, tuellen Stand verfasst. DataSHIELD wurde Klinikern, Biostatistikern und Medizininfor- verstehen können und individuellere Be- mittels DataSHIELD eine Datenplattform dabei als diejenige Lösung identifiziert, matikern notwendig, um relevante Frage- handlungen ermöglicht werden, ohne dass nach den Richtlinien der FAIR-Data-Initiati- die aktuell bereits für die meisten Einsatz- stellungen, dafür geeignete Auswertungs- dabei der Schutz der Gesundheitsdaten ver- ve aufzubauen. zwecke verwendet werden kann. Aus die- verfahren und Daten zu identifizieren und nachlässigt wird. sem Grund wird innerhalb der MII nun all- aus den Krankenhausinformationssystemen TMF Task Force Verteilte Analysen gemein empfohlen, DataSHIELD an allen so zu extrahieren. Mittlerweile haben sich Das Thema „Verteilte Analysen“ spielt Standorten zur Verfügung zu stellen. Seit- durch die enge Zusammenarbeit mit Klini- für die gesamte MII eine große Rolle. 2020 dem haben sich bereits einzelne Standorte kern an den Standorten Freiburg, Marburg wurden z wei eintägige Workshops zu anderer Konsortien an unser Use Case 2 und Mannheim mehrere wissenschaftliche diesem Thema veranstaltet, bei der die Team gewandt, um die von MIRACUM ent- Fragestellungen ergeben, die kurz davor sind verschiedenen Konsortien der MII bishe- wickelte Queue-Poll-Lösung zu nutzen. Al- publiziert zu werden. DataShield Literatur rige Lösungensansätze präsentiert und lerdings ist ein weiteres Ergebnis der Task Budin-Ljøsne I, Bur ton P, Isaeva J, Vor- und Nachteile vergleichend diskutiert Force, dass DataSHIELD in einigen Berei- Freiburger Biometrie entwickelt Gaye A, Turner A, Murtagh MJ, et al.: wurden. Neben dem Ansatz DataSHIELD chen aktuell nicht einsatzbar ist, wie z.B. neues Werkzeug DataSHIELD: an ethically robust solu- von MIRACUM sind insbesondere der Per- beim Record-Linkage oder bei der Zusam- Für die Patient:innen mit Hirntumoren lie- tion to multiple-site individual-level sonal Health Train und Secure Multi Party menführung sehr kleiner Fallzahlen. MIRA- gen ebenfalls umfangreiche genetische Daten data analysis. Public Health Genomics. Computation zu nennen. Im Nachgang des CUM hat daraufhin Kontakt mit dem Kern- vor. Dabei gilt es, aus dieser unüberblickbaren 2015;18(2):87-96. Workshops wurde von der TMF die Task entwicklerteam in England aufgenommen, Menge genetischer Merkmale Hinweise auf Gaye A, Marcon Y, Isaeva J, LaFlamme P, Force Verteilte Analysen gegründet, in der das großes Interesse an einer Kooperation diejenigen Eigenschaften herauszufinden, die Turner A, Jones EM, Minion J et al.: Da- Use Case 2 durch Harald Binder und Da- mit den anderen Ansätzen bekundet hat. Es einen Einfluss auf die Schwere der Erkrankung taSHIELD: taking the analysis to the data, niela Zöller aus Freiburg vertreten wird. gibt also Bewegung rund um DataSHIELD, bzw. die Heilungschancen haben könnten. not the data to the analysis. Int J Epide- Hier wurden die Ergebnisse zusammen- zu der auch die deutsche Entwicklungsiniti- Diese Hinweise können dann in Laborexpe- miol. 2014 Dec;43(6):1929-44. gefasst und eine Stellungnahme zum ak- ative durch MIRACUM-Elan beigetragen hat. rimenten weiter untersucht werden, um die 18 miracum 19
UC2: From Data to Knowledge – Stratifizierte Subgruppen für die Entwicklung von Prädiktionsmodellen MIRACUM ist eine riesige Chance für Diagnostik und Therapie Nach drei Jahren MII, in der zumeist infrastrukturelle Vorarbeiten geleistet wurden, kommt der praktische Nutzen dieses Großprojektes für die Mediziner langsam in der Klinik an. PD Dr. Sebastian Fähndrich, Leitender Oberarzt in der Pneumologie des Universitätsklinikums Freiburg, berichtet aus ärztlicher Sicht. Medizininformatiker:innen. Die müssen mit- PD Dr. Sebastian Fähndrich: INTERVIEW MIT PD Dr. Sebastian Fähndrich, Universitätsklinikum Freiburg genommen werden und verstehen, welche „Bessere Datenlage verspricht verbesserte Therapien.“ klinischen Parameter wichtig sind, so dass sie in das DIZ einfließen müssen. Das ist das Wunderbare an MIRACUM – die Schnittstel- Welche Daten interessieren Sie besonders, zu wenige Daten gibt. Die MIRACUM Arbei- Zusammenhänge erfahren, die für das Risiko- len zwischen Ärzt:innen und Informatiker:in- die durch die MII in greifbare Nähe gekom- ten liefern eine tolle Datenbank, die uns die management, Diagnostik und die Therapie nen funktionieren – wir können uns aufein- men sind? Möglichkeit eröffnet, retrospektiv enorme von enormer Bedeutung sind. ander verlassen, darauf dass wir über die Oh, da muss ich nicht lange überlegen. Fallzahlen auszuwerten, um mit diesen ge- gleichen Datensätze und -inhalte sprechen. Lungenfunktionsdaten, Diagnosen, Neben- wonnenen Erkenntnissen Patient:innen zu- Ich stelle es mir schwierig genug vor, sich diagnosen, Keime und in naher Zukunft das künftig besser behandeln zu können. mit Ärzt:innen der eigenen Station auf die Profitieren die Patient:innen schon heute da- Auslesen von Arztbriefen. Natürlich müssen Sehen Sie, Patient:innen kommen mit einer beste Behandlung zu einigen. Wie sieht eine von, dass sich im Hintergrund der Kliniken der Datenschutz mit an Bord und die Ethik- schweren Vorerkrankung zu uns. COPD, die Abstimmung über verschiedene Standorte bereits an so vielen unterschiedlichen Stellen kommission sowie das Data Use & Access sogenannte Raucherlunge, ist eine Volkser- hinweg aus? abgestimmt wird? Committe glücklich sein. Dann können wir krankung und betrifft sehr viele Menschen. Das ist tatsächlich kein Problem. Wir halten Das ist heute vielleicht doch noch ein daran gehen, die Daten wissenschaftlich zu Seit wenigen Jahren wissen wir, dass die uns an die Leitlinien der Lungenheilkunde, wenig zu früh, um Genaueres zu sagen. nutzen, während die Patient:innen gleichzei- chronische Raucherlunge eine System- und auch speziell für die COPD – zu Schweregrad, Konkret profitieren werden sie ab dem Zeit- tig ein gutes Gefühl haben. auch Umwelterkrankung ist. Das bedeutet, Behandlung etc. Behandlungs-Leitlinien sol- punkt, wenn neue Erkenntnisse einfließen sie betrifft eben nicht nur die Lunge. Partikel len mit dem Wissen, welches wir durch die und die ersten Studien ausgewertet sind. Und diese Möglichkeiten eröffnen die wandern aus der Lunge durch den Körper Auswertung der MIRACUM-Daten erwerben, MIRACUM ist eher eine Plattform, die uns Nutzung der Datenintegrationszentren in und lagern sich in Gefäßen und Organen ein, hinterfragt und aktualisiert werden. ermöglicht, für Risikofaktoren, Diagnostik MIRACUM? wo sie überall im Körper kleine Entzündun- Das ermöglicht, die gewonnenen Erkennt- und Therapie zu schauen, welche Frage- Foto: Seehstern MIRACUM ist eine wirklich tolle Sache für gen auslösen. Mit MIRACUM bekommen wir nisse auch in die Diagnostik und Behandlung stellungen in Zukunft beantwortet werden Diagnostik und Therapie. In der Medizin ha- Zugriff auf so viele Patient:innen und Daten der Patient:innen einfließen zu lassen. Wich- müssen, um Patient:innen wirkungsvoll ben wir oft das Problem, dass es für Vieles rings um die Patient:innen, so dass wir neue tig und neu ist die Zusammenarbeit mit den auch präventiv zu schützen. 20 miracum 21
UC2: From Data to Knowledge – Stratifizierte Subgruppen für die Entwicklung von Prädiktionsmodellen MIRACUM Konsortiums, dessen Ziel es ja riabilität der Originaldaten abbilden, indem ist, personalisierte Vorhersagemodelle für ein Modell der statistischen Verteilung der die medizinische Behandlung zu erstellen. Daten erstellt wird. Tiefe Techniken des Deep Dazu sollen die Daten mehrerer MIRACUM Learnings können sich sehr flexibel unter- Standorte gemeinsam analysiert werden. schiedlichen Datenverteilungen annähern. Aktuell ist es allerdings noch so, dass diese In MIRACUM verwenden wir unter anderem aus Datenschutzgründen nicht zusammen- einen der populärsten generativen Ansätze, geführt werden dürfen. Im Rahmen der tech- sogenannte Variational Autoencoder (VAE). nischen Lösungen, die wir zum Umgang mit dieser Problematik entwickeln, wollen wir Wie funktioniert ein Variational zunächst Daten chronischer Lungenerkran- Autoencoder? kungen (Asthma und COPD) analysieren und Die Funktionsweise des VAE kann gut an damit im MIRACUM Projekt wissenschaftliche einem Beispiel erklärt werden: Wir wollen wis- Fragestellungen auf Daten von Patient:innen sen, „wie krank“ ein:e Patient:in ist. Im Idealfall mit Hirntumoren untersuchen. haben wir für alle Patient:innen ein oder zwei Synthetische Daten sind eine Lösung, die abstrakte Werte, die den Grad der Erkrankung zur Überwindung von Datenschutzhürden repräsentieren. Damit könnten wir Daten für genutzt werden können. Synthetische Daten virtuelle Patient:innen generieren, indem wir sind Daten, die keine echten Daten enthalten, plausible Werte für eine oder zwei Dimensio- sondern lediglich allgemeine Merkmale und nen auswählen. statistische Beziehungen echter Daten nach- In der realen Welt werden Krankheiten je- bilden. Für die Datennutzung in der Forschung doch durch viele verschiedene beobachtete bedeutet dies, dass pro Standort virtuelle Symptommuster gekennzeichnet. Deshalb Die virtuellen Patient:innen Patientendaten erstellt werden, die nicht an wollen wir von Mustern, die in realen Mes- die Daten einzelner Patient:innen gebunden sungen, Beobachtungen oder Symptomen Rigide Datenschutzbestimmungen machen in Deutschland der sind. Solche Daten können dann gemeinsam zu sehen sind, auf eine kleine Anzahl dieser Forschungslandschaft oftmals schwer zu schaffen. Um dennoch mit genutzt werden und ermöglichen den Einsatz niedrigdimensionalen Werte abbilden. Diese eigenen Daten forschen zu können, prüft das Team des Use Case 2, ob statistischer Standardanalysen, oder auch latenten Merkmale werden im Grunde nie di- synthetische Daten Teil der Lösung werden können. Techniken der künstlichen Intelligenz. rekt beobachtet, also treffen wir einige plau- sible Annahmen, um ein Muster zu finden. Generative Modelle Wir nehmen zum Beispiel an, dass wir, wenn D er Schutz von Gesundheitsdaten ist wichtig, da sie personenbezogene Da- ten beinhalten, die sowohl Patient:innen dererseits jedoch ein kritisches Hindernis für den Zugang zu Patientendaten, die zur Verbesserung der Gesundheitsversorgung Für die Erzeugung synthetischer Daten aus realen Daten ist eine Art statistischer oder maschineller Lernansatz erforderlich. wir den Krankheitswert aller Individuen in einem Häufigkeitsdiagramm aufzeichnen, eine Normalverteilung oder Gaußsche Glo- als auch deren Familienangehörige betref- genutzt werden könnten. Dieses Problem Konkret verwenden wir generative Modelle, ckenkurve haben. Gemäß dieser Annahme fen. Datenschutzbestimmungen bilden an- adressieren wir auch im Use Case 2 des welche die systematische und zufällige Va- können wir dann aus den Daten die Trans- 22 miracum 23
UC2: From Data to Knowledge – Stratifizierte Subgruppen für die Entwicklung von Prädiktionsmodellen formation lernen, die Messungen, Beobach- Daten ist die Vitalkapazität, welche bei Frau- Um die jeweils beste Transformation für tungen und Symptome in die latenten Krank- en und Männern aufgrund der verschiedenen die Daten zu finden, benutzen wir Maß- heitswerte transformiert. Körpergrößen unterschiedlich ist. Wenn man zahlen, die anzeigen, ob deren Verteilung Für den nächsten Schritt stelle man sich nun die Verteilung aufzeichnet, ist sie daher glockenförmig ist oder ob es sich um eine vor, dass ein:e Mediziner:in Messungen, Beob- nicht mehr glockenförmig, sondern eher andere Verteilung handelt. Nach diesen achtungen und Symptome von Patient:innen eine Kombination aus zwei Glockenkurven, Maßzahlen kann man die besten Parameter mit bestimmten Erkrankungen mit anderen welche durch eine Kerbe getrennt wären. Da für die Transformation in eine glockenförmi- Wissenschaftler:innen diskutieren möchte, wir realistische virtuelle Patient:innen haben ge Verteilung finden. Durch die Anwendung natürlich ohne den Datenschutz zu verlet- wollen, müssen wir in der Lage sein, plausible dieser Transformationen, kombiniert mit zen. Mit den latenten Krankheitswerten für Werte für derartige Verteilungen zu erzeugen. der Verwendung des VAEs mit Normalver- verschiedene Individuen ist es möglich, eine Wir müssen in den erwähnten Labordaten teilungsannahme und der Verwendung von weitere Transformation vom Krankheitswert die kleineren Werte für Frauen im Vergleich Rücktransformationen erhalten wir nun syn- Kiana Farhadyar (M. Sc.) zurück zu passenden Messungen, Sympto- zu Männern in der Vitalkapazität in unseren thetische Daten für anspruchsvollere Arten men oder Diagnosen zu lernen. Damit kön- virtuellen Patient:innen wiederfinden, um sie von Verteilungen. Auf diese Weise können nen schließlich plausibel gewählte latente für weitere Forschungen nutzbar zu machen. wir realistische Daten virtueller Patient:in- Krankheitswerte virtueller Patient:innen Leider haben wir festgestellt, dass VAEs dazu nen für viele verschiedene Anwendungen zurücktransformiert werden, so dass sie wie neigen, Daten zu erzeugen, die einer Glocken- erstellen. Diese Methode führen wir unter plausible Patientendaten aussehen. kurve folgen, auch wenn die Eingabe anders dem Namen Pre-transformation Variational Berechnung einfacher Kennzahlen, wie aussieht. Daher mussten wir eine neue Lö- Autoencoder (PTVA). Durchschnittswerten oder Häufigkeiten, bis Herausforderungen bei der sung entwickeln, welche diese Herausforde- hin zu komplexeren Regressionsmodellen. Verwendung Variational Autoencoder rung angeht. Die virtuellen Patient:innen in Zusätzlich zu diesen fertigen Analysever- für klinische Daten DataSHIELD fahren bietet DataSHIELD aber auch eine Der VAE hat eine eingebaute Normalver- Unsere Methode: PTVA Die Generierung virtueller Patientendaten flexible Infrastruktur, um neue Arten von teilungsannahme. Wir wollen VAEs jedoch Das Wichtige an den neuen Methoden muss verteilt über verschiedene MIRACUM- Analysen zu entwickeln und auf damit ver- auch für Daten verwenden, bei denen die ur- zur synthetischen Datenerzeugung ist, dass Standorte durchgeführt werden. Dafür und netzte Daten anzuwenden. Diese können sprünglichen Messungen eine ganz andere sie nicht auf eine einzige Art von Daten zu- allgemein zur Durchführung gemeinsamer, wir auch dafür benutzen, um eigene Ansätze Form haben könnten. Es gibt zum Beispiel geschnitten sein sollten. Es ist zum Beispiel standortübergreifender Analysen benutzen umzusetzen. Im letzten Jahr konnten wir die einige Laborwerte, welche ihr Minimum bei keine gute Lösung, wenn wir nun einige an- wir die Software DataSHIELD als Infrastruk- Generierung synthetische Daten mittels ge- Null haben, im Durchschnitt um 50 liegen und dere Annahmen treffen, welche wiederum tur. Diese Software ist unter einer Open- nerativer Modelle bereits an einem anderen sich aber bis zu Werten im Tausenderbereich die Ergebnisse bei tatsächlich glockenför- Source-Lizenz veröffentlicht und frei nutzbar. Verfahren, den so genannten Deep Boltz- erstrecken können, sodass sie nicht einer migen Daten verschlechtern würden. Bei der Das MIRACUM-Team steht in regelmäßigem mann Machines, in DataSHIELD erproben. Foto: Universität Freiburg Normalverteilung folgen. Ein anderes Bei- Methode, die wir entwickeln, ändern wir also Austausch mit dem Kernentwicklerteam an Nun werden wir den Werkzeugkasten von spiel sind Messungen, die sich zwischen zwei nicht die Annahmen, sondern versuchen, der Universität in Newcastle. DataSHIELD noch um die VAEs erweitern, Gruppen von Personen unterscheiden kön- Transformationen zu finden, die schwierige DataSHIELD bietet bereits verschiedene um qualitativ hochwertige synthetische nen, wie es z. B. in Daten zur Lungenfunktion Datenverteilungen bei Bedarf in glockenför- Verfahren an, die zum statistischen Hand- Daten für diverse Verteilungen von Daten der Fall ist. Ein typischer Messwert in diesen mige Verteilungen umwandeln können. werkszeug gehören, angefangen bei der erstellen zu können. 24 miracum 25
UC2: From Data to Knowledge – Stratifizierte Subgruppen für die Entwicklung von Prädiktionsmodellen Zum Weiterlesen ... Publikation, die im Use Case 2 entstanden sind: 1. Farhadyar K, Bonofiglio F, Zoeller D, Binder 4. Jaravine V, Balmford J, Metzger P, Boerries H. Adapting deep generative approaches for M, Binder H, Boeker M. Annotation of Human Ausblick getting synthetic data with realistic marginal Exome Gene Variants with Consensus distributions. export.arXiv.org > stat > Pathogenicity. Genes 11 (9), 1076 (2020). arXiv:2105.06907; submitted 14.05.2021 https://doi.org/10.3390/genes11091076 In Use Case 2 konnten wir bisher ein breites Spektrum von praktisch nutzbaren Techniken entwickeln, wie z.B. Deep Learning-Ansätze. Ein we- 2. Lenz S, Hess M, Binder H. Deep generative 5. Gruendner J, Schwachhofer T, Sippl P, Wolf sentliches Erfolgsrezept war dabei der enge Austausch mit Nutzer:innen models in DataSHIELD. BMC Med Res N, Erpenbeck M, Gulden C, Kapsner LA, in Klinik und Forschung. Dies ist auch die Basis, um die Entwicklungen im Methodol 21, 64 (2021). https://doi. Zierk J, Mate S, Stürzl M, Croner R, Prokosch weiteren Projektverlauf noch enger mit dem klinischen Alltag und me- org/10.1186/s12874-021-01237-6 HU, Toddenroth D. KETOS: Clinical decision dizinischen Fragestellungen zu verzahnen und so das Versprechen von support and machine learning as a service – A künstlicher Intelligenz in der Medizin einzulösen. 3. Gruendner J, Wolf N, Tögel L, Haller F, training and deployment platform based on Prokosch HU, Christoph J. Integrating Docker, OMOP-CDM, and FHIR Web Services. Genomics and Clinical Data for Statistical PLoS ONE 14(10): e0223010. https://doi. Analysis by Using GEnome MINIng (GEMINI) org/10.1371/journal.pone.0223010 and Fast Healthcare Interoperability Resources (FHIR): System Design and 6. Gruendner J, Prokosch HU, Schindler S, Implementation. JMIR 2020;22:e19879. Doi: Lenz S, Binder H. A Queue-Poll Extension 10.2196/19879 and DataSHIELD: Standardised, Monitored, Indirect and Secure Access to Sensitive Data. Stud Health Technol Inform. 2019;258:115-119 26 miracum
Sie können auch lesen