FROM DATA TO KNOWLEDGE - STRATIFIZIERTE SUBGRUPPEN FÜR DIE ENTWICKLUNG VON PRÄDIKTIONSMODELLEN - USE CASE 2 - MIRACUM

Die Seite wird erstellt Paul-Luca Conrad
 
WEITER LESEN
FROM DATA TO KNOWLEDGE - STRATIFIZIERTE SUBGRUPPEN FÜR DIE ENTWICKLUNG VON PRÄDIKTIONSMODELLEN - USE CASE 2 - MIRACUM
FROM DATA TO KNOWLEDGE –
STRATIFIZIERTE SUBGRUPPEN
FÜR DIE ENTWICKLUNG VON
PRÄDIKTIONSMODELLEN
Erfahrungen, Erkenntnisse und Berichte 2018 bis 2020

   USE CASE

         2
FROM DATA TO KNOWLEDGE - STRATIFIZIERTE SUBGRUPPEN FÜR DIE ENTWICKLUNG VON PRÄDIKTIONSMODELLEN - USE CASE 2 - MIRACUM
UC2: From Data to Knowledge –
                                                                     Stratifizierte Subgruppen für die Entwicklung von Prädiktionsmodellen

                                                                                                                                                 Fotos: Sommer
                                            Vorwort                                   Daniela Zöller                 Harald Binder

                                            Das MIRACUM Konsortium hat für die Aufbau-          sagemodelle schnellstmöglich mittels Smart-
                                            und Vernetzungsphase der Medizininforma-            Apps in den Klnikalltag zurückzuspielen, um
                                            tik-Initiative (MII) drei Use Cases definiert und   Ärzt:innen in ihren diagnostischen und thera-
                                            darüber Anwendungsszenarien beschrieben,            peutischen Entscheidungen zu unterstützen.
                                            welche auf den Basiskomponenten der MIRA-           Der klinische Fokus liegt hierbei zunächst auf
                                            CUM Datenintegrationszentren (DIZ) aufset-          medizinische Fragestellungen aus dem Be-
                                            zen und so deren Nutzen durch ergänzende            reich Asthma/COPD und auf Hirntumoren.
                                            innovative IT-Lösungen belegen.                     In dieser Broschüre stellen wir unsere Ziele,
                                            In Use Case 2 „From Data to Knowledge               bisher etablierte Konzepte und die derzeiti-
                                            – Stratifizierte Subgruppen für die Ent-            gen Umsetzungsergebnisse vor.
Herausgeber                                 wicklung von Prädiktionsmodellen“ wer-              Auch bedanken wir uns hiermit bei unserem
Steering Board des MIRACUM Konsortiums
                                            den mit Techniken des maschinellen Lernens          Use Case 2-Team für die letzten dreieinhalb
Artdirection
W.A.S.                                      (insbesondere mit Deep Learning) valide Vor-        Jahre sehr engagierter und fruchtvoller Zu-
Illustrationen                              hersagemodelle auf Grundlage einer große            sammenarbeit.
Nina Eggemann                               Fülle an Daten entwickelt. Der schrittweise
Druck                                       inhaltliche Ausbau der DIZ an den MIRACUM           Daniela Zöller
Pinguin Druck GmbH
                                            Standorten bietet dabei eine solide Datenba-        Harald Binder
Printed in Germany
Nachdruck, auch auszugsweise, Aufnahme
                                            sis, um Patientenkohorten anhand klinischer         Use Case 2 Koordinatoren
in Onlinedienste und Internet sowie         Parameter, Biomarker und molekularer/geno-
Vervielfältigungen auf Datenträgern wie     mischer Untersuchungen in Subgruppen zu             Hans-Ulrich Prokosch
CD-ROM, DVD-ROM etc. nur nach vorheriger
schriftlicher Zustimmung der Herausgeber.   stratifizieren. Das Konsortium hat sich auch        Konsortialleiter MIRACUM
Germany 2021                                zur Aufgabe gemacht, entstehende Vorher-

                                                                                                                                                                 3
FROM DATA TO KNOWLEDGE - STRATIFIZIERTE SUBGRUPPEN FÜR DIE ENTWICKLUNG VON PRÄDIKTIONSMODELLEN - USE CASE 2 - MIRACUM
UC2: From Data to Knowledge –
    Stratifizierte Subgruppen für die Entwicklung von Prädiktionsmodellen

    Verantwortliche

    Prof. Dr. Harald Binder                                                                                                                                            Prof. Dr. Harald Renz
    Er hat in Regensburg und an der University of California, Irvine, Psy-                                                                                             Seit 1999 ist er Direktor des Instituts für Laboratoriumsmedizin am
    chologie und Mathematical Behavioral Sciences studiert und pro-                                                                                                    Universitätsklinikum Gießen und Marburg (UKGM) und Professor der
    movierte 2006 an der LMU München. Nach seiner Postdoc-Zeit in                                                                                                      Philipps-Universität Marburg. Seit 2010 ist Prof. Renz stellvertreten-
    Freiburg und einer Professur an der Universitätsmedizin Mainz trat                                                                                                 der Sprecher des UKGM Lung Center. Sein Forschungsinteresse gilt
    er 2017 die Professur für Medizinische Biometrie und Statistik am                                                                                                  der Pathogenese von Allergien und Asthma. In den Jahren 2012/13
    Uniklinikum Freiburg an, verbunden mit der Leitung des gleich-                                                                                                     war er Gastprofessor und Fulbright-Stipendiat an der Harvard Medi-
    namigen Instituts. Sein Forschungsschwerpunkt ist die Verknüp-                                                                                                     cal School in Boston. Seit 2015 ist er CMO des UKGM, Standort Mar-
    fung statistischer Techniken mit Ansätzen des Deep Learning für                                                                                                    burg. Von 2010 bis 2016 war er Präsident der Deutschen Gesellschaft
    molekularen und klinischen Daten.                                                                                                                                  für Allergologie und Klinische Immunologie (DGAKI) und seit 2018 ist
                                                                                                                                                                       er Vizepräsident der Deutschen Gesellschaft für Laboratoriumsmedizin.
                                 Prof. Dr. Till Acker                                                                                                                  Derzeit hält er Gastprofessuren in Moskau, Russland und Moshi, Tansania.
                                 Er hat Medizin in Freiburg, London, San Diego und Kapstadt stu-
                                 diert. Seit 2008 ist er Direktor des Instituts für Neuropathologie
                                 an der Justus-Liebig-Universität Gießen, seit 2015 medizinischer
                                 Forschungsdekan und seit 2019 Vorsitzender der Deutschen Ge-                                                                          Team
                                 sellschaft für Neuropathologie und Neuroanatomie (DGNN). Sein
                                 Forschungsschwerpunkt liegt auf der molekularen und funktio-                                                                          Christian Bruns                Michael Maxheim
                                 nellen Kartierung der Rolle des Mikromilieus in der Regulation von                                                                    Roland Buhl                    Attila Nemeth
                                 „Hallmarks of Cancer“. Klinisch ist seine Gruppe an der Aufdeckung                                                                    Alejandro Cosa Linan           Michael Neumaier
                                 morphomolekularer Biomarker durch angewandte KI für die Diffe-                                                                        Hildegard Dohmen               Alan Race
                                 rentialdiagnose und Prognose bei Hirntumoren interessiert.
                                                                                                      Fotos: Sommer; JLU / Rolf K. Wegst; UK Gießen und Marburg GmbH
                                                                                                                                                                       Frederike Euchner              Stephan Ringshandl
                                                                                                                                                                       Kiana Farhadyar                Jannik Schaaf
    Dr. Daniela Zöller                                                                                                                                                 Patrick Fischer                Jan Scheer
    Sie hat an der Hochschule Koblenz Biomathematik studiert und                                                                                                       Denis Gebele                   Stefanie Schild
    2017 an der Universitätsmedizin Mainz im Bereich Biostatistik                                                                                                      Timm Greulich                  Sebastian Schindler
    promoviert. Nach einer 3-jährigen Postdoc-Zeit im Bereich                                                                                                          Julian Gründner                Bernd Schmeck
    Knowledge Discovery and Synthesis des Instituts Medizinische                                                                                                       Dennis Hasenpflug              Amir Tabatabaei
    Biometrie und Statistik des Universitätsklinikums Freiburg,                                                                                                        Christian Haverkamp            Dativa Tibyampansha
    hat sie 2021 die Leitung des Bereichs Medical Data                                                                                                                 Petar Horki                    Dennis Toddenroth
    Science übernommen. Ihr Forschungsschwerpunkt liegt                                                                                                                Nattika Jugkaeo                Frederik Trinkmann
    im Bereich der Statistischen Methodenentwicklung für                                                                                                               Stefanie Korn                  Abishaa Vengadeswaran
    Routine- und Registerdaten und für verteilte Analysen unter                                                                                                        Stefan Lenz                    Johannes Wolf
    Datenschutzbeschränkungen.                                                                                                                                         Anke Lux                       Jochen Zohner

4   miracum                                                                                                                                                                                                                                       5
FROM DATA TO KNOWLEDGE - STRATIFIZIERTE SUBGRUPPEN FÜR DIE ENTWICKLUNG VON PRÄDIKTIONSMODELLEN - USE CASE 2 - MIRACUM
UC2: From Data to Knowledge –
    Stratifizierte Subgruppen für die Entwicklung von Prädiktionsmodellen

                                                                            Vorhersagen entwickeln und
                                                                            klinische Prozesse revolutionieren
                                                                            Das Gesundheitswesen produziert gigantische Datenmengen mit
                                                                            vielen bislang unbekannten Informationen. Statistische Werkzeuge,
                                                                            wie z.B. Deep Learning, können aus diesen ungehobenen Schätzen
                                                                            potenziell präzise Vorhersagen über Krankheitsverläufe oder
                                                                            Therapieoptionen in praxisrelevanten Situationen ermitteln. Ziel des
                                                                            Use Case 2 ist es, relevante Datenmuster zu identifizieren und zu validen
                                                                            Vorhersagemodellen zu kombinieren.

                                                                            A   ufgrund individueller Unterschiede,
                                                                                beispielsweise in der Ansprechrate
                                                                            auf Medikamente, ist oftmals die optimale
                                                                                                                             Ressourcen des Gesundheitswesens nicht
                                                                                                                             optimal genutzt werden. Aus diesem Grund
                                                                                                                             ist es wünschenswert, Patient:innen, anhand
                                                                            Therapiekombination noch unbekannt und           von Biomarkern und -signaturen in therapeu-
                                                                            zahlreiche Krankheitsbilder in Deutschland       tisch relevante Subgruppen (Endotypen)
                                                                            werden noch immer nach Trial-and-Error           einteilen zu können, um sie effizienter und
                                                                            therapiert. Ein System, das für alle Beteilig-   individueller zu behandeln.
                                                                            ten gleichermaßen unbefriedigend ist: Pa-
                                                                            tient:innen haben oftmals mit unerwünsch-        Noch zu viel Theorie für die Praxis
                                                                            ten Nebenwirkungen von Medikamenten zu             Im klinischen Kontext ist eine immer grö-
                                                                            kämpfen, die letztendlich nur suboptimal         ßere Menge an Patientendaten elektronisch
                                                                            wirken; Ärzt:innen wollen den Patient:innen      verfügbar. Sowohl klinische als auch Labor-
                                                                            schnelle und wirkungsvolle Therapien an-         daten, Röntgenaufnahmen und individuelle
                                                                            bieten; und auch für die Pharmaindustrie         Krankheitsbilder sind dabei oft sogar im Zeit-
                                                                            wird es zum Problem, sich den Vorwürfen          verlauf vorhanden, so dass prinzipiell hoch-
                                                                            ausgesetzt zu sehen, unwirksame Mittel zu        informative Profile vorliegen. Um jedoch
                                                                            vertreiben. Dazu kommt, dass dieses Vor-         umsetzbares Wissen zu generieren, müssen
                                                                            gehen tatsächlich auch volkswirtschaftlich       aus diesen Daten mit Verfahren der Statistik
                                                                            eigentlich nicht zu verantworten ist, da die     und der künstlichen Intelligenz Muster iden-

6   miracum                                                                                                                                                                   7
FROM DATA TO KNOWLEDGE - STRATIFIZIERTE SUBGRUPPEN FÜR DIE ENTWICKLUNG VON PRÄDIKTIONSMODELLEN - USE CASE 2 - MIRACUM
UC2: From Data to Knowledge –
    Stratifizierte Subgruppen für die Entwicklung von Prädiktionsmodellen

                                                   tifiziert werden, welche für die Behandlung
                                                   von Patient:innen relevant sind.                 » Wir möchten im Use Case 2 für mindestens zwei
                                                      Aus solchen Mustern können Diagnose-          große Krankheitsbilder Vorhersagemodelle mit Deep
                                                   und Vorhersagemodelle entwickelt werden,
                                                   die zurück in den Routineeinsatz übertra-
                                                                                                    Learning entwickeln, trainieren und evaluieren.
                                                   gen werden müssen. Trotz der Fortschritte        Und wir möchten zeigen, wie unsere Ergebnisse
                                                   bei der Entwicklung derartiger Modelle in        als innovative IT-Lösungen die Mediziner bei
                                                   den letzten Jahren, ist es immer noch eine       konkreten Entscheidungen unterstützen. «
                                                   Herausforderung, auch tatsächlich den Kreis
                                                                                                    Harald Binder
                                                   bis in die klinische Routine zu schließen. So
                                                   markiert in vielen Fällen schon die Bewer-
                                                   tung der prinzipiellen Einsetzbarkeit von        gener Datenquellen zur Identifizierung prog-      zellulären und molekularen Entzündungs-
                                                   Vorhersagemodellen bereits den Abschluss         nostisch relevanter Subgruppen darstellen.        signalwege bei Patientenuntergruppen hin,
                                                   solcher Forschungsprojekte. Nur selten wird      Obwohl dies zwei unterschiedliche medizini-       welche als „Endotypen“ bezeichnet wer-
                                                   versucht, die entwickelten Modelle auch tat-     sche Spezialgebiete sind, erfordern sie einen     den. Die Endotypisierung von Asthma- und
      Hirntumore im Visier                         sächlich in der Krankenversorgung zum Ein-       gemeinsamen methodischen Kern, welcher            COPD-Patient:innen entwickelt sich so zu
      Hirntumore werden als besonders be-          satz zu bringen. Um das Potenzial wirklich       in den Datenintegrationszentren (DIZ) der         einer vorrangigen Aufgabe, da darauf auf-
      lastend empfunden und gehen mit einer        auszuschöpfen, ist es wichtig, diesen Schritt    MIRACUM-Standorte etabliert werden wird.          bauende gezielte Therapien die Möglichkeit
      hohen Morbidität und Mortalität sowie        zu gehen und Algorithmen und Tools für die       Beide medizinischen Fragen profitieren von        bieten, strategische Mediatoren in diesen
      hohen sozioökonomischen Kosten ein-          tägliche Entscheidungsunterstützung einzu-       der Kooperation mehrerer Kliniken. Für bei-       Entzündungsnetzwerken selektiv und spe-
      her. Bei Kindern und Jugendlichen sind       setzen und zu verbreiten.                        de Indikationen gilt, je größer die Fallzahlen,   zifisch zu beeinflussen. Eine Präzisions-
      Hirntumore der zweithäufigste Krebs-            Im Use Case 2 wird MIRACUM deshalb nicht      desto besser lassen sich klinisch relevante       medizin bei Asthma und COPD basiert auf
      typ. Bei Erwachsenen ist der häufigste       nur Vorhersagemodelle entwickeln, sondern        Muster identifizieren und bewerten. So ist        der Charakterisierung solcher Endotypen
      Hirntumor das Glioblastom mit einer in-      diese in die klinischen Versorgungsprozesse      z.B. die Existenz bestimmter Patientenunter-      unter Verwendung von Biomarkern. Eine
      fausten Prognose und medianen Über-          integrieren. Ziel ist es, für mindestens zwei    gruppen oft bereits aus Forschungsdatensät-       besondere Herausforderung besteht darin,
      lebenszeit von 12-15 Monaten und einer       große Krankheitsbilder zu demonstrieren,         zen bekannt, doch noch ist unklar, wie solche     dass eine adäquate Charakterisierung der
      der schlechtesten Fünf-Jahres-Über-          wie Vorhersagemodelle entwickelt, trainiert      Untergruppen basierend auf Routinedaten           Patient:innen die Integration longitudinaler
      lebensraten unter allen Krebserkran-         und evaluiert werden können, und wie diese       erkannt werden können und ob Patient:in-          Daten erfordert, die verschiedenen Krank-
      kungen. Bis heute ist die korrekte Diag-     in innovative IT-Lösungen überführt werden       nen zuverlässig als Mitglied bestimmter           heitszuständen entsprechen. Leider ist auch
      nose von Hirntumoren herausfordernd,         können, die Ärzt:innen bei konkreten Ent-        Untergruppen identifiziert werden können.         die longitudinale sektorübergreifende Daten-
      auch bei erfahrenen Neuropathologen,         scheidungen unterstützen.                                                                          speicherung und Datenintegration ein Ge-
      was die Notwendigkeit herausstreicht,           MIRACUM hat mit Asthma/COPD (Chro-            Asthma & COPD                                     biet, in dem sich Deutschland bislang nicht
      unsere Fähigkeit zur Diagnose und ad-        nisch obstruktive Lungenerkrankung) und             Asthma und COPD gehören zu den häu-            als Vorreiter auszeichnete.
      äquaten Therapie von Hirntumoren zu          Neuroonkologie den thematischen Schwer-          figsten chronisch-entzündlichen Lungener-            Eine weitere Herausforderung in diesem
      verbessern.                                  punkt auf zwei medizinische Bereiche gelegt,     krankungen. Jüngste Forschungsergebnis-           Zusammenhang ist die Entwicklung von
                                                   die gute Beispiele für die Integration hetero-   se weisen auf eine große Heterogenität der        Biomarker-Panels, die Endotypen präzise

8   miracum                                                                                                                                                                                          9
FROM DATA TO KNOWLEDGE - STRATIFIZIERTE SUBGRUPPEN FÜR DIE ENTWICKLUNG VON PRÄDIKTIONSMODELLEN - USE CASE 2 - MIRACUM
UC2: From Data to Knowledge –
     Stratifizierte Subgruppen für die Entwicklung von Prädiktionsmodellen

                                                    widerspiegeln. Eine wichtige Rolle kommt
       Künstliche Intelligenz für Prädiktion        dabei Eosinophilen im Blut zu, wobei gerade      » Wir wissen, dass das One-size-fits-all-Modell in der
       Die Erstellung von Prognosen oder prä-       Fragen bei nicht-eosinophilem Asthma und         Therapie oft nicht funktioniert. Die großen Fallzahlen
       diktiven Vorhersagen spielt in vielen Be-    COPD aufgeworfen wurden. Neuere klinische
                                                                                                     helfen uns, klinisch relevante Muster besser identifizieren
       reichen des täglichen Lebens eine Rolle.     und experimentelle Daten legen nahe, dass
       So benutzen E-Commerce-Anbieter              diese Patientenpopulation nicht nur größer       und bewerten zu können. «
       Techniken der künstlichen Intelligenz/       als erwartet ist, sondern auch innerhalb         Harald Renz
       des Deep Learnings um das Kaufverhal-        eines Endotyps eine breite Heterogenität
       ten von Kunden auf Basis der Historie        besteht. Was erklärt, dass eine erfolgreiche
       besuchter Webseiten vorherzusagen. In        Therapie dieser Patient:innen von Variablen
       ähnlicher Weise können biomedizinische       abhängen kann, die wir bisher nicht immer        nicht nur eine wichtige Basis für die Auswahl   COPD Patient:innen unterscheiden, welche
       Parameter als „Marker“ bzw. „Signatu-        im Griff haben. Für uns ergibt sich daraus       und Implementierung von Behandlungsop-          zumeist älter sind und eine starke Rauch-
       ren“ verwendet werden, um individuell        auch gezielte Therapien für diese wichti-        tionen bieten, sondern langfristig auch zu      historie haben. In der ersten Fragestellung
       auf bevorstehende Krankheitsverände-         gen Untergruppen von Asthma-/COPD-Pa-            einer Risikobewertung und Vorhersage der        vergleichen wir die Ergebnisse innerhalb des
       rungen hinzuweisen bzw. abhängig vom         tient:innen mit im Auge zu haben.                Patient:innen hinsichtlich ihrer klinischen     MIRACUM Konsortiums mit denen des COSY-
       Krankheitsbild bzw. -verlauf individuell        Um also klinisch relevante Asthma- und        Ursache führen, z.B. eine Entwicklung von       CONET Registers. Die Daten des COSYCONET
       passende und maßgeschneiderte thera-         COPD-Endotypen besser zu definieren,             Asthma Exazerbation als Haupttreiber der        Registers sind im Gegensatz zu den MIRA-
       peutische Maßnahmen zu ergreifen.            haben wir den MIRACUM-DIZ-Datensatz              Schwere der Erkrankung.                         CUM Daten speziell zu Forschungszwecken
                                                    um Elemente von Asthma- und COPD-Pa-                                                             erhoben worden und bilden dadurch einen
                                                    tient:innen erweitert, wobei insbesondere        COPD: Unterschiede zwischen                     Goldstandard. Wir konnten die wichtigsten
                                                    Parameter der Lungenfunktionsmessung zu          Patient:innen mit und ohne Alpha-1-             Ergebnisse reproduzieren: Beispielsweise ist
                                                    nennen sind. Alle Universitätskliniken, die      Antitrypsin-Mangel                              bekannt, dass Patient:innen mit AATM ein er-
                                                    an MIRACUM teilnehmen, bieten bereits bei          Mittlerweile haben sich durch die enge Zu-    höhtes Risiko für Lungenemphysemen und
                                                    Erwachsenen- und/ oder Kinderasthma-/            sammenarbeit mit Klinikern an den Stand-        Bronchiektasien im Vergleich mit Patient:in-
                                                    COPD-Patient:innen eine (spezialisierte) Be-     orten Freiburg, Marburg und Mannheim            nen ohne AATM aufweisen, was sich auch in
                                                    treuung an. Insgesamt erwarten wir mehr als      mehrere wissenschaftliche Fragestellungen       den MIRACUM Analysen gezeigt hat. Umge-
                                                    3.500 Fälle pro Jahr. Hier zeigt sich der Vor-   ergeben, die kurz davor sind publiziert zu      kehrt konnte wie erwartet kein Unterschied
                                                    teil einer großen Zahl von Zentren, um eine      werden. Ein spezieller Fokus liegt dabei auf    beim Auftreten von Lipoprotein oder Diabe-
                                                    Unterklassifizierung von Patientengruppen        COPD Patient:innen mit einer Erbkrankheit,      tes beobachtet werden. Dies zeigt, dass die
                                                    zu ermöglichen. Die Integration heterogener      Alpha-1-Antitrypsin-Mangel (AATM), der be-      Routinedaten grundsätzlich plausibel sind
                                                    Datenquellen ermöglicht dabei eine tiefe Im-     wirkt, dass die Leberzellen das Enzym Alpha-    und somit, bei vorsichtiger Interpretation, in
                                                    munphänotypisierung.                             1-Antitrypsin fehlerhaft oder in zu geringer    der Forschung verwendet werden können.
                                                       Als Ergebnis werden wir die erste Plattform   Menge bilden oder freisetzen. Dieser Enzym-     Des Weiteren haben wir erste Hinweise auf
                                                    entwickeln, die die klinische Beratung von       mangel kann dann bereits in jungen Jahren       das große Potential der Routinedaten zur
                                                    Asthma-/ COPD-Patient:innen basierend auf        eine COPD auslösen, wodurch sich solche         Unterstützung der Gewinnung neuer medi-
                                                    klinischem Clustering ermöglicht. Dies wird      Patient:innen grundlegende von anderen          zinischer Erkenntnisse gefunden: Der Anteil

10   miracum                                                                                                                                                                                          11
FROM DATA TO KNOWLEDGE - STRATIFIZIERTE SUBGRUPPEN FÜR DIE ENTWICKLUNG VON PRÄDIKTIONSMODELLEN - USE CASE 2 - MIRACUM
UC2: From Data to Knowledge –
     Stratifizierte Subgruppen für die Entwicklung von Prädiktionsmodellen

     an Pneumokokken- und Pseudomonasinfek-          die geistigen Fähigkeiten und die Persönlich-
     tionen ist bei Patient:innen mit AATM im Ver-   keit der Patient:innen. Neben diesen hohen      » Prädiktionsmodelle benötigen strukturierte Daten,
     hältnis höher als bei den Patient:innen ohne    Morbiditätsraten sind sie mit einer hohen       die wir innerhalb von MIRACUM liefern können. Dies ist
     AATM. Auch wenn diese Ergebnisse aktuell        Mortalität und hohen sozioökonomischen
                                                                                                     eine essentielle Voraussetzung, um diagnostische und
     noch als Work-In-Progress zu sehen sind,        Kosten verbunden. Eine präzise Tumordiag-
     könnte diese Beobachtung einen Hinweis          nostik ist daher von zentraler Bedeutung für    therapeutische Ansätze in der Präzisionsmedizin mit
     auf unterschiedliche Infektionsprofile und      die richtige Behandlung der Patient:innen.      Hilfe von KI optimieren zu können. «
     damit unterschiedliche klinische Behand-           Bis heute ist die korrekte Diagnose von      Till Acker
     lungsfokusierungen liefern.                     Hirntumoren herausfordernd, was die Not-
                                                     wendigkeit hervorhebt, unsere Fähigkeit
     Asthma & COPD: Der Einfluss von                 zur Diagnose und adäquaten Therapie             unschätzbarer Vorteil. Zu den wichtigsten
     chronischen Lungenerkrankungen                  von Hirntumoren zu verbessern. Moderne          Fragen gehört die Untersuchung neuartiger
     auf den Verlauf von hospitalisierten            Hochdurchsatzanalysen von großen Hirn-          Tumor-Untergruppen und ihrer klinischen
     Patient:innen mit COVID-19                      tumor-Kohorten haben gezeigt, dass DNA-         Verläufe. Für die klinische Anwendung wird
        Im Zuge der COVID-19 Pandemie haben          Methylierung als robuste Methode zur Klas-      schließlich entscheidend sein, ob methylie-
     sich neue Fragestellungen entwickelt, für       sifizierung verschiedener Tumoreinheiten        rungsbasierte Hirntumorklassen Ärzt:innen
     die Use Case 2 bereits wichtige Vorarbeiten     und zur Entdeckung neuartiger, molekular        dabei unterstützen können, Patient:innen,
     geleistet hatte: Wie wird der Verlauf der CO-   unterschiedlicher Tumorsubtypen verwen-         die wahrscheinlich innerhalb der nächsten
     VID-19 Erkrankung im Krankenhaus durch          det werden kann. Hierbei werden pro Hirn-       12 Monate versterben werden, zuverlässiger
     chronische Lungenerkrankungen wie Asth-         tumor parallel bis zu 850.000 DNA-Methy-        zu identifizieren, um sie besser palliativ ver-
     ma und COPD beeinflusst? Um dies zu ad-         lierungsstellen untersucht und analysiert. In   sorgen zu können.
     ressieren, wurde der Use Case 2 Datensatz       Zusammenarbeit mit dem Deutschen Krebs-           Durch Analyse dieser hochkomplexen
     für Asthma und COPD um COVID-19 relevante       forschungszentrum (DKFZ) in Heidelberg          Daten mit Techniken des Deep Learning
     Parameter wie Beatmungsdauer und Kran-          kombinieren wir darauf aufbauend DNA-met-       werden Schlüsselfragen zu den Auswirkun-
     kenhausmortalität erweitert. Erste vorläufige   hylierungsbasierte integrative Hirntumordi-     gen der verfeinerten, integrativen histomo-
     Ergebnisse zeigen, dass der Anteil an Asthma    agnosen mit klinischen und longitudinalen       lekularen Diagnostik auf die Therapie und
     Patient:innen innerhalb der COVID-19 Kohor-     Schlüsselparametern, um den Einfluss der        den Outcome von Hirntumorpatient:innen
     te unter der deutschlandweiten Prävalenz        molekularen Hirntumor-Klassifikation auf        beantwortet. Da auch in anderen medizi-
     liegt, während dies bei COPD Patient:innen      die Diagnostik und Behandlung von neuro-        nischen Bereichen verstärkt molekulare
     nicht der Fall ist.                             onkologischen Patient:innen zu untersuchen.     Messungen aus Hochdurchsatzverfahren
                                                        Mit 7.000 Neuerkrankungen pro Jahr in        (omics), wie z.B. zur DNA-Methylierung oder
     Hirntumore im Visier                            Deutschland gehören Hirntumore zu den           NGS (next generation sequencing) Verfah-

                                                                                                                                                              Foto: iStock/luchschen
        Das zweite medizinische Anwendungsfeld       selteneren Tumorerkrankungen, was die           ren, verwendet werden, betrachten wir die
     liegt im Bereich der Hirntumore. Sie haben      Identifizierung von Subtypen weiter er-         beschriebenen Analysen dementsprechend
     einen direkten und zutiefst beeinträchtigen-    schwert. Die Größe des MIRACUM Konsor-          als beispielhaft und zentral für weitere zu-
     den Einfluss auf die kognitiven Funktionen,     tiums ist hierbei für unsere Forschung ein      künftige Anwendungen.

12   miracum                                                                                                                                                                           13
UC2: From Data to Knowledge –
     Stratifizierte Subgruppen für die Entwicklung von Prädiktionsmodellen

                                                                             N    eue Techniken des maschinellen Lernens
                                                                                  sollen komplexere Mechanismen und
                                                                             Muster identifizieren, um Empfehlungen für
                                                                                                                              » Eine zentrale Datenbank
                                                                                                                              wäre ein sehr prominenter
                                                                             individuellere Behandlungen von Patient:in-      Angriffspunkt und
                                                                             nen geben zu können. Um neue Erkenntnisse        sollte womöglich schon
                                                                             zu generieren, sind diese Verfahren aber auf
                                                                                                                              aus Sicherheitsgründen
                                                                             große, freiwillig gespendete Datenmengen
                                                                             (Stichwort „Big Data“) angewiesen. Durch die     vermieden werden. «
                                                                             Erarbeitung eines Datenschutzkonzeptes an
                                                                             den einzelnen Standorten des MIRACUM Kon-
                                                                             sortiums ist es möglich, die sensiblen Patien-
                                                                             tendaten unterschiedlicher Standorte mithilfe
                                                                             verteilten Rechnens mit DataSHIELD zu analy-
                                                                             sieren und Prädiktionsmodelle zu entwickeln.

                                                                             Die Analyse soll zu den Daten                    Patient:innen zu. Dabei werden die teilneh-
                                                                                Der große Datenschatz, der derzeit verteilt   menden Institutionen (Krankenhäuser) zu
                                                                             auf die zehn Universitätskliniken im MIRA-       einem Analysenetzwerk verbunden, so dass
                                                                             CUM Konsortium liegt, soll nicht in einen zen-   Wissenschaftler:innen über die Plattform
                                                                             tralen Speicher zusammengeführt, sondern         Analysen in den teilnehmenden Krankenhäu-
                                                                             verteilt über alle Standorte für Auswertungen    sern durchführen können, ohne Individual-
                                                                             genutzt werden. So kann die notwendige kri-      daten der Patient:innen zu sehen.
                                                                             tische Masse an Daten für die Beantwortung
     Internationale Kooperationen                                            bestimmter Fragestellungen zustande kom-         Das Projekt DataSHIELD
                                                                             men. Das Motto und datenschutzrechtliche           Um solche Analysen durchzuführen, muss
     auf dem Weg zum verteilten                                              Grundkonzept des MIRACUM Konsortiums             eine entsprechend sichere Infrastruktur zwi-
                                                                             lautet daher „Wir wollen nicht die Daten zur     schen den Kliniken aufgebaut werden. Eine
     maschinellen Lernen                                                     Analyse bringen, sondern die Analysen zu         Forschergruppe aus England hat auf diesem
                                                                             den Daten.“ D.h. Analysen werden dezentral       Gebiet bereits Pionierarbeit geleistet und die
                                                                             durchgeführt, ohne dass Kliniken die Patien-     Open-Source-Software „DataSHIELD“ ent-
     Valide Prädiktionsmodelle, wie sie in Use Case 2 entwickelt werden      tendaten selbst herausgeben müssen. Viele        wickelt (Gaye et al. 2014, Budin-Ljøsne et al.
     sollen, benötigen große Datenmengen, welche oftmals nur durch           der Algorithmen zur Datenauswertung lassen       2015). Diese Software bietet bereits verschie-
     die Kombination diverser Datenquellen erstellt werden können. Die       sich so umformulieren, dass sie auch auf ver-    dene Verfahren an, die zum statistischen
     Herausforderung besteht im Extrahieren relevanter Subgruppen aus        teilte Daten angewendet werden können.           Handwerkszeug gehören. Angefangen bei
     heterogenen Datenquellen – dafür kooperiert MIRACUM jetzt auch             Zwischen- und Endergebnisse dieser Ana-       der Berechnung einfacher Kennzahlen, wie
     mit Pionieren aus Newcastle.                                            lysen lassen keine Rückschlüsse auf einzelne     Durchschnittswerten oder Häufigkeiten, bis

14   miracum                                                                                                                                                                   15
UC2: From Data to Knowledge –
     Stratifizierte Subgruppen für die Entwicklung von Prädiktionsmodellen

                                    VERTRAUENSWÜRDIGE NETZE

                                                                                                                                                                         Dieser Queue-Poll-
                                      FIREWALL                                  FIREWALL                FIREWALL            FIREWALL                                     Mechanismus erlaubt es
                                                                                                                                                                         Krankenhäusern einfach
                                          KLINIKUM A Krankenhausnetzwerk                                                        KLINIKUM B Krankenhausnetzwerk
                                                                                                                                                                         einem Analysenetzwerk
                                                                                                                                                                         beizutreten, ohne
                                            Forschungs-        Analyse                                                           Analyse         Forschungs-             die bestehenden
                                             datenbank          Client                                                            Client          datenbank
                                                                                                                                                                         Sicherheitsstandards der
                                                                                  Krankenhaus-            Krankenhaus-                                                   Institutionen absenken zu
                                                                                  subnetzwerk             subnetzwerk                                                    müssen. Auf diese Weise
                                                                                                                                                                         werden im MIRACUM
                                           Berechnungs-          POLL                QUEUE                   QUEUE                 POLL         Berechnungs-             Konsortium mehrere
                                              Server            Server               Server                  Server               Server           Server
                                                                                                                                                                         Standorte sicher zu einem
                                                                                                                                                                         vertrauenswürdigen
                                                                                                                                                                         Netzwerk verbunden.

     hin zu komplexeren Regressionsmodellen.          dann im lokalen Netzwerk bereit zu stellen.     Vertrauenswürdige Netzwerke                    Kernentwicklerteam (Prof. Paul Burton, Dr.
     Zusätzlich zu diesen fertigen Analyseverfah-     Dies würde aus Sicherheitsgründen in einem      generieren                                     Olly Butters und Dr. Rebecca Wilson) initiiert.
     ren bietet DataSHIELD aber auch eine flexible    deutschen Universitätsklinikum durch die          Dieser Queue-Poll-Mechanismus erlaubt        Dieses nahm den Konzeptvorschlag sofort
     Infrastruktur, um neue Arten von Analysen zu     vor dem Klinikumsnetzwerk eingerichtete         es Krankenhäusern, einfach einem Analyse-      positiv auf, und reagierte mit einer freund-
     entwickeln, die dann auf vernetzte, aber über    Firewall abgewiesen. Dieses Problem wurde       netzwerk beizutreten, ohne die bestehen-       lichen Aufnahme in die DataSHIELD-Entwi-
     mehrere Standorte verteilte Datenbestände        vom MIRACUM Use Case 2 Team gelöst, in-         den Sicherheitsstandards der Institutionen     ckler:innen-Community. Nach dieser ersten
     angewendet werden können. Hier setzen die        dem eine DataSHIELD Erweiterung konzipiert      absenken zu müssen. Weiterhin erfasst der      Abstimmung konnten die MIRACUM-Ent-
     Use Case 2 Kernentwickler:innen aus Frei-        und implementiert wurde, welche diesen          Mechanismus jede Anfrage und bietet die        wicklungen schon im November 2018 beim
     burg (Biometrie: Maschinelles Lernen) und        Analysen-Verteilungs-/Zugriffsweg umdreht.      Möglichkeit, nur bestimmten Analyse Cli-       internationalen DataSHIELD-Workshop in
     Erlangen (Medizininformatik: sichere IT-Inf-        Die mit einem zentralen Client erstellten    ents (aus anderen Institutionen) eine Anfra-   Newcastle (UK) präsentiert werden. Es ergab
     rastruktur) an und bringen ihre Expertise ein.   Analysen werden zunächst außerhalb in ei-       ge zu erlauben. Auf diese Weise werden im      sich auch ein Einblick in weitere EU-Projek-
                                                      ner Warteschlange (Queue) abgelegt. Inner-      MIRACUM Konsortium mehrere Standorte           te, die ihrerseits Gesundheitsdaten dezentral
     Erweiterung des DataSHIELD-                      halb des Netzwerks fragt ein Prozess diese      sicher zu einem vertrauenswürdigen Netz-       analysieren wollen. Europaweit gibt es meh-
     Werkzeugkastens                                  Warteschleife ständig ab, um zu prüfen, ob      werk verbunden.                                rere Studien, die DataSHIELD einsetzen und
        Um die Analysen zu den Datenbeständen         dort eine neue auszuführende Analyse be-                                                       mit ihrem Feedback helfen, die Software zu
     in einem Netzwerk an die einzelnen Standor-      reitgestellt wurde. Eine dort abgelegte Ana-    DataSHIELD-Community                           verbessern und auch weitere Gruppen, die
     te zu bringen, nutzt das Original DataSHIELD-    lyse wird dann von diesem Prozess mittels         Um diese Erweiterung in die DataSHIELD-      neue Funktionalitäten beisteuern. Das von
     Konzept einen Zugriff auf das jeweilige Klini-   eines, über die Firewall erlaubten Prozesses,   Community zu bringen, wurde bereits im Mai     der EU und vom kanadischen Gesundheits-
     kumsnetzwerk von außen, um die Analysen          von außen hinein geholt (Poll).                 2018 ein erstes Abstimmungstreffen mit dem     ministerium geförderte und 2019 angelaufe-

16   miracum                                                                                                                                                                                           17
UC2: From Data to Knowledge –
     Stratifizierte Subgruppen für die Entwicklung von Prädiktionsmodellen

                                                                       Julian Gründner (M.
                                                                       Sc., Erlangen) und
                                                                                                   Fokus: chronische Lungenerkrankungen              genauen Wirkmechanismen zu erforschen.
                                                                       Stefan Lenz (M. Sc.,        und Hirntumore                                    Dafür entwickelte die Freiburger Biometrie ein
                                                                       Freiburg) präsentieren         Gemäß dem Motto „Learning by doing“            neues Werkzeug zum Finden von Einflussfak-
                                                                       ihre DataSHIELD             wird der Fokus zuerst auf die zwei bereits        toren für DataSHIELD, das seit 2019 an Hirn-
                                                                       Erweiterungen auf dem       vorgestellten Erkrankungsgruppen Asthma/          tumordaten erprobt werden kann.
                                                                       DataSHIELD Workshop im      COPD und Hirntumore gelegt, um die neuen            Diese selbst gestellten Herausforderun-
                                                                       November 2018
                                                                                                   Techniken zu entwickeln und zu erproben.          gen dienen auch der Motivation, um eine
                                                                       in Newcastle.
                                                                                                   Diese beiden Projekte stellen die Beteiligten     nachhaltige und flexible Dateninfrastruktur
                                                                                                   vor verschiedene Herausforderungen.               aufzubauen, damit Forschung und Pati-
                                                                                                      Im Bezug auf Daten von Asthma/COPD-Pa-         ent:innen von dem verstreuten Datenschatz
                                                                                                   tient:innen hat man es vor allem mit Daten        profitieren. So wird darauf hin gearbeitet,
                                                                                                   aus dem klinischen Routinebetrieb zu tun.         Werkzeuge bereit zu stellen, damit Ärzt:in-

                                                                                                                                                                                                      Foto: iStock/dem10; Wilson
                                                                                                   Hier ist eine enge Zusammenarbeit zwischen        nen und Biolog:innen Krankheiten genauer
     nen EUCAN-Connect-Projekt arbeitet daran,      tuellen Stand verfasst. DataSHIELD wurde       Klinikern, Biostatistikern und Medizininfor-      verstehen können und individuellere Be-
     mittels DataSHIELD eine Datenplattform         dabei als diejenige Lösung identifiziert,      matikern notwendig, um relevante Frage-           handlungen ermöglicht werden, ohne dass
     nach den Richtlinien der FAIR-Data-Initiati-   die aktuell bereits für die meisten Einsatz-   stellungen, dafür geeignete Auswertungs-          dabei der Schutz der Gesundheitsdaten ver-
     ve aufzubauen.                                 zwecke verwendet werden kann. Aus die-         verfahren und Daten zu identifizieren und         nachlässigt wird.
                                                    sem Grund wird innerhalb der MII nun all-      aus den Krankenhausinformationssystemen
     TMF Task Force Verteilte Analysen              gemein empfohlen, DataSHIELD an allen          so zu extrahieren. Mittlerweile haben sich
       Das Thema „Verteilte Analysen“ spielt        Standorten zur Verfügung zu stellen. Seit-     durch die enge Zusammenarbeit mit Klini-
     für die gesamte MII eine große Rolle. 2020     dem haben sich bereits einzelne Standorte      kern an den Standorten Freiburg, Marburg
     wurden z wei eintägige Workshops zu            anderer Konsortien an unser Use Case 2         und Mannheim mehrere wissenschaftliche
     diesem Thema veranstaltet, bei der die         Team gewandt, um die von MIRACUM ent-          Fragestellungen ergeben, die kurz davor sind
     verschiedenen Konsortien der MII bishe-        wickelte Queue-Poll-Lösung zu nutzen. Al-      publiziert zu werden.                               DataShield Literatur
     rige Lösungensansätze präsentiert und          lerdings ist ein weiteres Ergebnis der Task                                                        Budin-Ljøsne I, Bur ton P, Isaeva J,
     Vor- und Nachteile vergleichend diskutiert     Force, dass DataSHIELD in einigen Berei-       Freiburger Biometrie entwickelt                     Gaye A, Turner A, Murtagh MJ, et al.:
     wurden. Neben dem Ansatz DataSHIELD            chen aktuell nicht einsatzbar ist, wie z.B.    neues Werkzeug                                      DataSHIELD: an ethically robust solu-
     von MIRACUM sind insbesondere der Per-         beim Record-Linkage oder bei der Zusam-          Für die Patient:innen mit Hirntumoren lie-        tion to multiple-site individual-level
     sonal Health Train und Secure Multi Party      menführung sehr kleiner Fallzahlen. MIRA-      gen ebenfalls umfangreiche genetische Daten         data analysis. Public Health Genomics.
     Computation zu nennen. Im Nachgang des         CUM hat daraufhin Kontakt mit dem Kern-        vor. Dabei gilt es, aus dieser unüberblickbaren     2015;18(2):87-96.
     Workshops wurde von der TMF die Task           entwicklerteam in England aufgenommen,         Menge genetischer Merkmale Hinweise auf             Gaye A, Marcon Y, Isaeva J, LaFlamme P,
     Force Verteilte Analysen gegründet, in der     das großes Interesse an einer Kooperation      diejenigen Eigenschaften herauszufinden, die        Turner A, Jones EM, Minion J et al.: Da-
     Use Case 2 durch Harald Binder und Da-         mit den anderen Ansätzen bekundet hat. Es      einen Einfluss auf die Schwere der Erkrankung       taSHIELD: taking the analysis to the data,
     niela Zöller aus Freiburg vertreten wird.      gibt also Bewegung rund um DataSHIELD,         bzw. die Heilungschancen haben könnten.             not the data to the analysis. Int J Epide-
     Hier wurden die Ergebnisse zusammen-           zu der auch die deutsche Entwicklungsiniti-    Diese Hinweise können dann in Laborexpe-            miol. 2014 Dec;43(6):1929-44.
     gefasst und eine Stellungnahme zum ak-         ative durch MIRACUM-Elan beigetragen hat.      rimenten weiter untersucht werden, um die

18   miracum                                                                                                                                                                                                                       19
UC2: From Data to Knowledge –
     Stratifizierte Subgruppen für die Entwicklung von Prädiktionsmodellen

     MIRACUM ist eine riesige Chance
     für Diagnostik und Therapie
     Nach drei Jahren MII, in der zumeist infrastrukturelle Vorarbeiten
     geleistet wurden, kommt der praktische Nutzen dieses
     Großprojektes für die Mediziner langsam in der Klinik an.
     PD Dr. Sebastian Fähndrich, Leitender Oberarzt in der Pneumologie
     des Universitätsklinikums Freiburg, berichtet aus ärztlicher Sicht.
                                                                                                                                                        Medizininformatiker:innen. Die müssen mit-
                                                                                                      PD Dr. Sebastian Fähndrich:
     INTERVIEW MIT PD Dr. Sebastian Fähndrich, Universitätsklinikum Freiburg                                                                            genommen werden und verstehen, welche
                                                                                                      „Bessere Datenlage verspricht
                                                                                                      verbesserte Therapien.“                           klinischen Parameter wichtig sind, so dass
                                                                                                                                                        sie in das DIZ einfließen müssen. Das ist das
                                                                                                                                                        Wunderbare an MIRACUM – die Schnittstel-
     Welche Daten interessieren Sie besonders,      zu wenige Daten gibt. Die MIRACUM Arbei-          Zusammenhänge erfahren, die für das Risiko-       len zwischen Ärzt:innen und Informatiker:in-
     die durch die MII in greifbare Nähe gekom-     ten liefern eine tolle Datenbank, die uns die     management, Diagnostik und die Therapie           nen funktionieren – wir können uns aufein-
     men sind?                                      Möglichkeit eröffnet, retrospektiv enorme         von enormer Bedeutung sind.                       ander verlassen, darauf dass wir über die
        Oh, da muss ich nicht lange überlegen.      Fallzahlen auszuwerten, um mit diesen ge-                                                           gleichen Datensätze und -inhalte sprechen.
     Lungenfunktionsdaten, Diagnosen, Neben-        wonnenen Erkenntnissen Patient:innen zu-          Ich stelle es mir schwierig genug vor, sich
     diagnosen, Keime und in naher Zukunft das      künftig besser behandeln zu können.               mit Ärzt:innen der eigenen Station auf die        Profitieren die Patient:innen schon heute da-
     Auslesen von Arztbriefen. Natürlich müssen        Sehen Sie, Patient:innen kommen mit einer      beste Behandlung zu einigen. Wie sieht eine       von, dass sich im Hintergrund der Kliniken
     der Datenschutz mit an Bord und die Ethik-     schweren Vorerkrankung zu uns. COPD, die          Abstimmung über verschiedene Standorte            bereits an so vielen unterschiedlichen Stellen
     kommission sowie das Data Use & Access         sogenannte Raucherlunge, ist eine Volkser-        hinweg aus?                                       abgestimmt wird?
     Committe glücklich sein. Dann können wir       krankung und betrifft sehr viele Menschen.           Das ist tatsächlich kein Problem. Wir halten     Das ist heute vielleicht doch noch ein
     daran gehen, die Daten wissenschaftlich zu     Seit wenigen Jahren wissen wir, dass die          uns an die Leitlinien der Lungenheilkunde,        wenig zu früh, um Genaueres zu sagen.
     nutzen, während die Patient:innen gleichzei-   chronische Raucherlunge eine System- und          auch speziell für die COPD – zu Schweregrad,      Konkret profitieren werden sie ab dem Zeit-
     tig ein gutes Gefühl haben.                    auch Umwelterkrankung ist. Das bedeutet,          Behandlung etc. Behandlungs-Leitlinien sol-       punkt, wenn neue Erkenntnisse einfließen
                                                    sie betrifft eben nicht nur die Lunge. Partikel   len mit dem Wissen, welches wir durch die         und die ersten Studien ausgewertet sind.
     Und diese Möglichkeiten eröffnen die           wandern aus der Lunge durch den Körper            Auswertung der MIRACUM-Daten erwerben,            MIRACUM ist eher eine Plattform, die uns
     Nutzung der Datenintegrationszentren in        und lagern sich in Gefäßen und Organen ein,       hinterfragt und aktualisiert werden.              ermöglicht, für Risikofaktoren, Diagnostik
     MIRACUM?                                       wo sie überall im Körper kleine Entzündun-           Das ermöglicht, die gewonnenen Erkennt-        und Therapie zu schauen, welche Frage-

                                                                                                                                                                                                         Foto: Seehstern
       MIRACUM ist eine wirklich tolle Sache für    gen auslösen. Mit MIRACUM bekommen wir            nisse auch in die Diagnostik und Behandlung       stellungen in Zukunft beantwortet werden
     Diagnostik und Therapie. In der Medizin ha-    Zugriff auf so viele Patient:innen und Daten      der Patient:innen einfließen zu lassen. Wich-     müssen, um Patient:innen wirkungsvoll
     ben wir oft das Problem, dass es für Vieles    rings um die Patient:innen, so dass wir neue      tig und neu ist die Zusammenarbeit mit den        auch präventiv zu schützen.

20   miracum                                                                                                                                                                                                               21
UC2: From Data to Knowledge –
     Stratifizierte Subgruppen für die Entwicklung von Prädiktionsmodellen

                                                                                                 MIRACUM Konsortiums, dessen Ziel es ja          riabilität der Originaldaten abbilden, indem
                                                                                                 ist, personalisierte Vorhersagemodelle für      ein Modell der statistischen Verteilung der
                                                                                                 die medizinische Behandlung zu erstellen.       Daten erstellt wird. Tiefe Techniken des Deep
                                                                                                 Dazu sollen die Daten mehrerer MIRACUM          Learnings können sich sehr flexibel unter-
                                                                                                 Standorte gemeinsam analysiert werden.          schiedlichen Datenverteilungen annähern.
                                                                                                 Aktuell ist es allerdings noch so, dass diese   In MIRACUM verwenden wir unter anderem
                                                                                                 aus Datenschutzgründen nicht zusammen-          einen der populärsten generativen Ansätze,
                                                                                                 geführt werden dürfen. Im Rahmen der tech-      sogenannte Variational Autoencoder (VAE).
                                                                                                 nischen Lösungen, die wir zum Umgang mit
                                                                                                 dieser Problematik entwickeln, wollen wir       Wie funktioniert ein Variational
                                                                                                 zunächst Daten chronischer Lungenerkran-        Autoencoder?
                                                                                                 kungen (Asthma und COPD) analysieren und           Die Funktionsweise des VAE kann gut an
                                                                                                 damit im MIRACUM Projekt wissenschaftliche      einem Beispiel erklärt werden: Wir wollen wis-
                                                                                                 Fragestellungen auf Daten von Patient:innen     sen, „wie krank“ ein:e Patient:in ist. Im Idealfall
                                                                                                 mit Hirntumoren untersuchen.                    haben wir für alle Patient:innen ein oder zwei
                                                                                                    Synthetische Daten sind eine Lösung, die     abstrakte Werte, die den Grad der Erkrankung
                                                                                                 zur Überwindung von Datenschutzhürden           repräsentieren. Damit könnten wir Daten für
                                                                                                 genutzt werden können. Synthetische Daten       virtuelle Patient:innen generieren, indem wir
                                                                                                 sind Daten, die keine echten Daten enthalten,   plausible Werte für eine oder zwei Dimensio-
                                                                                                 sondern lediglich allgemeine Merkmale und       nen auswählen.
                                                                                                 statistische Beziehungen echter Daten nach-        In der realen Welt werden Krankheiten je-
                                                                                                 bilden. Für die Datennutzung in der Forschung   doch durch viele verschiedene beobachtete
                                                                                                 bedeutet dies, dass pro Standort virtuelle      Symptommuster gekennzeichnet. Deshalb
     Die virtuellen Patient:innen                                                                Patientendaten erstellt werden, die nicht an    wollen wir von Mustern, die in realen Mes-
                                                                                                 die Daten einzelner Patient:innen gebunden      sungen, Beobachtungen oder Symptomen
     Rigide Datenschutzbestimmungen machen in Deutschland der                                    sind. Solche Daten können dann gemeinsam        zu sehen sind, auf eine kleine Anzahl dieser
     Forschungslandschaft oftmals schwer zu schaffen. Um dennoch mit                             genutzt werden und ermöglichen den Einsatz      niedrigdimensionalen Werte abbilden. Diese
     eigenen Daten forschen zu können, prüft das Team des Use Case 2, ob                         statistischer Standardanalysen, oder auch       latenten Merkmale werden im Grunde nie di-
     synthetische Daten Teil der Lösung werden können.                                           Techniken der künstlichen Intelligenz.          rekt beobachtet, also treffen wir einige plau-
                                                                                                                                                 sible Annahmen, um ein Muster zu finden.
                                                                                                 Generative Modelle                              Wir nehmen zum Beispiel an, dass wir, wenn

     D    er Schutz von Gesundheitsdaten ist
          wichtig, da sie personenbezogene Da-
     ten beinhalten, die sowohl Patient:innen
                                                    dererseits jedoch ein kritisches Hindernis
                                                    für den Zugang zu Patientendaten, die zur
                                                    Verbesserung der Gesundheitsversorgung
                                                                                                   Für die Erzeugung synthetischer Daten
                                                                                                 aus realen Daten ist eine Art statistischer
                                                                                                 oder maschineller Lernansatz erforderlich.
                                                                                                                                                 wir den Krankheitswert aller Individuen in
                                                                                                                                                 einem Häufigkeitsdiagramm aufzeichnen,
                                                                                                                                                 eine Normalverteilung oder Gaußsche Glo-
     als auch deren Familienangehörige betref-      genutzt werden könnten. Dieses Problem       Konkret verwenden wir generative Modelle,       ckenkurve haben. Gemäß dieser Annahme
     fen. Datenschutzbestimmungen bilden an-        adressieren wir auch im Use Case 2 des       welche die systematische und zufällige Va-      können wir dann aus den Daten die Trans-

22   miracum                                                                                                                                                                                           23
UC2: From Data to Knowledge –
     Stratifizierte Subgruppen für die Entwicklung von Prädiktionsmodellen

     formation lernen, die Messungen, Beobach-        Daten ist die Vitalkapazität, welche bei Frau-     Um die jeweils beste Transformation für
     tungen und Symptome in die latenten Krank-       en und Männern aufgrund der verschiedenen        die Daten zu finden, benutzen wir Maß-
     heitswerte transformiert.                        Körpergrößen unterschiedlich ist. Wenn man       zahlen, die anzeigen, ob deren Verteilung
       Für den nächsten Schritt stelle man sich       nun die Verteilung aufzeichnet, ist sie daher    glockenförmig ist oder ob es sich um eine
     vor, dass ein:e Mediziner:in Messungen, Beob-    nicht mehr glockenförmig, sondern eher           andere Verteilung handelt. Nach diesen
     achtungen und Symptome von Patient:innen         eine Kombination aus zwei Glockenkurven,         Maßzahlen kann man die besten Parameter
     mit bestimmten Erkrankungen mit anderen          welche durch eine Kerbe getrennt wären. Da       für die Transformation in eine glockenförmi-
     Wissenschaftler:innen diskutieren möchte,        wir realistische virtuelle Patient:innen haben   ge Verteilung finden. Durch die Anwendung
     natürlich ohne den Datenschutz zu verlet-        wollen, müssen wir in der Lage sein, plausible   dieser Transformationen, kombiniert mit
     zen. Mit den latenten Krankheitswerten für       Werte für derartige Verteilungen zu erzeugen.    der Verwendung des VAEs mit Normalver-
     verschiedene Individuen ist es möglich, eine     Wir müssen in den erwähnten Labordaten           teilungsannahme und der Verwendung von
     weitere Transformation vom Krankheitswert        die kleineren Werte für Frauen im Vergleich      Rücktransformationen erhalten wir nun syn-
                                                                                                                                                        Kiana Farhadyar (M. Sc.)
     zurück zu passenden Messungen, Sympto-           zu Männern in der Vitalkapazität in unseren      thetische Daten für anspruchsvollere Arten
     men oder Diagnosen zu lernen. Damit kön-         virtuellen Patient:innen wiederfinden, um sie    von Verteilungen. Auf diese Weise können
     nen schließlich plausibel gewählte latente       für weitere Forschungen nutzbar zu machen.       wir realistische Daten virtueller Patient:in-
     Krankheitswerte virtueller Patient:innen         Leider haben wir festgestellt, dass VAEs dazu    nen für viele verschiedene Anwendungen
     zurücktransformiert werden, so dass sie wie      neigen, Daten zu erzeugen, die einer Glocken-    erstellen. Diese Methode führen wir unter
     plausible Patientendaten aussehen.               kurve folgen, auch wenn die Eingabe anders       dem Namen Pre-transformation Variational         Berechnung einfacher Kennzahlen, wie
                                                      aussieht. Daher mussten wir eine neue Lö-        Autoencoder (PTVA).                              Durchschnittswerten oder Häufigkeiten, bis
     Herausforderungen bei der                        sung entwickeln, welche diese Herausforde-                                                        hin zu komplexeren Regressionsmodellen.
     Verwendung Variational Autoencoder               rung angeht.                                     Die virtuellen Patient:innen in                  Zusätzlich zu diesen fertigen Analysever-
     für klinische Daten                                                                               DataSHIELD                                       fahren bietet DataSHIELD aber auch eine
        Der VAE hat eine eingebaute Normalver-        Unsere Methode: PTVA                                Die Generierung virtueller Patientendaten     flexible Infrastruktur, um neue Arten von
     teilungsannahme. Wir wollen VAEs jedoch            Das Wichtige an den neuen Methoden             muss verteilt über verschiedene MIRACUM-         Analysen zu entwickeln und auf damit ver-
     auch für Daten verwenden, bei denen die ur-      zur synthetischen Datenerzeugung ist, dass       Standorte durchgeführt werden. Dafür und         netzte Daten anzuwenden. Diese können
     sprünglichen Messungen eine ganz andere          sie nicht auf eine einzige Art von Daten zu-     allgemein zur Durchführung gemeinsamer,          wir auch dafür benutzen, um eigene Ansätze
     Form haben könnten. Es gibt zum Beispiel         geschnitten sein sollten. Es ist zum Beispiel    standortübergreifender Analysen benutzen         umzusetzen. Im letzten Jahr konnten wir die
     einige Laborwerte, welche ihr Minimum bei        keine gute Lösung, wenn wir nun einige an-       wir die Software DataSHIELD als Infrastruk-      Generierung synthetische Daten mittels ge-
     Null haben, im Durchschnitt um 50 liegen und     dere Annahmen treffen, welche wiederum           tur. Diese Software ist unter einer Open-        nerativer Modelle bereits an einem anderen
     sich aber bis zu Werten im Tausenderbereich      die Ergebnisse bei tatsächlich glockenför-       Source-Lizenz veröffentlicht und frei nutzbar.   Verfahren, den so genannten Deep Boltz-
     erstrecken können, sodass sie nicht einer        migen Daten verschlechtern würden. Bei der       Das MIRACUM-Team steht in regelmäßigem           mann Machines, in DataSHIELD erproben.

                                                                                                                                                                                                      Foto: Universität Freiburg
     Normalverteilung folgen. Ein anderes Bei-        Methode, die wir entwickeln, ändern wir also     Austausch mit dem Kernentwicklerteam an          Nun werden wir den Werkzeugkasten von
     spiel sind Messungen, die sich zwischen zwei     nicht die Annahmen, sondern versuchen,           der Universität in Newcastle.                    DataSHIELD noch um die VAEs erweitern,
     Gruppen von Personen unterscheiden kön-          Transformationen zu finden, die schwierige          DataSHIELD bietet bereits verschiedene        um qualitativ hochwertige synthetische
     nen, wie es z. B. in Daten zur Lungenfunktion    Datenverteilungen bei Bedarf in glockenför-      Verfahren an, die zum statistischen Hand-        Daten für diverse Verteilungen von Daten
     der Fall ist. Ein typischer Messwert in diesen   mige Verteilungen umwandeln können.              werkszeug gehören, angefangen bei der            erstellen zu können.

24   miracum                                                                                                                                                                                                                       25
UC2: From Data to Knowledge –
     Stratifizierte Subgruppen für die Entwicklung von Prädiktionsmodellen

                                                                                           Zum Weiterlesen ...
                                                                                           Publikation, die im Use Case 2 entstanden sind:

                                                                                           1. Farhadyar K, Bonofiglio F, Zoeller D, Binder    4. Jaravine V, Balmford J, Metzger P, Boerries
                                                                                             H. Adapting deep generative approaches for         M, Binder H, Boeker M. Annotation of Human

               Ausblick
                                                                                             getting synthetic data with realistic marginal     Exome Gene Variants with Consensus
                                                                                             distributions. export.arXiv.org > stat >           Pathogenicity. Genes 11 (9), 1076 (2020).
                                                                                             arXiv:2105.06907; submitted 14.05.2021             https://doi.org/10.3390/genes11091076
                  In Use Case 2 konnten wir bisher ein breites Spektrum von praktisch
               nutzbaren Techniken entwickeln, wie z.B. Deep Learning-Ansätze. Ein we-     2. Lenz S, Hess M, Binder H. Deep generative       5. Gruendner J, Schwachhofer T, Sippl P, Wolf
               sentliches Erfolgsrezept war dabei der enge Austausch mit Nutzer:innen        models in DataSHIELD. BMC Med Res                  N, Erpenbeck M, Gulden C, Kapsner LA,
               in Klinik und Forschung. Dies ist auch die Basis, um die Entwicklungen im     Methodol 21, 64 (2021). https://doi.               Zierk J, Mate S, Stürzl M, Croner R, Prokosch
               weiteren Projektverlauf noch enger mit dem klinischen Alltag und me-          org/10.1186/s12874-021-01237-6                     HU, Toddenroth D. KETOS: Clinical decision
               dizinischen Fragestellungen zu verzahnen und so das Versprechen von                                                              support and machine learning as a service – A
               künstlicher Intelligenz in der Medizin einzulösen.                          3. Gruendner J, Wolf N, Tögel L, Haller F,           training and deployment platform based on
                                                                                             Prokosch HU, Christoph J. Integrating              Docker, OMOP-CDM, and FHIR Web Services.
                                                                                             Genomics and Clinical Data for Statistical         PLoS ONE 14(10): e0223010. https://doi.
                                                                                             Analysis by Using GEnome MINIng (GEMINI)           org/10.1371/journal.pone.0223010
                                                                                             and Fast Healthcare Interoperability
                                                                                             Resources (FHIR): System Design and              6. Gruendner J, Prokosch HU, Schindler S,
                                                                                             Implementation. JMIR 2020;22:e19879. Doi:          Lenz S, Binder H. A Queue-Poll Extension
                                                                                             10.2196/19879                                      and DataSHIELD: Standardised, Monitored,
                                                                                                                                                Indirect and Secure Access to Sensitive Data.
                                                                                                                                                Stud Health Technol Inform. 2019;258:115-119

26   miracum
Sie können auch lesen