Allergiedaten Analysieren - Heiko Rölke* und Marco Schmid - De Gruyter

Die Seite wird erstellt Noel Diehl
 
WEITER LESEN
Allergiedaten Analysieren - Heiko Rölke* und Marco Schmid - De Gruyter
Information. Wissenschaft & Praxis 2020; 71(5–6): 326–330

Datenanalyse

Heiko Rölke* und Marco Schmid

Allergiedaten Analysieren
SOSALL als Beispiel für die interdisziplinäre Zusammenarbeit im DAViS-Zentrum

https://doi.org/10.1515/iwp-2020-2120                                 l’asthme offre un soutien dans tous les domaines de la re-
                                                                      cherche et de l’application des processus d’apprentissage
Zusammenfassung: Das Zentrum für Datenanalyse, Vi-                    automatique, du Big Data, de la visualisation et de la si-
sualisierung und Simulation (DAViS) der Partner FH Grau-              mulation. Dans l’article, l’analyse de données complexes
bünden und Schweizer Institut für Allergie- und Asth-                 issues du secteur de la santé est présentée à titre d'exem-
maforschung bietet Unterstützung in allen Bereichen der               ple dans un projet de recherche.
Forschung und Anwendung von Maschinellen Lernver-
                                                                      Descripteurs: Big Data, Analyse des données, Apprentis-
fahren, Big Data, Visualisierung und Simulation. Im Arti-
                                                                      sage approfondi, Apprentissage automatique, Simulation,
kel wird exemplarisch an einem Forschungsprojekt die
                                                                      FHGR, SIAF
Analyse komplexer Daten aus dem Gesundheitsbereich
dargestellt.

Deskriptoren: Big Data, Datenanalyse, Deep Learning,
Maschinelles Lernen, Simulation, FHGR, SIAF
                                                                      Einführung
                                                                      Deep Learning, Big Data und Simulationen auf Supercom-
Analyzing allergy data
                                                                      putern – das sind nur einige der Themen, mit denen sich
SOSALL as an example for the interdisciplinary cooperati-
                                                                      das neue Zentrum für Datenanalyse, Visualisierung und
on in the DAViS centre
                                                                      Simulation (DAViS) beschäftigt. Der Kanton Graubünden
Abstract: The Center for Data Analysis, Visualization, and            hat die Fachhochschule Graubünden (FHGR) und das
Simulation (DAViS) at the University of Applied Science of            Schweizerische Institut für Allergie- und Asthmafor-
the Grisons and the Swiss Center of Allergy and Asthma                schung (SIAF) beauftragt, Themen rund um Daten, Life
Research supports research on applications in topics like             Science und High-Performance Computing gemeinsam zu
machine learning, big data, visualization, and simulation.            bearbeiten und anderen Forschenden und Industriepart-
The paper illustrates complex data analysis of life science           nern mit Rat und Tat zur Seite zu stehen.
data in a common research project.                                        DAViS vereint drei inhaltliche Schwerpunkte mit drei
                                                                      Umsetzungsbereichen, die das Zentrum schon im Namen
Descriptors: Big Data, Data Analysis, Deep Learning, Ma-
                                                                      trägt: Datenanalyse, Visualisierung, Simulation. In diesen
chine Learning, Simulation, FHGR, SIAF
                                                                      Schwerpunkten betreibt DAViS eigene Forschung, berät in-
                                                                      terne und externe Interessentinnen und Interessenten als
Analyser les données sur les allergies
                                                                      Dienstleistung, bietet Infrastruktur an und beteiligt sich an
SOSALL comme exemple pour la coopération interdis-
                                                                      der Lehre an der FH Graubünden und darüber hinaus.
ciplinaire au sein du centre DAViS
                                                                          In der Regel werden Forschungsprojekte gemeinsam
Résumé: Le Centre d’analyse, de visualisation et de simu-             mit externen Partnern angestoßen, können aber durch die
lation de données (DAViS) des partenaires FH Graubün-                 interdisziplinäre Ausrichtung auch intern aufgesetzt wer-
den et l’Institut suisse de recherche sur les allergies et            den. Alle durch DAViS abgedeckten Bereiche erfordern
                                                                      hohe Rechenleistung und Speicherkapazität. Dafür wird
                                                                      nach und nach eigene Hardware beschafft. Darüber hi-
*Kontaktperson: Prof. Dr. Heiko Rölke, Fachhochschule Graubünden,     naus ist DAViS eine Kooperation mit dem Schweizer Su-
Schweizerisches Institut für Informationswissenschaft, Pulvermühle-
                                                                      percomputing-Center (CSCS) in Lugano eingegangen, so
strasse 57, 7000 Chur, Schweiz, E-Mail: heiko.roelke@fhgr.ch
Marco Schmid, BSc, Fachhochschule Graubünden, Schweizerisches
                                                                      dass unter anderem auf den „Piz Daint“ zugegriffen wer-
Institut für Informationswissenschaft, Pulvermühlestrasse 57,         den kann, den momentan sechst-schnellsten Rechner der
7000 Chur, Schweiz, E-Mail: marco.schmid@fhgr.ch                      Welt.
Allergiedaten Analysieren - Heiko Rölke* und Marco Schmid - De Gruyter
Heiko Rölke und Marco Schmid, Allergiedaten Analysieren       327

Tabelle 1: Ausschnitt der Analysen zur Zielvariable ‹diagnosis_location›.

Feature/Variable                 Anzahl Beobachtungen          Testname         p-Wert           Gruppen-Mittelwerte     post-hoc-Test
eczema_ever                      [60, 56, 52, 49]              chi-square       1.86E-43
medication_steroidcreams         [60, 54, 52, 49]              chi-square       1.48E-40
farmanimal_contact_child         [60, 53, 52, 49]              chi-square       1.91E-33
farmanimal_contact_mother        [60, 53, 52, 48]              chi-square       4.23E-32
fuel_cooking_Electricity_Gas     [60, 56, 52, 49]              chi-square       2.62E-30
medication_antihistamines        [60, 54, 52, 49]              chi-square       2.94E-25
sunlight_exp_winter              [60, 52, 50, 48]              kruskal          7.64E-21         AD_Rural=3.138 /        Dunn
                                                                                                 AD_Urban=0.871 /
                                                                                                 HC_Rural=4.269 /
                                                                                                 HC_Urban=0.977
sp_any                           [55, 55, 52, 49]              chi-square       3.65E-20
fuel_cooking_Paraffin Stove      [60, 56, 52, 49]              chi-square       1.89E-19

     Die Datenanalyse mittels maschineller Lernverfahren                      Die umfangreiche Datenanalyse wird gemeinsam von
ist in den vergangenen Jahren von einer Nischenanwen-                    den DAViS-Partnern SIAF und FH Graubünden voran-
dung zu einer wichtigen Methode in zahlreichen Anwen-                    getrieben. In einer kombinierten Analyse der Datensätze,
dungsfeldern gereift. Vor allem das Feld des „Deep Lear-                 die über die bisher verwendeten biostatistischen Metho-
ning“, also Lernen mittels künstlicher neuronaler Netze,                 den hinausgeht, sollen Hinweise gefunden werden, die zu
wird in immer mehr Bereichen eingesetzt. Das erfordert                   einem besseren Verständnis der komplexen Zusammen-
allerdings sowohl Fachwissen als auch ausreichend Re-                    hänge führen, die das Auftreten allergischer Erkrankun-
chenleistung für das Training der Algorithmen. Dieses                    gen vor allem in der Stadt fördern. Zudem sollen Risiko-
Hindernis war einer der Gründe für die Gründung und För-                 faktoren und Biomarker für die Entstehung von Allergien
derung von DAViS: Im Zentrum wird sowohl die Expertise                   identifiziert werden, die zu Präventions-Maßnahmen und
gebündelt als auch die Infrastruktur aufgebaut, um ma-                   verbesserter Diagnostik genutzt werden können.
schinelles Lernen erfolgreich in die Praxis zu bringen.                       Die Analyse ist so aufgebaut, dass Fragebogen und
                                                                         RNA-Daten zuerst getrennt aufbereitet und analysiert wer-
                                                                         den und die Ergebnisse dann anhand der pseudonymisier-
Ein Fallbeispiel                                                         ten IDs der Probanden zusammengeführt werden. Die
                                                                         Analyse läuft derzeit noch, so dass noch keine abschlie-
Ein Beispiel für ein internes Datenanalyse-Projekt zwi-                  ßenden Ergebnisse genannt werden können.
schen SIAF und FH Graubünden ist „MLM-SOS-ALL“, in                            Die Fragebogenanalyse verwendet sowohl einen
dem mit Machine Learning und Modelling nach molekula-                    „klassischen“ Ansatz mit statistischen Tests als auch ei-
ren, genetischen und umweltbedingten Faktoren gesucht                    nen Ansatz mit Machine Learning. Der Fragebogen um-
wird, die für die Entstehung und Verbreitung allergischer                fasst die Daten von 210 Probanden. In einem ersten Schritt
Krankheiten verantwortlich sind. Die zugrundeliegenden                   haben wir uns einen Überblick verschafft, unklare Be-
Daten wurden vorgängig in der SOS-ALL Studie (South-                     zeichner abgeklärt und vereinheitlicht, mehrfach verwen-
African – Swiss: Mechanisms of the Development of Aller-                 dete Datenfelder aufgeteilt usw. Der Datensatz weist einen
gy) in einem Konsortium aus Schweizerischem Institut für                 Fehlbestand („missing values“) von ca. 29 Prozent auf.
Auslandsforschung (SIAF), Universität Kapstadt, Kinder-                  Nur ein Teil davon ist strukturell bedingt, einige Daten-
spital Zürich und Dermatologischer Klinik des Univer-                    spalten lassen sich aufgrund des hohen Fehlbestands
sitätsspitals Zürich erhoben und bestehen aus einem gro-                 nicht nutzen. Die Datenvorbereitung („data pre-proces-
ßen RNA-Sequenzier-Datensatz und detaillierten Angaben                   sing“) ergibt einen Datensatz von knapp 20.000 Datenfel-
zu den Patienten, ihren Lebensumständen und der Kran-                    dern.
kengeschichte. Die Probanden in der SOS-ALL Studie sind                       Aus dem so vorbereiteten Datensatz werden für die
Kinder aus Stadt und Land, aus der Schweiz und aus Süd-                  statistische Analyse zuerst Zielvariablen anhand der Va-
afrika, mit und ohne atopischer Dermatitis.                              riablen im Versuchsaufbau ausgesucht, die mit den Wer-
328          Heiko Rölke und Marco Schmid, Allergiedaten Analysieren

ten im Fragebogen korrelieren können. In unserem Fall              Ein Test auf mehrere miteinander gekoppelte Abhängig-
sind dies die Werte „Diagnose“ (also das Vorliegen einer           keiten führt aber schon bei einem überschaubaren Daten-
atopischen Dermatitis oder nicht), „Wohnort“ (Stadt oder           satz wie dem vorliegenden zu einer sehr hohen Anzahl
Land) und die Verbindung aus den beiden. Tabelle 1 zeigt           von Kombinationsmöglichkeiten – exponentiell auf der
für einen kleinen Ausschnitt ausgewählter Werte die Er-            Anzahl der Variablen. Dies macht es schwierig, die Über-
gebnisse der Analyse. Die tatsächliche Tabelle ist in bei-         sicht zu behalten und erfolgsversprechende Analysewege
den Dimensionen wesentliche umfangreicher.                         zu entdecken. Abhilfe schaffen kann hier das Machine
     Eine solche Tabelle mit allen Variablen und Analyse-          Learning, das Teile des Suchens und Ausprobierens auto-
werten wird jedoch schnell unübersichtlich, so dass alle           matisiert.
Ergebnisse mit numerischen Werten auch graphisch dar-                   Aus der großen Auswahl an Algorithmen im maschi-
gestellt werden. Die folgende Graphik in Abbildung 1 zeigt         nellen Lernen kommen hierfür vor allem die überwachten
beispielsweise das Feature (eine Variable) „log_blood_             Lernalgorithmen (supervised learning) in Frage – zu Hin-
count_monocytes“, also der Logarithmus eines spezi-                tergründen siehe beispielsweise Igual und Segui (2017).
fischen Blutwertes und als Zielvariable „diagnosis_locati-         Vor der Anwendung sind aber noch weitere Datenkodie-
on“, also die Kombinationen aus Diagnose und Wohn-                 rungen notwendig, zum Beispiel um nicht-numerische in
ort, inklusive der Post-Hoc-Test-Ergebnisse. Dabei stehen          numerische Werte umzuwandeln. Dazu wird nach einem
schwarze-gestrichelte Linien für signifikante Gruppenun-           festen Übertragungsschema jedem Wert eine Zahl eindeu-
terschiede (p
Heiko Rölke und Marco Schmid, Allergiedaten Analysieren   329

Abbildung 2: Trainingsdaten und Testdaten.

Abbildung 3: Vergleich der besten Prädiktoren.
330         Heiko Rölke und Marco Schmid, Allergiedaten Analysieren

rechnung der ‹feature importance›, also der Wichtigkeit           Literatur
der Variablen, werden iterativ Kombinationen von Varia-
blen ausprobiert (stepwise forward selection) und pro Si-         Igual, L., Seguí, S. (2017). Introduction to Data Science, Springer-
mulation die jeweils beste Kombination als Prädiktor ver-              Verlag, DOI 10.1007/978-3-319-50017-1.
wendet. Die Simulation wird nacheinander repetitiv auf
unterschiedlichen Trainings- und Testdaten ausgeführt.                                     Prof. Dr. Heiko Rölke
Dabei wird registriert, welche Variablen pro Simulation                                    Fachhochschule Graubünden
früh (oder spät) gewählt werden.                                                           Schweizerisches Institut für
     Abbildung 3 zeigt eine Zusammenfassung aller ver-                                     Informationswissenschaft
wendeten Features für die prädiktiven Modelle nach einer                                   Pulvermühlestrasse 57
vorgegebenen Anzahl Simulationen. Hieraus kann abge-                                       7000 Chur
leitet werden, welche Variablen oft für die Erstellung ei-                                 Schweiz
nes möglichst guten Modells herangezogen werden. Dies                                      heiko.roelke@fhgr.ch
sind teilweise vielversprechende Objekte für weitere Ana-
lysen, teilweise sieht man schon als Laie, dass einige der        Prof. Dr. Heiko Rölke wurde an der Universität Hamburg in Informatik
Variablen nicht für die Analyse geeignet sind, zum Bei-           promoviert und ist seit 2017 Dozent für Data Science an der FH Grau-
spiel gleich die Erste (eczema_ever_yes), die fast der ei-        bünden. Seine Schwerpunkte liegen in der Modellierung und Analyse
                                                                  komplexer, verteilter und nebenläufiger Systeme. Seine Forschungs-
gentlichen Diagnose entspricht. Andere Variablen sind
                                                                  interessen liegen im Bereich der Modellierung, Implementierung und
vielversprechender, wie der Kontakt mit landwirtschaftli-         insbesondere Analyse von verteilten Systemen – speziell Multiagen-
chen Tieren als Kind, die durchschnittliche Zeit, die drau-       tensystemen – und formalen Modellierungs- und Analysetechniken.
ßen verbracht wird, und einige weitere.

                                                                                           Marco Schmid, BSc

Fazit                                                                                      Fachhochschule Graubünden
                                                                                           Schweizerisches Institut für
                                                                                           Informationswissenschaft
Wie schon in der Einleitung geschrieben, laufen die Ana-
                                                                                           Pulvermühlestrasse 57
lysen derzeit noch, so dass an dieser Stelle noch keine Er-
                                                                                           7000 Chur
gebnisse genannt werden können. Eine wichtige Lehre
                                                                                           Schweiz
war die Bedeutung der engen Zusammenarbeit mit Domä-
                                                                                           marco.schmid@fhgr.ch
nenexperten, um die Analyse laufend neu ausrichten zu
können. Einige zuerst gefundene Ergebnisse stellten sich
                                                                  Marco Schmid studierte Sport an der Universität Basel und nahm
als sinnlos heraus, da die Variablen nicht voneinander
                                                                  nach einigen Jahren in der Sportwissenschaftlichen Forschung ein
unabhängig waren. Durch die enge Kooperation im DA-               Zweitstudium an der ZHAW Zürich in Umweltingenieurwesen auf, in
ViS-Zentrum mit den Experten für Life Science am SIAF             dem er sich mit der Datenanalyse beschäftigte. Nach seinem Bache-
wurde dies schnell entdeckt und behoben. Hilfreich für ei-        lor arbeitete er in der Privatwirtschaft als Data Scientist und Ent-
ne gute Zusammenarbeit über die Disziplingrenzen hin-             wicklungsingenieur. Seit Juli 2019 ist Marco Schmidt wissenschaftli-
weg ist die intuitive Visualisierung der Ergebnisse. Da-          cher Mitarbeiter im Schweizerischen Institut für
                                                                  Informationswissenschaft (SII).
durch werden eine Grundlage für die schnelle Erfassung
der Ergebnisse gelegt und Diskussionen ermöglicht. Vi-
sualisierungen spielen nicht nur im DAViS-Zentrum eine
wichtige Rolle, sondern werden zukünftig auch im Bache-
lor und insbesondere im Master-Studium der Informati-
onswissenschaft an der FH Graubünden eine tragende
Rolle spielen.
Sie können auch lesen