Allergiedaten Analysieren - Heiko Rölke* und Marco Schmid - De Gruyter
←
→
Transkription von Seiteninhalten
Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten
Information. Wissenschaft & Praxis 2020; 71(5–6): 326–330 Datenanalyse Heiko Rölke* und Marco Schmid Allergiedaten Analysieren SOSALL als Beispiel für die interdisziplinäre Zusammenarbeit im DAViS-Zentrum https://doi.org/10.1515/iwp-2020-2120 l’asthme offre un soutien dans tous les domaines de la re- cherche et de l’application des processus d’apprentissage Zusammenfassung: Das Zentrum für Datenanalyse, Vi- automatique, du Big Data, de la visualisation et de la si- sualisierung und Simulation (DAViS) der Partner FH Grau- mulation. Dans l’article, l’analyse de données complexes bünden und Schweizer Institut für Allergie- und Asth- issues du secteur de la santé est présentée à titre d'exem- maforschung bietet Unterstützung in allen Bereichen der ple dans un projet de recherche. Forschung und Anwendung von Maschinellen Lernver- Descripteurs: Big Data, Analyse des données, Apprentis- fahren, Big Data, Visualisierung und Simulation. Im Arti- sage approfondi, Apprentissage automatique, Simulation, kel wird exemplarisch an einem Forschungsprojekt die FHGR, SIAF Analyse komplexer Daten aus dem Gesundheitsbereich dargestellt. Deskriptoren: Big Data, Datenanalyse, Deep Learning, Maschinelles Lernen, Simulation, FHGR, SIAF Einführung Deep Learning, Big Data und Simulationen auf Supercom- Analyzing allergy data putern – das sind nur einige der Themen, mit denen sich SOSALL as an example for the interdisciplinary cooperati- das neue Zentrum für Datenanalyse, Visualisierung und on in the DAViS centre Simulation (DAViS) beschäftigt. Der Kanton Graubünden Abstract: The Center for Data Analysis, Visualization, and hat die Fachhochschule Graubünden (FHGR) und das Simulation (DAViS) at the University of Applied Science of Schweizerische Institut für Allergie- und Asthmafor- the Grisons and the Swiss Center of Allergy and Asthma schung (SIAF) beauftragt, Themen rund um Daten, Life Research supports research on applications in topics like Science und High-Performance Computing gemeinsam zu machine learning, big data, visualization, and simulation. bearbeiten und anderen Forschenden und Industriepart- The paper illustrates complex data analysis of life science nern mit Rat und Tat zur Seite zu stehen. data in a common research project. DAViS vereint drei inhaltliche Schwerpunkte mit drei Umsetzungsbereichen, die das Zentrum schon im Namen Descriptors: Big Data, Data Analysis, Deep Learning, Ma- trägt: Datenanalyse, Visualisierung, Simulation. In diesen chine Learning, Simulation, FHGR, SIAF Schwerpunkten betreibt DAViS eigene Forschung, berät in- terne und externe Interessentinnen und Interessenten als Analyser les données sur les allergies Dienstleistung, bietet Infrastruktur an und beteiligt sich an SOSALL comme exemple pour la coopération interdis- der Lehre an der FH Graubünden und darüber hinaus. ciplinaire au sein du centre DAViS In der Regel werden Forschungsprojekte gemeinsam Résumé: Le Centre d’analyse, de visualisation et de simu- mit externen Partnern angestoßen, können aber durch die lation de données (DAViS) des partenaires FH Graubün- interdisziplinäre Ausrichtung auch intern aufgesetzt wer- den et l’Institut suisse de recherche sur les allergies et den. Alle durch DAViS abgedeckten Bereiche erfordern hohe Rechenleistung und Speicherkapazität. Dafür wird nach und nach eigene Hardware beschafft. Darüber hi- *Kontaktperson: Prof. Dr. Heiko Rölke, Fachhochschule Graubünden, naus ist DAViS eine Kooperation mit dem Schweizer Su- Schweizerisches Institut für Informationswissenschaft, Pulvermühle- percomputing-Center (CSCS) in Lugano eingegangen, so strasse 57, 7000 Chur, Schweiz, E-Mail: heiko.roelke@fhgr.ch Marco Schmid, BSc, Fachhochschule Graubünden, Schweizerisches dass unter anderem auf den „Piz Daint“ zugegriffen wer- Institut für Informationswissenschaft, Pulvermühlestrasse 57, den kann, den momentan sechst-schnellsten Rechner der 7000 Chur, Schweiz, E-Mail: marco.schmid@fhgr.ch Welt.
Heiko Rölke und Marco Schmid, Allergiedaten Analysieren 327 Tabelle 1: Ausschnitt der Analysen zur Zielvariable ‹diagnosis_location›. Feature/Variable Anzahl Beobachtungen Testname p-Wert Gruppen-Mittelwerte post-hoc-Test eczema_ever [60, 56, 52, 49] chi-square 1.86E-43 medication_steroidcreams [60, 54, 52, 49] chi-square 1.48E-40 farmanimal_contact_child [60, 53, 52, 49] chi-square 1.91E-33 farmanimal_contact_mother [60, 53, 52, 48] chi-square 4.23E-32 fuel_cooking_Electricity_Gas [60, 56, 52, 49] chi-square 2.62E-30 medication_antihistamines [60, 54, 52, 49] chi-square 2.94E-25 sunlight_exp_winter [60, 52, 50, 48] kruskal 7.64E-21 AD_Rural=3.138 / Dunn AD_Urban=0.871 / HC_Rural=4.269 / HC_Urban=0.977 sp_any [55, 55, 52, 49] chi-square 3.65E-20 fuel_cooking_Paraffin Stove [60, 56, 52, 49] chi-square 1.89E-19 Die Datenanalyse mittels maschineller Lernverfahren Die umfangreiche Datenanalyse wird gemeinsam von ist in den vergangenen Jahren von einer Nischenanwen- den DAViS-Partnern SIAF und FH Graubünden voran- dung zu einer wichtigen Methode in zahlreichen Anwen- getrieben. In einer kombinierten Analyse der Datensätze, dungsfeldern gereift. Vor allem das Feld des „Deep Lear- die über die bisher verwendeten biostatistischen Metho- ning“, also Lernen mittels künstlicher neuronaler Netze, den hinausgeht, sollen Hinweise gefunden werden, die zu wird in immer mehr Bereichen eingesetzt. Das erfordert einem besseren Verständnis der komplexen Zusammen- allerdings sowohl Fachwissen als auch ausreichend Re- hänge führen, die das Auftreten allergischer Erkrankun- chenleistung für das Training der Algorithmen. Dieses gen vor allem in der Stadt fördern. Zudem sollen Risiko- Hindernis war einer der Gründe für die Gründung und För- faktoren und Biomarker für die Entstehung von Allergien derung von DAViS: Im Zentrum wird sowohl die Expertise identifiziert werden, die zu Präventions-Maßnahmen und gebündelt als auch die Infrastruktur aufgebaut, um ma- verbesserter Diagnostik genutzt werden können. schinelles Lernen erfolgreich in die Praxis zu bringen. Die Analyse ist so aufgebaut, dass Fragebogen und RNA-Daten zuerst getrennt aufbereitet und analysiert wer- den und die Ergebnisse dann anhand der pseudonymisier- Ein Fallbeispiel ten IDs der Probanden zusammengeführt werden. Die Analyse läuft derzeit noch, so dass noch keine abschlie- Ein Beispiel für ein internes Datenanalyse-Projekt zwi- ßenden Ergebnisse genannt werden können. schen SIAF und FH Graubünden ist „MLM-SOS-ALL“, in Die Fragebogenanalyse verwendet sowohl einen dem mit Machine Learning und Modelling nach molekula- „klassischen“ Ansatz mit statistischen Tests als auch ei- ren, genetischen und umweltbedingten Faktoren gesucht nen Ansatz mit Machine Learning. Der Fragebogen um- wird, die für die Entstehung und Verbreitung allergischer fasst die Daten von 210 Probanden. In einem ersten Schritt Krankheiten verantwortlich sind. Die zugrundeliegenden haben wir uns einen Überblick verschafft, unklare Be- Daten wurden vorgängig in der SOS-ALL Studie (South- zeichner abgeklärt und vereinheitlicht, mehrfach verwen- African – Swiss: Mechanisms of the Development of Aller- dete Datenfelder aufgeteilt usw. Der Datensatz weist einen gy) in einem Konsortium aus Schweizerischem Institut für Fehlbestand („missing values“) von ca. 29 Prozent auf. Auslandsforschung (SIAF), Universität Kapstadt, Kinder- Nur ein Teil davon ist strukturell bedingt, einige Daten- spital Zürich und Dermatologischer Klinik des Univer- spalten lassen sich aufgrund des hohen Fehlbestands sitätsspitals Zürich erhoben und bestehen aus einem gro- nicht nutzen. Die Datenvorbereitung („data pre-proces- ßen RNA-Sequenzier-Datensatz und detaillierten Angaben sing“) ergibt einen Datensatz von knapp 20.000 Datenfel- zu den Patienten, ihren Lebensumständen und der Kran- dern. kengeschichte. Die Probanden in der SOS-ALL Studie sind Aus dem so vorbereiteten Datensatz werden für die Kinder aus Stadt und Land, aus der Schweiz und aus Süd- statistische Analyse zuerst Zielvariablen anhand der Va- afrika, mit und ohne atopischer Dermatitis. riablen im Versuchsaufbau ausgesucht, die mit den Wer-
328 Heiko Rölke und Marco Schmid, Allergiedaten Analysieren ten im Fragebogen korrelieren können. In unserem Fall Ein Test auf mehrere miteinander gekoppelte Abhängig- sind dies die Werte „Diagnose“ (also das Vorliegen einer keiten führt aber schon bei einem überschaubaren Daten- atopischen Dermatitis oder nicht), „Wohnort“ (Stadt oder satz wie dem vorliegenden zu einer sehr hohen Anzahl Land) und die Verbindung aus den beiden. Tabelle 1 zeigt von Kombinationsmöglichkeiten – exponentiell auf der für einen kleinen Ausschnitt ausgewählter Werte die Er- Anzahl der Variablen. Dies macht es schwierig, die Über- gebnisse der Analyse. Die tatsächliche Tabelle ist in bei- sicht zu behalten und erfolgsversprechende Analysewege den Dimensionen wesentliche umfangreicher. zu entdecken. Abhilfe schaffen kann hier das Machine Eine solche Tabelle mit allen Variablen und Analyse- Learning, das Teile des Suchens und Ausprobierens auto- werten wird jedoch schnell unübersichtlich, so dass alle matisiert. Ergebnisse mit numerischen Werten auch graphisch dar- Aus der großen Auswahl an Algorithmen im maschi- gestellt werden. Die folgende Graphik in Abbildung 1 zeigt nellen Lernen kommen hierfür vor allem die überwachten beispielsweise das Feature (eine Variable) „log_blood_ Lernalgorithmen (supervised learning) in Frage – zu Hin- count_monocytes“, also der Logarithmus eines spezi- tergründen siehe beispielsweise Igual und Segui (2017). fischen Blutwertes und als Zielvariable „diagnosis_locati- Vor der Anwendung sind aber noch weitere Datenkodie- on“, also die Kombinationen aus Diagnose und Wohn- rungen notwendig, zum Beispiel um nicht-numerische in ort, inklusive der Post-Hoc-Test-Ergebnisse. Dabei stehen numerische Werte umzuwandeln. Dazu wird nach einem schwarze-gestrichelte Linien für signifikante Gruppenun- festen Übertragungsschema jedem Wert eine Zahl eindeu- terschiede (p
Heiko Rölke und Marco Schmid, Allergiedaten Analysieren 329 Abbildung 2: Trainingsdaten und Testdaten. Abbildung 3: Vergleich der besten Prädiktoren.
330 Heiko Rölke und Marco Schmid, Allergiedaten Analysieren rechnung der ‹feature importance›, also der Wichtigkeit Literatur der Variablen, werden iterativ Kombinationen von Varia- blen ausprobiert (stepwise forward selection) und pro Si- Igual, L., Seguí, S. (2017). Introduction to Data Science, Springer- mulation die jeweils beste Kombination als Prädiktor ver- Verlag, DOI 10.1007/978-3-319-50017-1. wendet. Die Simulation wird nacheinander repetitiv auf unterschiedlichen Trainings- und Testdaten ausgeführt. Prof. Dr. Heiko Rölke Dabei wird registriert, welche Variablen pro Simulation Fachhochschule Graubünden früh (oder spät) gewählt werden. Schweizerisches Institut für Abbildung 3 zeigt eine Zusammenfassung aller ver- Informationswissenschaft wendeten Features für die prädiktiven Modelle nach einer Pulvermühlestrasse 57 vorgegebenen Anzahl Simulationen. Hieraus kann abge- 7000 Chur leitet werden, welche Variablen oft für die Erstellung ei- Schweiz nes möglichst guten Modells herangezogen werden. Dies heiko.roelke@fhgr.ch sind teilweise vielversprechende Objekte für weitere Ana- lysen, teilweise sieht man schon als Laie, dass einige der Prof. Dr. Heiko Rölke wurde an der Universität Hamburg in Informatik Variablen nicht für die Analyse geeignet sind, zum Bei- promoviert und ist seit 2017 Dozent für Data Science an der FH Grau- spiel gleich die Erste (eczema_ever_yes), die fast der ei- bünden. Seine Schwerpunkte liegen in der Modellierung und Analyse komplexer, verteilter und nebenläufiger Systeme. Seine Forschungs- gentlichen Diagnose entspricht. Andere Variablen sind interessen liegen im Bereich der Modellierung, Implementierung und vielversprechender, wie der Kontakt mit landwirtschaftli- insbesondere Analyse von verteilten Systemen – speziell Multiagen- chen Tieren als Kind, die durchschnittliche Zeit, die drau- tensystemen – und formalen Modellierungs- und Analysetechniken. ßen verbracht wird, und einige weitere. Marco Schmid, BSc Fazit Fachhochschule Graubünden Schweizerisches Institut für Informationswissenschaft Wie schon in der Einleitung geschrieben, laufen die Ana- Pulvermühlestrasse 57 lysen derzeit noch, so dass an dieser Stelle noch keine Er- 7000 Chur gebnisse genannt werden können. Eine wichtige Lehre Schweiz war die Bedeutung der engen Zusammenarbeit mit Domä- marco.schmid@fhgr.ch nenexperten, um die Analyse laufend neu ausrichten zu können. Einige zuerst gefundene Ergebnisse stellten sich Marco Schmid studierte Sport an der Universität Basel und nahm als sinnlos heraus, da die Variablen nicht voneinander nach einigen Jahren in der Sportwissenschaftlichen Forschung ein unabhängig waren. Durch die enge Kooperation im DA- Zweitstudium an der ZHAW Zürich in Umweltingenieurwesen auf, in ViS-Zentrum mit den Experten für Life Science am SIAF dem er sich mit der Datenanalyse beschäftigte. Nach seinem Bache- wurde dies schnell entdeckt und behoben. Hilfreich für ei- lor arbeitete er in der Privatwirtschaft als Data Scientist und Ent- ne gute Zusammenarbeit über die Disziplingrenzen hin- wicklungsingenieur. Seit Juli 2019 ist Marco Schmidt wissenschaftli- weg ist die intuitive Visualisierung der Ergebnisse. Da- cher Mitarbeiter im Schweizerischen Institut für Informationswissenschaft (SII). durch werden eine Grundlage für die schnelle Erfassung der Ergebnisse gelegt und Diskussionen ermöglicht. Vi- sualisierungen spielen nicht nur im DAViS-Zentrum eine wichtige Rolle, sondern werden zukünftig auch im Bache- lor und insbesondere im Master-Studium der Informati- onswissenschaft an der FH Graubünden eine tragende Rolle spielen.
Sie können auch lesen