Informatik Spektrum Data Analytics - Organ der Gesellschaft für Informatik e.V. und mit ihr assoziierter Organisationen - Meine GI
←
→
Transkription von Seiteninhalten
Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten
Organ der Gesellschaft für Informatik e.V. Band 42 • Heft 6 • Dezember 2019 und mit ihr assoziierter Organisationen Informatik Spektrum Data Analytics 123
INHALT Informatik Spektrum Band 42 | Heft 6 | Dezember 2019 Organ der Gesellschaft für Informatik e.V. und mit ihr assoziierter Organisationen EDITORIAL Wolfgang E. Nagel, Thomas Ludwig 385 Data Analytics HAUPTBEITRÄGE Göran Kauermann 387 Data Science – Einige Gedanken aus Sicht eines Statistikers Ivo F. Sbalzarini 394 Big-Data Analytics transformiert die Lebenswissenschaften Andreas Wierse, Michael Beigl 401 Praktische Anwendungen der Smart Data Analytics ERRATUM Andreas Wierse, Michael Beigl 409 Erratum HAUPTBEITRÄGE Niklas Röber, Michael Böttinger 410 Visuelle Analyse großer Daten in der Klimaforschung 419 Olga Mordvinova, Sandra Nieves Dateninhalte besser begreifen mit Data Storytelling 322 Big Data Analytics am INTERVIEW Centrum für Systembiologie Fabian J. Theis, Thomas Ludwig Dresden (CSBD) 429 Munich School for Data Science (MUDS) – Eine Graduiertenschule für Data Science in München HAUPTBEITRAG Thomas Ludwig, Wolfgang E. Nagel, Ramin Yahyapour 432 Das Ökosystem der Datenwissenschaften AKTUELLES SCHLAGWORT Tony Hey, Anne Trefethen 441 The Fourth Paradigm 10 Years On FORUM Stefan Ullrich, Debora Weber-Wulff 448 Gewissensbits – wie würden Sie urteilen? Ursula Sury 451 Identitäten in der virtuellen Welt Reinhard Wilhelm 453 Geladen bis zum Limit EDITORIAL Stefan Schulte, Boris Koldehofe, Andreas Reinhardt, Torsten Braun 455 Grußwort der Gastherausgeber zum Thema Fog Computing 123 457 Mitteilungen der Gesellschaft für Informatik 260. Folge Aus Vorstand und Präsidium/Presse- und Öffentlichkeitsarbeit der GI/ Aus den GI-Gliederungen/Tagungsankündigungen/LNI-Neuerscheinungen/ Bundeswettbewerb Informatik/GI-Veranstaltungskalender
Informatik Spektrum Organ der Gesellschaft für Informatik e.V. und mit ihr assoziierter Organisationen Hauptaufgabe dieser Zeitschrift ist die Weiterbil- der Schweiz oder eines Staates der Europäischen Prof. Dr. H. Federrath, Universität Hamburg dung aller Informatiker durch Veröffentlichung Gemeinschaft ist, kann unter bestimmten Voraus- Prof. Dr. G. Goos, KIT Karlsruhe aktueller, praktisch verwertbarer Informationen setzungen an der Ausschüttung der Bibliotheks- und Prof. O. Günther, Ph. D., Universität Potsdam über technische und wissenschaftliche Fort- Fotokopietantiemen teilnehmen. Nähere Einzelhei- Prof. Dr. D. Herrmann, schritte aus allen Bereichen der Informatik und ten können direkt von der Verwertungsgesellschaft Otto-Friedrich-Universität Bamberg ihrer Anwendungen. Dies soll erreicht werden WORT, Abteilung Wissenschaft, Goethestr. 49, 80336 Prof. Dr. W. Hesse, Universität Marburg durch Veröffentlichung von Übersichtsartikeln und München, eingeholt werden. Dr. Agnes Koschmider, KIT Karlsruhe einführenden Darstellungen sowie Berichten über Die Wiedergabe von Gebrauchsnamen, Han- Dr.-Ing. C. Leng, Google Projekte und Fallstudien, die zukünftige Trends delsnamen, Warenbezeichnungen usw. in dieser Prof. Dr. F. Mattern, ETH Zürich aufzeigen. Zeitschrift berechtigt auch ohne besondere Kenn- Prof. Dr. K.-R. Müller, TU Berlin Es sollen damit unter anderem jene Leser an- zeichnung nicht zu der Annahme, dass solche Namen Prof. Dr. W. Nagel, TU Dresden gesprochen werden, die sich in neue Sachgebiete im Sinne der Warenzeichen- und Markenschutz- Prof. Dr. J. Nievergelt, ETH Zürich der Informatik einarbeiten, sich weiterbilden, sich Gesetzgebung als frei zu betrachten wären und daher Prof. Dr. E. Portmann, Universität Fribourg einen Überblick verschaffen wollen, denen aber von jedermann benutzt werden dürfen. Prof. Dr. F. Puppe, Universität Würzburg das Studium der Originalliteratur zu zeitraubend Prof. Dr. R.H. Reussner, Universität Karlsruhe oder die Beschaffung solcher Veröffentlichungen Prof. Dr. S. Rinderle-Ma, Universität Wien nicht möglich ist. Damit kommt als Leser nicht nur Vertrieb, Abonnement, Versand Prof. Dr. O. Spaniol, RWTH Aachen Papierausgabe: ISSN 0170-6012 der ausgebildete Informatikspezialist in Betracht, Dr. D. Taubner, msg systems ag, München elektronische Ausgabe: ISSN 1432-122X sondern vor allem der Praktiker, der aus seiner Ta- Sven Tissot, Iteratec GmbH, Hamburg Erscheinungsweise: zweimonatlich gesarbeit heraus Anschluss an die wissenschaftliche Prof. Dr. Herbert Weber, TU Berlin Entwicklung der Informatik sucht, aber auch der Den Bezugspreis können Sie beim Customer Studierende an einer Fachhochschule oder Univer- Service erfragen: customerservice@springernature. sität, der sich Einblick in Aufgaben und Probleme com. Die Lieferung der Zeitschrift läuft weiter, wenn der Praxis verschaffen möchte. sie nicht bis zum 30.9. eines Jahres abbestellt wird. Impressum Durch Auswahl der Autoren und der The- Mitglieder der Gesellschaft für Informatik und der Verlag: men sowie durch Einflussnahme auf Inhalt und Schweizer Informatiker Gesellschaft erhalten die Springer, Tiergartenstraße 17, Darstellung – die Beiträge werden von mehreren Zeitschrift im Rahmen ihrer Mitgliedschaft. 69121 Heidelberg Herausgebern referiert – soll erreicht werden, dass Bestellungen oder Rückfragen nimmt jede möglichst jeder Beitrag dem größten Teil der Le- Buchhandlung oder der Verlag entgegen. ser verständlich und lesenswert erscheint. So soll SpringerNature, Kundenservice Zeitschriften, Redaktion: diese Zeitschrift das gesamte Spektrum der Infor- Tiergartenstr. 15, 69121 Heidelberg, Germany Peter Pagel, Vanessa Keinert matik umfassen, aber nicht in getrennte Sparten Tel. +49-6221-345-0, Fax: +49-6221-345-4229, Tel.: +49 611 787 8329 mit verschiedenen Leserkreisen zerfallen. Da die e-mail: customerservice@springernature.com e-mail: Peter.Pagel@springer.com Informatik eine sich auch weiterhin stark ent- Geschäftszeiten: Montag bis Freitag 8–20 h. wickelnde anwendungsorientierte Wissenschaft ist, Bei Adressänderungen muss neben dem Ti- Herstellung: die ihre eigenen wissenschaftlichen und theore- tel der Zeitschrift die neue und die alte Adresse Philipp Kammerer, tischen Grundlagen zu einem großen Teil selbst angegeben werden. Adressänderungen sollten e-mail: Philipp.Kammerer@springer.com entwickeln muss, will die Zeitschrift sich an den mindestens 6 Wochen vor Gültigkeit gemeldet Problemen der Praxis orientieren, ohne die Auf- werden. Hinweis gemäß §4 Abs. 3 der Postdienst- Redaktion Gl-Mitteilungen: gabe zu vergessen, ein solides wissenschaftliches Datenschutzverordnung: Bei Anschriftenänderung Cornelia Winter Fundament zu erarbeiten. Zur Anwendungsori- des Beziehers kann die Deutsche Post AG dem Verlag Gesellschaft für Informatik e.V. (GI) entierung gehört auch die Beschäftigung mit den die neue Anschrift auch dann mitteilen, wenn kein Wissenschaftszentrum, Problemen der Auswirkung der Informatikan- Nachsendeauftrag gestellt ist. Hiergegen kann der Ahrstraße 45, D-53175 Bonn, wendungen auf den Einzelnen, den Staat und die Bezieher innerhalb von 14 Tagen nach Erscheinen Tel.: +49 228-302-145, Fax: +49 228-302-167, Gesellschaft sowie mit Fragen der Informatik- dieses Heftes bei unserer Abonnementsbetreuung Internet: http://www. gi.de, Berufe einschließlich der Ausbildungsrichtlinien widersprechen. e-mail: gs@gi.de und der Bedarfsschätzungen. Elektronische Version Wissenschaftliche Kommunikation: Urheberrecht springerlink.com Anzeigen: Eva Hanenberg Mit der Annahme eines Beitrags überträgt der Au- Abraham-Lincoln-Straße 46 tor Springer (bzw. dem Eigentümer der Zeitschrift, Hinweise für Autoren 65189 Wiesbaden sofern Springer nicht selbst Eigentümer ist) das http://springer.com/journal/00287 Tel.: +49 (0)611/78 78-226 ausschließliche Recht zur Vervielfältigung durch Fax: +49 (0)611/78 78-430 Druck, Nachdruck und beliebige sonstige Verfahren eva.hanenberg@springer.com das Recht zur Übersetzung für alle Sprachen und Hauptherausgeber Länder. Prof. Dr. Dr. h. c.mult. Wilfried Brauer (1978–1998) Satz: Die Zeitschrift sowie alle in ihr enthaltenen Prof. Dr. Arndt Bode, le-tex publishing services GmbH, Leipzig einzelnen Beiträge und Abbildungen sind urhe- Technische Universität München (seit 1999) berrechtlich geschützt. Jede Verwertung, die nicht Prof. Dr. T. Ludwig, Deutsches Klimarechenzentrum GmbH, Hamburg Druck: ausdrücklich vom Urheberrechtsgesetz zugelassen Printforce, ist, bedarf der vorherigen schriftlichen Zustim- (seit 2019) The Netherlands mung des Eigentümers. Das gilt insbesondere für Vervielfältigungen, Bearbeitungen, Übersetzungen, Herausgeber springer.com Mikroverfilmungen und die Einspeicherung und Prof. Dr. S. Albers, TU München Verarbeitung in elektronischen Systemen. Jeder Prof. A. Bernstein, Ph. D., Universität Zürich Eigentümer und Copyright Autor, der Deutscher ist oder ständig in der Bundes- Prof. Dr. T. Braun, Universität Bern © Springer-Verlag GmbH Deutschland, republik Deutschland lebt oder Bürger Österreichs, Prof. Dr. O. Deussen, Universität Konstanz ein Teil von Springer Nature, 2019 A4
EDITORIAL } Wolfgang E. Nagel Thomas Ludwig © Foto: Robert Gommlich Data Analytics Data Analytics ist ein Teil von Data Science und befasst sich mit der Analyse von Ausgangsdaten, um zu neuen Ein- sichten und Handlungsempfehlungen zu gelangen. Als Data Science oder Datengetriebenes Forschen und Entwickeln bezeichnen wir dagegen wissenschaftliche Erkenntnis, die aus allen Aspekten des Lebenszyklus von Daten, von ihrer Entstehung über die Analyse und Archivierung bis zu ihrer Weiterverbreitung, gewonnen wird. Beide Schlagworte sind in der modernen Welt ständigen Anpassungen unterworfen, und wir wollen in diesem Themenheft einen Eindruck des Spektrums von Data Analytics vermitteln. Data Analytics befasst sich also mit der Extraktion von Informationen aus großen Datenmengen. Methodisch kommen hier insbesondere Verfahren der Statistik zum Einsatz. Eine moderne Ausweitung dieser Methoden finden wir im Maschinellen Lernen und insbesondere im Deep Learning. Beide Ansätze versprechen schnelle und effiziente Erkenntnisgewinne, ihr Einsatz ist aber stets auch problematisch, und ihre Aussagekraft muss sorgfältig analysiert werden. Im vorliegenden Themenheft betrachten wir Data Analytics zunächst klassisch vom Standpunkt eines Statistikers. Ihren Einsatz finden solche Methoden sowohl in der Forschung als auch in der Industrie. Der Leser findet Beispiele aus den Lebenswissenschaften und auch aus verschiedenen Bereichen des industriellen Umfelds. Neben den numerischen Varianten der Datenanalyse gibt es auch eine visuelle Analyse. Am Beispiel der Klimaforschung zeigen die Autoren, wie mit großen Datenmengen gearbeitet wird und welche Herausforderungen auf diesem Gebiet zu finden sind. Dabei erzählen Bilder auch Geschichten – eine eigene Variante der Data Analytics, die im Data Story Telling ihren Ausdruck findet. Die Bedeutung von Data Analytics in der Forschung und Entwicklung erfordert auch neue Ausbildungsformen. In München nimmt die Munich School for Data Science dieser Tage ihre Arbeit auf. Ihr Koordinator erläutert die Konzepte dieses Ansatzes. Data Analytics stützt sich auf vorhandene Daten ab. Das gesamte Ökosystem ihrer Erzeugung, Analyse, Ar- chivierung und Verteilung nutzt bestehende Forschungsinfrastrukturen. An zwei ausgewählten Beispielen wird die Einbindung in Data Science dargestellt. Fachgebietsübergreifende Bemühungen auf nationaler Ebene dienen dabei der Strukturierung der Forschungslandschaft und sollen eine vielseitige und langfristige Datennutzung ermöglichen. Die Ideen zu einer datengetriebenen Wissenschaft gehen unter anderem auf eine Veröffentlichung aus dem Jahr 2009 zurück: ,,The Fourth Paradigm: Data-intensive Scientific Discovery“. Ihr Herausgeber Tony Hey blickt im Themenheft zurück auf 10 Jahre Entwicklungsgeschichte dieser Strömung und analysiert den aktuellen Stand. Wolfgang E. Nagel Thomas Ludwig https://doi.org/10.1007/s00287-019-01231-9 Informatik_Spektrum_42_6_2019 385
{ EDITORIAL i Zum Titelbild Big Data Analytics am Centrum eller Realität immersiv betrachtet für Systembiologie Dresden und mittels Computersimulation (CSBD). (kleines Bild, Simulation von Pro- Das Bild zeigt ein Foto aus der teindiffusion in einer Zelle) mo- CAVE des CSBD, wo Embryos (hier delliert und verstanden werden das einer Fruchtfliege) mittel virtu- können. 386 Informatik_Spektrum_42_6_2019
HAUPTBEITRAG / DATA SCIENCE − AUS SICHT EINES STATISTIKERS } Data Science – Einige Gedanken aus Sicht eines Statistikers Göran Kauermann Einleitung Experten. Mehr und mehr Studiengänge mit Ab- Eine etymologische Untersuchung über den Ur- schluss ,,Data Science“ starten, nicht alle davon sind sprung des Begriffs Data Science steht sicher noch von ihrem Curriculum her mit Clevelands allumfas- aus. Aus Sicht der Statistik wird vornehmlich Cleve- senden Blick vereinbar. Und so lange die Definition lands Artikel von 2001 [3] als Namensgeber genannt, von Data Science nicht klar ist, so lange werden auch wobei der Statistiker Jeff Wu bereits 1997 in einem Akkreditierungen von Data-Science-Studiengängen Vortrag vorgeschlagen haben soll, dass man Statistik im Unklaren lassen, welche Ausbildungskomponen- doch besser als Data Science bezeichnen soll. Die ten ein Data-Science-Studiengang haben sollte bzw. vorgeschlagene Definition von Cleveland und Wu haben muss. In [7] wird ein generelles Curriculum baut dabei auf Tukey [13] auf, der 1962 eine Reform vorgeschlagen, was den Blick auf die beiden Kernge- der Statistik forderte, weg von der Mathematik hin biete von Data Science herausarbeitet (siehe auch [6] zur angewandten Wissenschaft der Datenanalyse. In oder [4]). seinem Artikel ,,The future of data analysis“ stellte Betrachtet man die zentralen Werkzeuge im er eine neue Wissenschaft in Aussicht, deren Thema Bereich Data Science, so sind hier sicher statis- das Lernen aus Daten ist. Fast 40 Jahre später de- tische Modelle (Regression in allen Varianten), finiert Cleveland Data Science sehr allgemein als statistisches Lernen und maschinelles Lernen zu die wissenschaftliche Disziplin, um Informationen nennen. Neuerdings sind sicher noch Themen wie aus Daten zu ziehen. In seinem Artikel fordert er Deep Learning zu nennen. Eine strenge Abgrenzung einen Action Plan zur Erweiterung der Statistik in zwischen den unterschiedlichen Methoden kann Richtung Informatik und umgekehrt. Dieser Aufruf kaum gegeben werden. Wohl aber kann man die liegt heute fast 20 Jahre zurück und doch hat er an eher statistisch basierten Verfahren von den eher Aktualität kaum verloren. Clevelands Artikel liest algorithmisch getriebenen Methoden unterschei- sich heute, als wäre er erst gestern geschrieben wor- den. Wir schätzen hier die Unterscheidung zwischen den, und die Notwendigkeit eines Schulterschlusses der What’s-going-on- und der What-happens-next- zwischen Statistik und Informatik im Rahmen von Sichtweise, die ein wenig die Interpretierbarkeit, Data Science ist dringend geboten. Einen histori- aber auch die Anwendbarkeit der Modelle widerspie- schen Abriss dieser Diskussion liefert Donnoho [13]. gelt. Während statistische Modelle Interpretationen Die Aktualität des Themas und das Ringen nach erlauben (,,what’s going on“) und keine ,,Blackbox“ einer Definition auf der einen Seite und hinrei- darstellen, sind Modelle des maschinellen Lernens chend vielseitiger Ausbildung und Forschung auf der anderen Seite sind auch der rote Faden der um- https://doi.org/10.1007/s00287-019-01224-8 fangreichen Ausarbeitung der Royal Society mit dem © Berlin Heidelberg 2019 Titel ,,Dynamics of data science skills“ [12]. Göran Kauermann Data Science ist heute in aller Munde, Unterneh- Institut für Statistik, Ludwigstraße 33, 80537 München men und andere Arbeitgeber suchen die gefragten E-Mail: goeran.kauermann@lmu.de Informatik_Spektrum_42_6_2019 387
{ DATA SCIENCE − AUS SICHT EINES STATISTIKERS entwickeln. Ein paar Gedanken in diese Richtung Zusammenfassung sollen nachfolgend geliefert werden. Data Science ist das neue Schlagwort; nach Big Data und Digitalisierung nun also Data Science. Hype oder Hope Die Stellenbörsen sind voll von Inseraten, Data Den Begriff Data Science findet man heute oftmals Scientists werden händeringend gesucht und in Zusammenhang mit vielen konkurrierenden manch Bewerber fügt heute Data Science in Begriffen wie ,,Big Data“, ,,künstliche Intelligenz“ sein Profil, um seine Jobchancen zu erhöhen. oder ,,maschinelles Lernen“. Um den Hypefak- Doch was ist Data Science eigentlich? Der nach- tor dieser Begriffe zu visualisieren, bedienen wir folgende Beitrag nähert sich der Fragestellung uns der neuen Medien. Abbildung 1 zeigt mithilfe aus der Sichtweise eines Statistikers, ohne dabei von Google Trends die Frequenz der Nachfragen eine finale Definition von Data Science geben zu nach einzelnen Suchbegriffen und deren Verän- wollen. derung über die Zeit. Die Abbildung zeigt die Nachfragehäufigkeit für die oben genannten vier Begriffe seit 2004. ,,Big Data“ (in Blau) zeigt die eher eine algorithmische Blackbox, die aber bei Form des von Gartner vorgeschlagenen ,,Hype Cy- hinreichend vielen Daten zur Vorhersage (,,what cle“. Das Thema ,,Artificial Intelligence“ (in Gelb) happens next“) komplexe Zusammenhänge gut wie- war vor 15 Jahren deutlich gefragt, geriet dann in dergeben. Zwischen diesen Sichtweisen liegt ein Vergessenheit und erlebt heute eine Wiederge- Kontinuum und statistische Modelle fließen ste- burt. Ähnliches gilt für ,,Machine Learning“ (in tig ins maschinelle Lernen über. Und doch scheint Grün), wobei hier die Nachfrage in den letzten es wichtig, die Historien der Herangehensweise im Jahren am stärksten gestiegen ist. Und schließ- Auge zu behalten. Denn nur so lassen sich Statistik lich ist da noch ,,Data Science“ (in Rot), was sich und Informatik erfolgreich zu Data Science weiter- im Aufwärtstrend befindet, aber im Vergleich Abb. 1 Google-Trend-Daten zu den Suchbegriffen: Big Data, Data Science, Artificial Intelligence und Machine Learning, abgerufen am 16.9.2019. (Datenquelle: Google Trends, https://www.Google.com/trends) 388 Informatik_Spektrum_42_6_2019
zu Machine Learning in der Nachfragehäufigkeit lung agiert. Die Begrifflichkeit ,,Science“ ist also hinterherhinkt. gerechtfertigt. Nachfragen bei Google können als Interesse gedeutet werden oder aber auch als Unklarheit. Warum Statistik in der Data Science? Begriffe, deren inhaltliche Bedeutung unklar ist, Wir haben Data Science als die Kombination von hinterfragt man heutzutage gerne durch Google oder Informatik und Statistik dargestellt. Die Rolle der Wikipedia. Insofern kann man aus der obigen Grafik Statistik ist dabei essenziell und soll im Folgenden durchaus auch ablesen, dass Begriffe wie ,,Machine weiter untermauert werden. Im Financial-Times- Learning“, ,,Artificial Intelligence“ und eben auch Magazin schreibt Tim Harford am 28.3.2014: ,,Data Science“ neben generellem Interesse auch eine ,,Statistiker haben die letzten 200 Jahre damit nicht vernachlässigbare Unschärfe in Bezug auf eine verbracht, herauszufinden, welche Fallen auf uns allgemein verständliche Definition haben. Insofern warten, wenn wir versuchen, die Welt durch Da- ist Aufklärung hilfreich. Insbesondere scheint es ten zu verstehen. Die Daten sind heutzutage größer, angebracht aufzuzeigen, was Data Science bedeutet schneller und günstiger, aber wir dürfen nicht so und welche Kompetenzen ein Data Scientist aufwei- tun, als wären die Fallen alle aus dem Weg geräumt.“ sen sollte. Dieser Fragestellung wollen wir aus dem Eine bessere Werbung für Statistik im Bereich Data Blickwinkel eines Statistikers erörtern. Science kann man kaum formulieren und gerade die genannten Fallen sind es, die immer wieder Eine Definition von Data Science neue Herausforderungen bilden. Vor ein paar Jah- Grob gesprochen hat Data Science den Fokus, ren wurde die Statistik zuweilen noch als die etwas aus Daten mit adäquaten Methoden Informa- verstaubte Disziplin angesehen, um Datenanalyse tion zu ziehen. Im weiteren Sinne kann man Data mithilfe von (linearen) Regressionsmodellen zu be- Science auch als ,,datenbasiertes Problemlösen“ treiben. Sie galt bei vielen eher als ein Teilgebiet bezeichnen. Wir ziehen aber hier die erstge- der Mathematik. Dem muss heute vehement wider- nannte und etwas engere Definition vor, bei der sprochen werden. Statistik ist eine eigenständige die Informationsgewinnung aus Daten im Vorder- wissenschaftliche Disziplin und eine der zentralen grund steht. In dieser Sichtweise ist Data Science Säulen von Data Science. Statistik erlaubt es, die eine Kombination aus Statistik und Informa- richtigen Schlüsse aus Daten zu ziehen und Fehlin- tik. Aus der Statistik kommen Komponenten wie terpretationen zu vermeiden. Wir wollen dies mit Regressionsmodellierung, Quantifizierung von Un- einigen konkreten Beispielen demonstrieren. sicherheit, Beurteilung von Validität und Qualität von Daten und vieles mehr. Aus der Informatik 1. Fehlende Daten kommen Methoden des maschinellen Lernens, Zahlreiche Datenanalysen werden durchgeführt, Deep Learning, Unsupervised Learning, High Per- ohne dass eine hinreichende Analyse vorgeschaltet formance Computing, Datenmanagements und wurde, ob aus den Daten überhaupt die Fragestel- weiteres. Darüber hinaus sind Kenntnisse im Be- lung beantwortet werden kann. Ein immer wieder reich Datensicherheit, Datenschutz und Datenethik auftretendes Problem ist dabei das Fehlen von Da- unabdingbar. ten. Damit sind zum einen einzelne Einträge in Die Datenanalysen gehen dabei über das ein- einer (großen) Datenbasis gemeint, zum anderen fache Anwenden von Methoden hinaus. Es sind aber auch das Fehlen von ganzen Spalten, sprich die Anpassungen, Weiterentwicklungen und Erweite- Nichtverfügbarkeit von Variablen. Beides muss bei rungen von Modellen und Algorithmen gefragt, die der Datenanalyse berücksichtigt werden, wie wir durch die Komplexität der Daten getrieben werden. nachfolgend zeigen wollen. Die Statistik hat sich Damit unterscheidet sich der Data Scientist vom dieser Fragestellung ausgiebig gewidmet und es sei ,,einfachen“ Data-Analysten, weil die Herausforde- hier auf zwei Standardwerke verwiesen (siehe [8] rungen an die Datenanalyse groß sind. Nun gibt es oder [10]). Unterschieden wird dabei zwischen keinen Schwellwert, ab dem eine Datenanalyse nicht unterschiedlichen Gründen für das Fehlen von Da- mehr nur ,,Analyse“, sondern schon ,,Science“ ist, teneinträgen. Wenn Dateneinträge komplett zufällig und doch zeigt es, dass Data Science in gewisser fehlen (,,missing completely at random“), so sind Weise an der Grenze zur methodischen Neuentwick- Ergebnisse von Analysen mit den verbleibenden Informatik_Spektrum_42_6_2019 389
{ DATA SCIENCE − AUS SICHT EINES STATISTIKERS Tabelle 1 Fiktive Verkaufszahlen Abb. 2 Variable X beeinflusst Y (links). Üblicherweise gibt es aber mehr Einflussvariablen, die ihrerseits interagieren (rechts) Ein einfaches, fiktives Beispiel soll dies ver- Daten, einer sogenannten ,,complete case analysis“, deutlichen. Wir betrachten einen Händler, der ein zwar nicht effizient, aber zumindest nicht verzerrt. Produkt verkauft, wobei der Händler der Einfachheit Sprich, es wird nicht alle verfügbare Information halber nur zwei Preisregime fährt: hoher Preis bzw. ausgenutzt, die Ergebnisse der Datenanalyse wei- niedriger Preis. Es liegen Verkaufszahlen der letzten sen aber keinen systematischen Fehler auf. Falls das Periode vor, die in Tab. 1 gegeben sind. Fehlen von Dateneinträgen allerdings von den feh- Angegeben ist die durchschnittliche Anzahl an lenden Daten selbst abhängt (sogenanntes ,,missing Verkäufen je Tag. Es zeigt sich, dass eine Erhöhung not at random“), ist Vorsicht geboten. Hier kann des Preises (X) zu einer Reduktion der Verkaufszah- letztendlich keine Aussage über die Validität ei- len je Tag (Y) um 14 Einheiten führt. Der Händler ner Analyse getroffen werden. Eine handhabbare mag geneigt sein daraus eine Preiselastizität zu be- Zwischenstufe liegt vor, wenn das Fehlen eines Da- rechnen. Allerdings wird dabei missachtet, dass der teneintrags nicht von dessen unbeobachteten Wert, Händler kein Monopolist ist, sondern am Markt wohl aber von sonstigen beobachteten Daten ab- Konkurrenz herrscht. Der Einfachheit halber gehen hängt. Dies nennt man ,,missing at random“. Eine wir von nur einem Konkurrenten aus, der seinerseits Analyse der vollständigen Dateneinträge kann hier auch nur zwei Preisregime (W) fährt. Somit liegt falsche Ergebnisse liefern, die aber mit entspre- die Situation vor, wie sie in Tab. 2 (links) dargestellt chender statistischer Methodik korrigiert werden ist. Die Angebotspreise des Konkurrenten (W) sind können. Daher sollte (ja eigentlich muss) vor je- dabei abhängig von den eigenen angebotenen Prei- der Datenanalyse eine statistische Analyse des sen (X), was in Tab. 2 (rechte Seite) veranschaulicht Fehlmusters durchgeführt werden, sprich, es muss wird. Vernachlässigt man den Preis des Konkur- untersucht werden, warum einzelne Dateneinträge renten, so ergeben sich die Daten aus Tab. 1 (z. B. fehlen. (0,4 × 60 + 0,1 × 70)/0,5 = 62). Aus Tab. 2 (links) sieht man, dass eine Erhöhung des firmeneigenen 2. Fehlende Variablen Preises zu einer Absatzreduktion von 20 Einheiten Während wir im vorherigen Abschnitt von einzelnen pro Tag führt. Die zuerst genannten 14 Einheiten aus fehlenden Dateneinträgen gesprochen haben, wollen Tab. 1 sind also eine Unterschätzung der Preiselas- wir hier die Problematik erweitern und auf fehlende tizität, die entsteht, wenn der Preis der Konkurrenz Variablen eingehen. Wir betrachten exemplarisch (W) ignoriert wurde. den Fall, dass wir den Einfluss einer Variablen X Dieses kleine fiktive Beispiel soll verdeutlichen, auf eine Variable Y quantifizieren wollen. Dies ist in dass Datenanalysen den Aspekt der Kausalität nicht Abb. 2 (links) dargestellt. In Realität hat aber nicht ignorieren dürfen. Im konkreten Fall heißt dies, dass nur X einen Einfluss auf Y, sondern auch weitere ein Unternehmen aus den eigenen Verkaufszahlen Größen, nennen wir sie W. Dies ist in Abb. 2 (rechts) niemals eine Preiselastizität berechnen kann, sofern gezeigt. Die Größen W sind dabei nicht beobachtet, das Unternehmen nicht Monopolist ist. Will man die soll heißen, W liegt in der zur Verfügung stehenden Preiselastizität berechnen, so ergeben sich nur drei Datenbasis nicht vor. Ist man nun interessiert an Herangehensweisen. Zum einen kann man versu- dem Einfluss von X auf Y unter Vernachlässigung chen, die Preise der Konkurrenz (also W) mit in die von W, so kann dies aus den verfügbaren Daten nicht Datenbasis und damit in die Datenanalyse aufzuneh- bestimmt werden. men. Zweitens kann man ein Experiment aufsetzen, 390 Informatik_Spektrum_42_6_2019
Tabelle 2 Linke Tabelle: Verkaufszahlen bei Berücksichtigung des Konkurrenz- preises. Rechte Tabelle: Abhängigkeit von unserem Preis (X) und Konkurrenzpreis (W) man versucht also die eigene Preispolitik von der in den Daten. Die Ausarbeitungen von Meng zeigen, Preispolitik der Konkurrenz zu entkoppeln (bzw. in dass Qualität nicht durch Quantität kompensiert statistischem Jargon unabhängig zu machen). Dies werden kann. Sprich, wenn Daten eine schlechte kann zum Beispiel erfolgen, indem man zufällig an Qualität haben und nicht exakt das wiedergeben, unterschiedlichen Tagen mal die eine, mal die an- was gefragt ist, dann nützen auch Terabyte von Da- dere Preispolitik fährt. Man spricht in diesem Fall ten schlechter Qualität nichts, denn die Qualität der von Randomisierung (siehe [11]). Die dritte Mög- Datenanalyse bleibt dürftig. lichkeit ist, mit sogenannten Instrumentalvariablen zu arbeiten. Dies sind Größen, die einen Einfluss auf 4. Statistische Grenzen X – die eigene Preisgestaltung – haben, aber von W Es ist bei aller Dateneuphorie wichtig, die Grenzen – der Preisgestaltung der Konkurrenz – unabhängig von datenbasiertem Schließen zu erkennen und zu sind (siehe [1]). Die einfache Analyse der verfügba- verstehen. Hier kann statistische Argumentation ren Daten, sprich bei Vernachlässigung von W, führt helfen, was wir am Beispiel der Gesichtserkennung aber niemals zum gewünschten Ziel. am Berliner Südkreuz motivieren möchten. Die exakten Details der Studien können dem Abschluss- 3. Qualität versus Quantität bericht der Bundespolizei entnommen werden Die Ausführungen im vorherigen Abschnitt ha- (siehe [2]). Das System wurde als mögliche automa- ben bereits gezeigt, dass Qualität nicht durch tisierte Variante einer Fahndung nach Gewalttätern Quantität ersetzbar ist. Diese Aussage kann man vorgestellt, letztendlich diente es aber wohl eher nicht oft genug unterstreichen. In Meng [9] wird als Datenlieferant, denn als funktionierende Ge- dies aus statistischer Sicht motiviert, wobei wir walttäteridentifizierung bleibt eine automatisierte den zugehörigen Vortrag von Meng ausgespro- Gesichtserkennung in diesem Stil mutmaßlich chen empfehlen (siehe https://www.youtube.com/ immer reine Utopie. Der Bericht zeigt Fehlklassi- watch?v=8YLdIDOMEZs). Es zeigt sich rein fikationen von bestenfalls 0,12 % Falschpositiv (und mathematisch-statistisch, dass die Genauigkeit einer das galt nur in einem eingeschränkten Szenario) und Datenanalyse von drei Faktoren abhängt: ca. 15 % Falschnegativ. Das bedeutet, dass ca. eine(r) von 800 unbescholtenen Bürgerinnen und Bür- 1. Qualität der Daten, gern, welche die Gesichtserkennung durchlaufen, 2. Quantität der Daten, als potenzieller Gewalttäter(in) klassifiziert werden 3. Variabilität der Daten. würde. Bei etwa 100.000 Fahrgästen pro Tag, die den Variabilität weist dabei die unvermeidliche Streuung Bahnhof Südkreuz täglich nutzen und die wir als in den Daten aus. Quantität der Daten ist dabei die unbescholtene Bürger annehmen wollen, bedeutet Größe des Datenumfangs. Qualität der Daten ist die dies ca. 120 (Fehl-)Alarme pro Tag. Insofern stellt (potenzielle) Quelle von systematischer Verzerrung sich die Frage, welche Akzeptanz ein System haben Informatik_Spektrum_42_6_2019 391
{ DATA SCIENCE − AUS SICHT EINES STATISTIKERS kann, bei dem pro Stunde 5 Fehlalarme vorkom- dellierung von einem festen gegebenen Datensatz men. Dennoch hört sich die Fehlklassifikationsrate ausgeht, welcher dann bestmöglich analysiert wird. von knapp 0,12 % erstaunlich gut an. Und selbst Im Bereich Data Science kommt es aber zunehmend wenn diese Rate noch verringert werden könnte, zu über die Zeit wachsenden Datenquellen: Neue auf sagen wir 0,012 %, so verbleiben immer noch Daten werden kontinuierlich protokolliert, die Da- 12 Fehlalarme pro Tag. Soll heißen, ein System die- ten verändern sich oder werden komplexer. Um mit ser Art scheint letztendlich nicht einsetzbar, was derartigen Daten umzugehen, braucht man lernende nicht an der technischen Grenze der Gesichtserken- Systeme, also Analysemethoden, die sich mit den nung liegt, sondern daran, dass die allermeisten der Daten automatisiert verändern. Maschinelles Lernen Bürger glücklicherweise unbescholten sind oder sta- mit seinen vielen Erweiterungen ist hier der Statistik tistisch ausgedrückt die Prävalenz von Gewalttätern weit überlegen. Im Bereich der Statistik sind soge- gering ist. nannte sequenzielle Methoden zwar bekannt (siehe Eine derartige Erkenntnis fällt leicht mit einer zum Beispiel [5]), aber ein Entwicklungsschub, wie hinreichenden ,,statistical literacy“, also mit einem man ihn im Bereich des maschinellen Lernens in hinreichenden Verständnis, wie aus Daten Schlüsse den letzten Jahren gesehen hat, ist in der Statistik gezogen werden können. Dieses Grundverständ- (bisher) ausgeblieben. Aus meiner Sicht besteht hier nis ist im Bereich Data Science von fundamentaler erhebliches Potenzial. Die Errungenschaften der Wichtigkeit, denn nicht alles, was technisch und Informatik mit ihren automatisierten Lernmetho- numerisch machbar ist, ist auch statistisch sinnvoll. den können, ja müssen übertragen werden auf die Was aber statistisch sinnlos ist, ist meist auch falsch. statistische Methodik. Dazu ist die Statistik, anders als Data Science, eine Potenzial liegt auch in der Verschneidung von gut etablierte wissenschaftliche Disziplin, die seit Analysemethoden aus den beiden Disziplinen. Da- über 100 Jahren die Grenzen von datenbasiertem tenanalyse kann als ,,Pipeline“ gesehen werden. Schließen nicht aus den Augen verloren hat. Und in Daten als Input, ein Ergebnis (oder eine Problemlö- Anbetracht dieser Grenzen muss die Frage erlaubt sung) als Output. Mit immer komplexer werdenden sein, ob nicht auch Anwendungen wie vollständi- Daten muss diese Pipeline entsprechend umfängli- ges autonomes Fahren, komplett automatisierte cher werden. Statt einer Pipeline bestehend aus einer Gesichtserkennung oder autonom fliegende Flug- Methode sind Pipelines mit statistischen und ma- taxen an statistische Grenzen stoßen. Aus meiner schinellen Lernkomponenten gefragt. Exemplarisch Sicht ist die Antwort auf diese Frage eindeutig. Das sei hier die Bildverarbeitung genannt. Die Ergeb- heißt nicht, dass man die Dinge nicht weiterverfol- nisse von Bildverarbeitungsalgorithmen können als gen sollte, aber man sollte die Grenzen erkennen, im Input für statistische Modellierung dienen. Statisti- Auge behalten und akzeptieren, dass sie sich tech- sche Modellierung startet damit nicht bei den Daten, nisch nicht lösen lassen. Statistische Gesetze lassen sondern beim Output eines Algorithmus. Die Pipe- sich nun einmal nicht aushebeln. line wird damit modularisiert und mit statistischen Modellen und/oder maschinellem Lernen bestückt. Warum Data Science in der Statistik Aus statistischer Sicht ist dies ein Paradigmenwech- Der vorherige Abschnitt unterstreicht die Bedeutung sel, der im Bereich Data Science aber wegweisend der Statistik im Bereich Data Science. Man kann die und vielleicht auch unumgänglich ist. Argumentation aber auch umdrehen und hinterfra- gen, warum Data Science im Bereich Statistik wichtig Diskussion ist und welche neuen Denkrichtungen hier vonnöten Aus meiner Sicht beschreiten wir einen spannenden sind. An dieser Stelle wäre durchaus eine lange Liste und sehr vielversprechenden Weg. Wir erleben, wie an Punkten zu nennen, die aber ob der Ausrichtung sich eine neue wissenschaftliche Disziplin entwi- der Leserschaft dieses Artikels kurz gehalten ist. ckelt und wir können viel zu ihrem Erfolg beitragen. Einer der grundlegenden Nachteile von klassischer, Data Science ist mehr als Statistik. Und Data Science statistischer Modellierung ist, dass die Daten wei- ist mehr als maschinelles Lernen, Artificial Intelli- testgehend als statistisch angesehen werden. Daraus gence und Big Data, um die Suchbegriffe von oben ergeben sich statische, statistische Modelle. Gemeint noch einmal aufzugreifen. Data Science ist die Kom- ist hiermit, dass eine klassische statistische Mo- bination aus unterschiedlichen Kompetenzen und 392 Informatik_Spektrum_42_6_2019
Methoden und ein allgemeines Herangehen an die 4. De Veaux RD, Agarwal M et al (2017) Curriculum guidelines for undergraduate programs in data science. Annu Rev Stat Appl 4:2.1–2.16 neuen Herausforderungen, wie es die Royal So- 5. Gosh M, Mukhopadhy N, Sen PK (1997) Sequential Estimation. Wiley, New York ciety für UK fordert und forciert [7], wäre auch in 6. Kauermann G, Küchenhoff H (2016) Statistik, data science und big data. AStA Wirtsch Sozialstat Arch 10(2):141–150 Deutschland aus meiner (Statistiker-)Sicht dringend 7. Kauermann G, Seidl T (2018) Data science – A proposal for a curriculum. Int J angeraten. Data Sci Anal 6(3):195–199 8. Little RJA, Rubin DA (2002) Statistical Analysis With Missing Data. Wiley, Hobo- ken, New Jersey 9. Meng XL (2018) Statistical paradises and paradoxes in Big Data (I): Law of large Literatur populations, big data paradox, and the 2016 US Presidential election. Ann Appl 1. Angrist JD, Rubin DB, Imbens GW (1986) Identification of causal effects using Stat 12(2):685–726 instrumental variables. J Am Stat Assoc 91:444–455 10. Molenberghs G, Fitzmaurice G, Kenward MG, Tsiatis A, Verbeke G (2015) Hand- 2. Bundespolizei (2018) Abschlussbericht des Bundespolizeipräsidiums zur biome- book of missing data methodology. CRC Press, Boca Raton trischen Gesichtserkennung. https://www.bundespolizei.de/Web/DE/04Aktuelles/ 11. Montgomery DC (2013) Design and analysis of experiments. Wiley 01Meldungen/2018/10/181011_abschlussbericht_gesichtserkennung.html 12. The Royal Society (2019) Dynamics of data science skills. https://royalsociety.org/ 3. Cleveland WS (2001) Data Science: An action plan for expanding the technical topics-policy/projects/dynamics-of-data-science/, letzter Zugriff: 13.8.2019 areas of the field of statistics. Int Stat Rev 69:21–26 13. Tukey JW (1962) The future of data analysis. Ann Math Stat 33:1–67 Informatik_Spektrum_42_6_2019 393
{ HAUPTBEITRAG / BIG-DATA ANALYTICS Big-Data Analytics transformiert die Lebenswissenschaften Ivo F. Sbalzarini Die Lebenswissenschaften – Biologie, Medizin und Entdeckung von DNS aufgestellt, die Entwicklung Psychologie – sind im Unterschied zu anderen Na- von Merkmalen z. B. in der Tier- und Pflanzenzucht turwissenschaften wie Physik oder Chemie nicht planbar und berechenbar wurde. Die Gemeinsam- theoriegetrieben. In der Physik ist die Theorie den keit dieser Theorien ist, dass sie biologische Prozesse Experimenten oft Jahrzehnte voraus, z. B. in der modellieren, nicht jedoch biologische Systeme. Sie Quantenphysik oder der Relativitätstheorie, und machen Aussagen darüber, wie sich Arten oder auch in der Chemie ist seit der Entdeckung des Pe- Populationen entwickeln, jedoch nicht darüber, riodensystems der Elemente, und insbesondere seit wie das einzelne Lebewesen im Innern funktio- dem Verständnis der Nuklear- und Quantenphysik niert. Systemische Theorien in der Zellbiologie, Mitte des 20. Jahrhunderts, eine theoretische Grund- der Entwicklungsbiologie, der Medizin oder der lage vorhanden, welche die Wissenschaft von der Psychologie sind weitestgehend unbekannt. Alchemie zur modernen Chemie transformierte. Die Gründe dafür sind vielfältig. Erstens sind Aufgrund dieser theoretischen Grundlagen kön- lebende Systeme Nichtgleichgewichtssysteme. Dies nen Physik und Chemie die Dynamik komplexer ist insbesondere seit dem 1944 veröffentlichten Buch Systeme mathematisch modellieren und in nu- von Erwin Schrödinger What Is Life? The Physical merischen Rechnersimulationen dieser Modelle Aspect of the Living Cell bekannt. Thermodyna- Verhalten vorhersagen und Systeme optimieren. misches Gleichgewicht ist nur in lebloser Materie Derart grundlegende und prädiktive Theorien möglich. Lebende Systeme sind offene Systeme, die sind in den Lebenswissenschaften praktisch nicht ständig Masse und Energie aufnehmen, umsetzen vorhanden. und abgeben. Dies erschwert die Formulierung prä- Die Gegenbeispiele, wo solche Theorien doch diktiver physikalischer Theorien lebender Systeme, vorhanden sind, zeigen aber, dass sie grundsätz- denn viel der bekannten Physik basiert auf Gleich- lich möglich sind. Darwins Evolutionstheorie ist so gewichtsannahmen. Zweitens sind lebende Systeme ein Gegenbeispiel. Vor Darwin erschien die Viel- oft über viele Längenskalen gekoppelt, vom Molekül falt der Arten und Lebewesen verwirrend, ihre zum Organismus, und für eine vorhersagekräftige Entstehung mysteriös und Beziehungen zwischen Beschreibung kann keine der Skalen sinnvoll wegge- ihnen waren unbekannt. Durch die einfache Idee der lassen oder vernachlässigt werden. Mathematische Merkmalevolution (,,survival of the fittest“) brachte Darwins Theorie jedoch Struktur und Klarheit, noch https://doi.org/10.1007/s00287-019-01227-5 vor der Entdeckung der molekularen Grundlagen © The Author(s) 2019. Ivo F. Sbalzarini wie DNS, Gene und Aminosäuren. Dank Darwins Technische Universität Dresden, Fakultät Informatik, Institut Theorie können wir mathematische Modelle der für Künstliche Intelligenz, Professur für Wissenschaftliches Rechnen in der Systembiologie, Evolution aufstellen und Stammbäume der Arten Nöthnitzer Str. 46, 01187 Dresden algorithmisch errechnen, auch rückwärts in der Max-Planck-Institut für Molekulare Zellbiologie und Genetik, Zeit. Ähnlich verhält es sich in der Genetik, wo seit Zentrum für Systembiologie Dresden, Pfotenhauerstr. 108, 01307 Dresden Mendels Theorie der Vererbung, ebenfalls vor der E-Mail: sbalzarini@mpi-cbg.de 394 Informatik_Spektrum_42_6_2019
und physikalische Modelle hingegen werden meist Chemie gekoppelten Mechanik stimmen kann [7], auf einer bestimmten Skala formuliert, z. B. die und heute wird auch die Informationsverarbei- Schrödingergleichung auf der atomaren Skala, die tung und die Algorithmik hinzugenommen [12]. Fokker-Planck-Gleichung auf der zellulären Skala Die Systembiologie integriert somit Konzepte der und die Theorien der Kontinuumsmechanik auf der Biophysik und der Informatik mit den Daten der Gewebe- und Organskala. Keine dieser Theorien al- ,,-omik“-Experimente. leine reicht also aus, Prozesse des Lebens zu erklären, Aus Informatiksicht ist diese Integration insbe- und Kopplungen zwischen verschiedenen Theorien sondere aus zwei Aspekten spannend: Zum einen sind Gegenstand aktueller Forschung. Drittens ha- können Informatikmethoden diese Integration er- ben lebende Systeme sehr viele Freiheitsgrade. Dank möglichen oder beschleunigen, z. B. Methoden der Newtons Theorie der Mechanik können wir z. B. die Datenwissenschaften, der Rechnersimulation, der Flugbahn eines Tennisballs oder eines Artilleriege- Bildverarbeitung oder des maschinellen Lernens. schosses vorhersagen und optimieren. Wir können Zum anderen kann ein lebendes System, z. B. ein Ge- aber nicht die Flugbahn eines Vogels erklären oder webe oder ein Organ, auch selbst als ,,Rechner“, als vorhersagen, denn der Vogel hat ein Gehirn mit Mil- informationsverarbeitendes System verstanden wer- lionen von Nervenzellen, jede mit hunderten von den. In dieser Sichtweise ist jede Zelle eines Gewebes Freiheitsgraden, die zusammenwirken um Entschei- ein ,,Prozessor“, welcher mittels interner Signalver- dungen über die Flugrichtung zu treffen. Nur wenn arbeitung Berechnungen ausführt und mit anderen wir alle diese inneren Freiheitsgrade modellieren Prozessoren/Zellen kommuniziert. Während uns und simulieren könnten, wären wir in der Lage die diese Beschreibung v. a. für Nervensysteme intui- Flugbahn des Vogels vorherzusagen. tiv ist, weil die Informationsverarbeitung dort über Das Formulieren und Validieren derartiger elektrische Signale geschieht, womit eine direkte Modelle setzt jedoch zuerst einmal voraus, dass Analogie zu elektronischen Rechnern besteht, ist Messdaten über die Dynamik einer genügend sie auch für andere Gewebe anwendbar. Dort findet großen Anzahl dieser Freiheitsgrade vorhanden die Informationsverarbeitung jedoch oft chemisch sind. Um die letzte Jahrtausendwende entwickelte statt und chemische Reaktionsnetzwerke nehmen sich daher der neue Wissenschaftszweig der Sys- die Rolle elektronischer Schaltkreise ein. Auch tembiologie. Erstes Ziel der Systembiologie war die ist die Kommunikation zwischen Zellen nicht auf Entwicklung neuer Mess- und Experimentierver- elektrische Signale beschränkt, sondern beinhaltet fahren, welche es erlauben, möglichst viele interne chemische und mechanische Signale sowie direkte Freiheitsgrade eines biologischen Systems syste- Zell-Zell-Kontakte über Membranproteine. Ein Ge- matisch zu erfassen. Dazu gehörten Methoden zur webe ist somit ein massiv paralleler Rechner mit Sequenzierung vollständiger Genome, insbeson- Millionen oder Milliarden von Prozessoren, welche dere das Human-Genom-Projekt (,,Genomik“), über ein topologisch selbstorganisiertes Netzwerk Methoden zur Bestimmung aller Proteine in einer miteinander verbunden sind. Die ,,Hardware“ dieses Zelle (,,Proteomik“), Methoden zur Messung aller Rechners sind die Materialien, aus denen die Zel- chemischen Konzentrationen in einer Zelle (,,Meta- len aufgebaut sind, also Proteine, Lipidmembranen, bolomik“), etc. Ziel dieser sogenannten ,,-omik“-Ära Nukleotide und andere Moleküle. Die ,,Software“ ist war es, hinreichend viele Daten zu sammeln, um ein das Genom, d. h. der in der DNS gespeicherte Buch- integriertes Bild der Prozesse – vom Genom über stabencode. Dank der Resultate aus Jahrzehnten die Chemie der Zelle bis zur Mechanik von Gewe- biologischer, biochemischer und systembiologischer ben – zu erlangen, welche in ihrem Zusammenspiel Forschung wissen wir sehr viel über die Hard- ,,Leben“ erzeugen. ware und ihren Aufbau, und wir kennen auch den In Alan Turings berühmtem Artikel The che- vollständigen genetischen Code einer exponentiell mical basis of morphogenesis (1952) [15] wurde wachsenden Zahl von Arten. Wir haben jedoch bis- postuliert, dass Leben das Resultat komplexer che- her fast kein Verständnis der Algorithmen, welche mischer Reaktionsnetzwerke mit zehntausenden dieser Code auf dieser Hardware implementiert. verschiedener Substanzen ist. In der vergangenen Diese Algorithmen zu entdecken, zu verstehen, Dekade wurde jedoch klar, dass das Bild nur un- wie sie Information verarbeiten und wie sie im Ge- ter Hinzunahme einer eng und bidirektional an die nom codiert sind, ist die große Herausforderung, Informatik_Spektrum_42_6_2019 395
{ BIG-DATA ANALYTICS vor der die Systembiologie heute steht. Wie tref- Modelle immer nur Teilsysteme beschreiben, z. B. fen Zellen Entscheidungen? Wie weiß eine Zelle in Blutströmung, Gewebemechanik oder die Kinetik einem Embryo, wann und in welche Richtung sie chemischer Reaktionsnetzwerke, die über Daten sich zu teilen hat, wie groß sie wachsen soll, oder gekoppelt werden müssen und außerdem typischer- wohin sie migrieren soll, sodass im Konzert mit weise viele unbekannte Parameter und Koeffizienten den Millionen oder Milliarden anderer Zellen ein haben, welche aus Daten geschätzt werden müssen. funktionsfähiges Lebewesen entsteht und nicht ein Hier ist ein ganzes Informatikökosystem zu strukturloser Zellklumpen? Könnten wir die Algo- entwickeln, wie in Abb. 1 schematisch abgebildet. rithmen entschlüsseln und verstehen, nach denen Am Anfang stehen große Datenmengen, welche dies abläuft, und deren Implementierung in moleku- oft in Echtzeit aus Laborgeräten strömen. Nebst laren Netzwerken sowie deren Codierung im Genom den ,,klassischen“ Daten wie Genomsequenzen, verstehen, so wären wir in der Lage, Fehlfunktionen Massenspektra von Molekülen oder mechanischen dieser Algorithmen zu erkennen und zu beheben, Messungen sind dies heute vermehrt Bildda- sie umzuprogrammieren oder neu einzustellen. Die ten von hochauflösenden 3D-Mikroskopen, z. B. Implikationen für Medizin, Landwirtschaft, Phar- Lichtblattmikroskopen. Diese Mikroskope liefern makologie und Psychologie wären kaum absehbar, zeitaufgelöste Videos, z. B. von der Entwicklung und es wären auch ethische und humanitäre Aspekte eines Embryos, mit subzellulärer Auflösung über zu beachten und neu zu bewerten. Es könnte dann Stunden oder gar Tage [8]. Sie erlauben es uns erst- z. B. möglich werden, die Zellen an der Wunde eines malig, Gewebebildung mit einer Genauigkeit zu abgetrennten Fingers so umzuprogrammieren, dass beobachten, welche die Entscheidungen und das sie nicht die Wunde schließen und eine Narbe bil- Verhalten einzelner Zellen erkennen lässt. Die dabei den, sondern einen neuen Finger wachsen lassen, so anfallenden Datenmengen und -raten sind jedoch wie es im Embryo auch mal geschah. Auch wird es eine Herausforderung. Moderne Mikroskope lie- dann denkbar, Transplantationsorgane im Labor aus fern zwischen 1 und 5 GB/s an Bilddaten. Ein Video körpereigenen Zellen nachzuzüchten, indem diese der Entwicklung eines Zebrafischembryos über 72 Zellen umprogrammiert werden und die Kommuni- Stunden bis zum Larvenstadium, hat dann 1,3 TB. kation der fehlenden umliegenden Zellen von einem Diese Datenströme müssen in Echtzeit verarbeitet elektronischen Rechner emuliert wird, wie dies in (z. B. komprimiert, entrauscht, etc.), gespeichert und den cyberbiologischen Systemen im Labor von Prof. visualisiert werden. Khammash (ETH Zürich) bereits an Einzelzellen Da die Daten dreidimensional sind, erfolgt die funktioniert [10]. Die Möglichkeiten in Diagnos- Visualisierung idealerweise ebenfalls dreidimensio- tik und Therapie sind schier grenzenlos, und eine nal, z. B. mittels Techniken der virtuellen Realität Star-Trek-Medizin könnte Realität werden. (VR) oder der erweiterten Realität (AR). Mit gängi- Um diese Herausforderung zu meistern, be- gen WUXGA VR-Systemen erfordert dies 1–2 Gpix/s darf es neuer physikalischer Theorien, wie z. B. an Renderingleistung, welche verteilt auf einem der Ungleichgewichtstheorie der aktiven Materie, Cluster von Grafikkarten erbracht werden muss. neuer Mess- und Beobachtungsmöglichkeiten, wie Geschieht das in Echtzeit, so wird es möglich, ins z. B. KI-gesteuerter automatisierter 3D-Mikroskope Spezimen ,,einzutauchen“ und z. B. in einem sich und neuer Informatikmethoden. Letzteres beinhal- entwickelnden Embryo spazieren zu gehen und sich tet Algorithmen zur numerischen Simulation der umzuschauen, auch im Inneren, wo man bei einer neuen physikalischen Theorien, Visualisierungs- normalen, projektiven Darstellung nicht hineinsieht. und Interaktionsmodi für multimodale Daten, Noch besser wird es, wenn die Wissenschaftlerin Datenbanken zum Ablegen, Strukturieren und oder der Wissenschaftler direkt über natürliche Wiederfinden heterogener Daten, sowie Big-Data Benutzerschnittstellen mit dem Spezimen intera- Analytics zur Auswertung der Daten und zum gieren kann. Dies könnte z. B. ermöglichen, dass Entdecken von Modellen und Mechanismen. die Bewegung oder das Verhalten einer Zelle durch Die Datenwissenschaften nehmen dabei eine bloßes Ansehen der Zielzelle (mittels Pupillentra- zentrale Rolle ein. Dies zum einen weil dank ,,-omik“ cker) aufgezeichnet werden kann, dass Laserschnitte große Datenmengen vorhanden sind und stets wei- im Gewebe durch Handgesten ausgeführt werden ter wachsen, zum anderen weil biophysikalische können, oder dass Gene in einzelnen Zellen durch 396 Informatik_Spektrum_42_6_2019
Abb. 1 Schematische Darstellung des Arbeitsablaufs. Hochauflösende 3D Bilder von Mikroskopen zeigen in Echtzeit die Entwicklung eines Embryos (hier im Bild: ein Fruchtfliegenembryo). Diese Bilder werden immersiv in virtueller Realität dargestellt und mit Resultaten numerischer Computersimulationen der vermuteten biologischen und physikalischen Prozesse überlagert, um zu prüfen, ob die Vermutungen hinreichend zur Erklärung des Embryoverhaltens sind. Die Simulationsmodelle werden von Lernalgorithmen aus Nutzerinteraktionen in der virtuellen Realität einerseits und, mittels datengetriebenen maschinellen Lernens direkt auf den Rohbildern andererseits, ermittelt und verbessert. Um Datenraten und Modellkomplexitäten zu erreichen, die zum Verständnis biologischer Systeme notwendig sind, laufen alle Prozesse auf einer Hochleistungsrechenplattform in einer einheitlichen Softwareumgebung Antippen mit dem Finger in der virtuellen Realität Embryos leicht unterschiedlich entwickeln, so kann über optogenetische Schalter an- und ausgeschaltet auch die Wissenschaftlerin oder der Wissenschaftler werden können. Durch die direkte Beobachtung der in der virtuellen Realität mittels Handgesten ent- raumzeitlichen Reaktion des Gewebes auf derar- sprechende Bereiche markieren. Diese Information tige Perturbationen lassen sich dann Rückschlüsse wird dann einem Lernalgorithmus zur Verfügung ziehen über die Kommunikation zwischen Zellen gestellt, welcher daraus das Simulationsmodell oder und über die Funktion einzelner Zellen oder Gene. dessen Parameter optimiert. Dadurch entsteht eine ganz neue Qualität von Ver- Mathematische Modelle können aber auch, so- ständnis, und es entstehen im Kopf der Betrachterin zusagen hypothesenfrei, direkt aus Daten gelernt oder des Betrachters unweigerlich Hypothesen über werden. Für raumzeitliche Prozesse könnte man die Funktionsweise des ,,zellulären Rechners“. z. B. versuchen, eine mathematische Beschreibung Diese Hypothesen können dann, in mathe- der Dynamik des Prozesses direkt aus Beobach- matischen Modellen formalisiert, in numerischen tungsdaten zu lernen. Es wäre dann möglich, die Simulationen getestet werden. Das heißt, durch physikalischen Modelle der Strömungsmechanik, numerische Vorhersage des Gewebeverhaltens, wel- die Navier-Stokes-Gleichungen, direkt aus Video- ches aus einem hypothetischen Modell resultieren aufnahmen von Flüssigkeitsströmungen zu lernen, würde, kann gezeigt werden, ob oder dass das Mo- ohne physikalische Annahmen oder Verständnis der dell hinreichend ist zur Erklärung des beobachteten zugrunde liegenden Prinzipien. Diese Prinzipien Verhaltens. Spannend sind auch immer die Fälle könnten dann aber durch Analyse der gelernten ma- oder die Teilbereiche der Daten, in denen die Si- thematischen Modelle entdeckt werden. Dass dies mulationsvorhersage nicht passt. Sind Fehlermaße grundsätzlich geht, zeigte eine Arbeitsgruppe um bekannt, so kann dies rechnerisch ermittelt werden. Prof. Nathan Kutz von der University of Washington. Sind sie nicht bekannt, wie oft in der Entwicklungs- Sie entwickelten den PDE-FIND-Algorithmus [13], biologie, wo sich auch zwei genetisch identische welcher interpretierbare mathematische Differenti- Informatik_Spektrum_42_6_2019 397
{ BIG-DATA ANALYTICS algleichungsmodelle dynamischer Prozesse direkt die Entwicklung einer Theorie zur konsistenten Ap- aus raumzeitlichen Beobachtungsdaten lernt. Eine proximation beliebiger Differenzialoperatoren auf Übertragung dieser Idee auf Mikroskopievideos in irregulär verteilten Datenpunkten [14], die Verallge- den Lebenswissenschaften hätte großes Potenzial, meinerung der klassischen Newton-Interpolation denn die zugrunde liegenden physikalischen Prinzi- auf hochdimensionale Räume [6], Beweise von pien und deren mathematische Modelle sind hier oft Fehlerschranken in der Funktionsapproxima- (noch) unbekannt. tionstheorie [3] und die Entwicklung verteilter Schließlich läuft das ganze Labor der Zukunft Graphenzerlegung [1]. Dadurch wurde es möglich, auf einer Hochleistungsrechenplattform, sodass die wichtige Probleme in den Datenwissenschaften an- Resultate der numerischen Simulationen in unter ei- zupacken, deren Lösung für die Anwendungen der ner Sekunde zur Verfügung stehen, die Datenströme Lebenswissenschaften essenziell ist. Drei Beispiele in Echtzeit verarbeitet werden und die Lernalgorith- seien genannt: men in der Schleife mitlaufen. Damit das System (1) Das Lernen von Modellen aus Daten wird ty- auch erweiterbar, flexibel und neuen biologischen pischerweise als Optimierungsproblem verstanden. und physikalischen Modellhypothesen anpassbar So ist es die übliche Herangehensweise im maschi- ist, sollte diese Hochleistungsrechenplattform auf nellen Lernen, ein Modell zu trainieren, welches einer modularen und skalierbaren Software basieren die Trainingsdaten so gut wie möglich wiedergibt. und idealerweise über eine oder mehrere domänen- Dazu wird eine Kostenfunktion definiert, welche spezifische Hochsprachen und einen optimierenden den Regressionsfehler misst, und die dann mini- Compiler verfügen, um Code-Entwicklungszeiten zu miert wird, um das Modell oder dessen Parameter reduzieren. Soweit die Wunschliste. zu lernen. Wenn sehr viele Datenpunkte vorhanden Die Arbeitsgruppe des Autors am Zentrum für sind, so funktioniert das sehr gut, wie z. B. im Deep Systembiologie Dresden und an der Technischen Learning. In den Lebenswissenschaften sind aber Universität Dresden, sowie am Max-Planck-Institut meist nicht Millionen von Datenpunkten verfüg- für Molekulare Zellbiologie und Genetik in Dres- bar, sondern ,,nur“ ein paar hundert bis tausend. den und am DFG-Exzellenzcluster ,,Physik des Jeder einzelne Datenpunkt ist aber sehr groß. Deep Lebens“, entwickelt seit über 10 Jahren die theo- Learning und optimierungsbasierte Verfahren im retischen, algorithmischen und technologischen Allgemeinen neigen in diesen Fällen zu Überan- Grundlagen dieser Vision. Dazu gehören neuar- passung („overfitting“), wobei die Trainingsdaten tige numerische Simulationsverfahren, mit denen im Wesentlichen auswendig gelernt werden mit es möglich wurde, die physikalische Theorie der ak- sehr geringer Vorhersagekraft auf neue, im Trai- tiven Materie zu simulieren, um z. B. vorhersagen ning ungesehene Daten. Genau dies ist aber Sinn zu können, zu welcher Form ein Gewebe heran- und Zweck der Inferenz. Bereits seit den grund- wächst. Dazu gehört auch ein VR/AR-System zur legenden Arbeiten von Gregor Kjellström in den immersiven Echtzeitdarstellung großer 3D-Bild- und 1970er-Jahren ist jedoch bekannt, dass es eine al- Videodaten, inkl. der entsprechenden Open-Source- ternative Formulierung des Problems gibt, bei der Software scenery (github.com/scenerygraphics). Überanpassung nicht vorkommen kann: Design Dazu gehört die Entwicklung und Implementierung Centering [9]. Hier wird davon ausgegangen, dass einer Softwareplattform für skalierbares paralleles es gerade bei komplexen Systemen und begrenzten Hochleistungsrechnen auf CPUs und GPUs namens Daten viele Modelle geben kann, die akzeptabel gut OpenFPM (openfpm.mpi-cbg.de), sowie eine dazu passen. Was akzeptabel ist, wird z. B. durch die Mess- passende domänenspezifische Hochsprache. Diese fehler in den Daten definiert. Alle Modelle, welche ermöglicht es, verteilte Anwendungen für nume- die Daten innerhalb der Messungenauigkeit wieder- rische Simulation und Datenanalyse in wenigen geben, sind akzeptabel. Im Allgemeinen ist man Stunden oder Tagen zu implementieren, was vorher frei, beliebige Akzeptanzkriterien zu definieren, oft eine gesamte Doktorarbeit von mehreren Jahren welche z. B. auch die Modellkomplexität, die Re- in Anspruch nahm. chenkosten, o. ä. berücksichtigen. Es muss lediglich Diese algorithmischen Fortschritte beruhen auf gewährleistet sein, dass die Kriterien für ein gege- einer Reihe von theoretischen Vorarbeiten, welche benes Modell überprüft werden können. Im Raum diese Technologie erst ermöglichen. Dazu gehört aller möglichen Modelle bilden die akzeptablen 398 Informatik_Spektrum_42_6_2019
Sie können auch lesen