Informatik Spektrum Data Analytics - Organ der Gesellschaft für Informatik e.V. und mit ihr assoziierter Organisationen - Meine GI

Die Seite wird erstellt Hortensia-Antonia Mayer
 
WEITER LESEN
Informatik Spektrum Data Analytics - Organ der Gesellschaft für Informatik e.V. und mit ihr assoziierter Organisationen - Meine GI
Organ der Gesellschaft für Informatik e.V.       Band 42 • Heft 6 • Dezember 2019
      und mit ihr assoziierter Organisationen

      Informatik
      Spektrum                                     Data Analytics

123
INHALT
                 Informatik
                      Spektrum
Band 42 | Heft 6 | Dezember 2019
                                                                              Organ der Gesellschaft für Informatik e.V. und mit ihr assoziierter Organisationen

                             EDITORIAL
                             Wolfgang E. Nagel, Thomas Ludwig
                      385    Data Analytics

                             HAUPTBEITRÄGE
                             Göran Kauermann
                      387    Data Science – Einige Gedanken aus Sicht eines Statistikers
                             Ivo F. Sbalzarini
                      394    Big-Data Analytics transformiert die Lebenswissenschaften
                             Andreas Wierse, Michael Beigl
                      401    Praktische Anwendungen der Smart Data Analytics

                             ERRATUM
                             Andreas Wierse, Michael Beigl
                      409    Erratum

                             HAUPTBEITRÄGE
                             Niklas Röber, Michael Böttinger
                      410    Visuelle Analyse großer Daten in der Klimaforschung

                      419
                             Olga Mordvinova, Sandra Nieves
                             Dateninhalte besser begreifen mit Data Storytelling                                322
                                                                                                                               Big Data Analytics am
                             INTERVIEW                                                                                         Centrum für Systembiologie
                             Fabian J. Theis, Thomas Ludwig                                                                    Dresden (CSBD)
                      429    Munich School for Data Science (MUDS) –
                             Eine Graduiertenschule für Data Science in München

                             HAUPTBEITRAG
                             Thomas Ludwig, Wolfgang E. Nagel, Ramin Yahyapour
                      432    Das Ökosystem der Datenwissenschaften

                             AKTUELLES SCHLAGWORT
                             Tony Hey, Anne Trefethen
                      441    The Fourth Paradigm 10 Years On

                             FORUM
                             Stefan Ullrich, Debora Weber-Wulff
                      448    Gewissensbits – wie würden Sie urteilen?
                             Ursula Sury
                      451    Identitäten in der virtuellen Welt
                             Reinhard Wilhelm
                      453    Geladen bis zum Limit

                             EDITORIAL
                             Stefan Schulte, Boris Koldehofe, Andreas Reinhardt, Torsten Braun
                      455    Grußwort der Gastherausgeber zum Thema Fog Computing

                                                                                                                            123
                      457    Mitteilungen der Gesellschaft für Informatik 260. Folge
                             Aus Vorstand und Präsidium/Presse- und Öffentlichkeitsarbeit der GI/
                             Aus den GI-Gliederungen/Tagungsankündigungen/LNI-Neuerscheinungen/
                             Bundeswettbewerb Informatik/GI-Veranstaltungskalender
Informatik
                Spektrum                                              Organ der Gesellschaft für Informatik e.V. und mit ihr assoziierter Organisationen

     Hauptaufgabe dieser Zeitschrift ist die Weiterbil-      der Schweiz oder eines Staates der Europäischen         Prof. Dr. H. Federrath, Universität Hamburg
     dung aller Informatiker durch Veröffentlichung         Gemeinschaft ist, kann unter bestimmten Voraus-          Prof. Dr. G. Goos, KIT Karlsruhe
     aktueller, praktisch verwertbarer Informationen         setzungen an der Ausschüttung der Bibliotheks- und      Prof. O. Günther, Ph. D., Universität Potsdam
     über technische und wissenschaftliche Fort-            Fotokopietantiemen teilnehmen. Nähere Einzelhei-        Prof. Dr. D. Herrmann,
     schritte aus allen Bereichen der Informatik und         ten können direkt von der Verwertungsgesellschaft       Otto-Friedrich-Universität Bamberg
     ihrer Anwendungen. Dies soll erreicht werden            WORT, Abteilung Wissenschaft, Goethestr. 49, 80336       Prof. Dr. W. Hesse, Universität Marburg
     durch Veröffentlichung von Übersichtsartikeln und     München, eingeholt werden.                              Dr. Agnes Koschmider, KIT Karlsruhe
     einführenden Darstellungen sowie Berichten über             Die Wiedergabe von Gebrauchsnamen, Han-            Dr.-Ing. C. Leng, Google
     Projekte und Fallstudien, die zukünftige Trends        delsnamen, Warenbezeichnungen usw. in dieser             Prof. Dr. F. Mattern, ETH Zürich
     aufzeigen.                                              Zeitschrift berechtigt auch ohne besondere Kenn-         Prof. Dr. K.-R. Müller, TU Berlin
             Es sollen damit unter anderem jene Leser an-    zeichnung nicht zu der Annahme, dass solche Namen        Prof. Dr. W. Nagel, TU Dresden
     gesprochen werden, die sich in neue Sachgebiete         im Sinne der Warenzeichen- und Markenschutz-             Prof. Dr. J. Nievergelt, ETH Zürich
     der Informatik einarbeiten, sich weiterbilden, sich     Gesetzgebung als frei zu betrachten wären und daher     Prof. Dr. E. Portmann, Universität Fribourg
     einen Überblick verschaffen wollen, denen aber         von jedermann benutzt werden dürfen.                    Prof. Dr. F. Puppe, Universität Würzburg
     das Studium der Originalliteratur zu zeitraubend                                                                 Prof. Dr. R.H. Reussner, Universität Karlsruhe
     oder die Beschaffung solcher Veröffentlichungen                                                                 Prof. Dr. S. Rinderle-Ma, Universität Wien
     nicht möglich ist. Damit kommt als Leser nicht nur
                                                             Vertrieb, Abonnement, Versand                            Prof. Dr. O. Spaniol, RWTH Aachen
                                                             Papierausgabe: ISSN 0170-6012
     der ausgebildete Informatikspezialist in Betracht,                                                               Dr. D. Taubner, msg systems ag, München
                                                             elektronische Ausgabe: ISSN 1432-122X
     sondern vor allem der Praktiker, der aus seiner Ta-                                                              Sven Tissot, Iteratec GmbH, Hamburg
                                                             Erscheinungsweise: zweimonatlich
     gesarbeit heraus Anschluss an die wissenschaftliche                                                              Prof. Dr. Herbert Weber, TU Berlin
     Entwicklung der Informatik sucht, aber auch der               Den Bezugspreis können Sie beim Customer
     Studierende an einer Fachhochschule oder Univer-        Service erfragen: customerservice@springernature.
     sität, der sich Einblick in Aufgaben und Probleme      com. Die Lieferung der Zeitschrift läuft weiter, wenn
     der Praxis verschaffen möchte.                         sie nicht bis zum 30.9. eines Jahres abbestellt wird.     Impressum
             Durch Auswahl der Autoren und der The-          Mitglieder der Gesellschaft für Informatik und der       Verlag:
     men sowie durch Einflussnahme auf Inhalt und             Schweizer Informatiker Gesellschaft erhalten die          Springer, Tiergartenstraße 17,
     Darstellung – die Beiträge werden von mehreren         Zeitschrift im Rahmen ihrer Mitgliedschaft.               69121 Heidelberg
     Herausgebern referiert – soll erreicht werden, dass           Bestellungen oder Rückfragen nimmt jede
     möglichst jeder Beitrag dem größten Teil der Le-      Buchhandlung oder der Verlag entgegen.
     ser verständlich und lesenswert erscheint. So soll     SpringerNature, Kundenservice Zeitschriften,              Redaktion:
     diese Zeitschrift das gesamte Spektrum der Infor-       Tiergartenstr. 15, 69121 Heidelberg, Germany              Peter Pagel, Vanessa Keinert
     matik umfassen, aber nicht in getrennte Sparten         Tel. +49-6221-345-0, Fax: +49-6221-345-4229,              Tel.: +49 611 787 8329
     mit verschiedenen Leserkreisen zerfallen. Da die        e-mail: customerservice@springernature.com                e-mail: Peter.Pagel@springer.com
     Informatik eine sich auch weiterhin stark ent-          Geschäftszeiten: Montag bis Freitag 8–20 h.
     wickelnde anwendungsorientierte Wissenschaft ist,             Bei Adressänderungen muss neben dem Ti-            Herstellung:
     die ihre eigenen wissenschaftlichen und theore-         tel der Zeitschrift die neue und die alte Adresse         Philipp Kammerer,
     tischen Grundlagen zu einem großen Teil selbst          angegeben werden. Adressänderungen sollten               e-mail: Philipp.Kammerer@springer.com
     entwickeln muss, will die Zeitschrift sich an den       mindestens 6 Wochen vor Gültigkeit gemeldet
     Problemen der Praxis orientieren, ohne die Auf-         werden. Hinweis gemäß §4 Abs. 3 der Postdienst-          Redaktion Gl-Mitteilungen:
     gabe zu vergessen, ein solides wissenschaftliches       Datenschutzverordnung: Bei Anschriftenänderung           Cornelia Winter
     Fundament zu erarbeiten. Zur Anwendungsori-             des Beziehers kann die Deutsche Post AG dem Verlag        Gesellschaft für Informatik e.V. (GI)
     entierung gehört auch die Beschäftigung mit den       die neue Anschrift auch dann mitteilen, wenn kein         Wissenschaftszentrum,
     Problemen der Auswirkung der Informatikan-              Nachsendeauftrag gestellt ist. Hiergegen kann der         Ahrstraße 45, D-53175 Bonn,
     wendungen auf den Einzelnen, den Staat und die          Bezieher innerhalb von 14 Tagen nach Erscheinen           Tel.: +49 228-302-145, Fax: +49 228-302-167,
     Gesellschaft sowie mit Fragen der Informatik-           dieses Heftes bei unserer Abonnementsbetreuung            Internet: http://www. gi.de,
     Berufe einschließlich der Ausbildungsrichtlinien        widersprechen.                                            e-mail: gs@gi.de
     und der Bedarfsschätzungen.
                                                             Elektronische Version                                     Wissenschaftliche Kommunikation:
     Urheberrecht                                            springerlink.com                                          Anzeigen: Eva Hanenberg
     Mit der Annahme eines Beitrags überträgt der Au-                                                                Abraham-Lincoln-Straße 46
     tor Springer (bzw. dem Eigentümer der Zeitschrift,     Hinweise für Autoren                                     65189 Wiesbaden
     sofern Springer nicht selbst Eigentümer ist) das       http://springer.com/journal/00287                         Tel.: +49 (0)611/78 78-226
     ausschließliche Recht zur Vervielfältigung durch                                                                 Fax: +49 (0)611/78 78-430
     Druck, Nachdruck und beliebige sonstige Verfahren                                                                 eva.hanenberg@springer.com
     das Recht zur Übersetzung für alle Sprachen und       Hauptherausgeber
     Länder.                                                Prof. Dr. Dr. h. c.mult. Wilfried Brauer (1978–1998)      Satz:
           Die Zeitschrift sowie alle in ihr enthaltenen     Prof. Dr. Arndt Bode,                                     le-tex publishing services GmbH, Leipzig
     einzelnen Beiträge und Abbildungen sind urhe-          Technische Universität München (seit 1999)
     berrechtlich geschützt. Jede Verwertung, die nicht     Prof. Dr. T. Ludwig,
                                                             Deutsches Klimarechenzentrum GmbH, Hamburg                Druck:
     ausdrücklich vom Urheberrechtsgesetz zugelassen                                                                  Printforce,
     ist, bedarf der vorherigen schriftlichen Zustim-        (seit 2019)
                                                                                                                       The Netherlands
     mung des Eigentümers. Das gilt insbesondere für
     Vervielfältigungen, Bearbeitungen, Übersetzungen,     Herausgeber                                               springer.com
     Mikroverfilmungen und die Einspeicherung und             Prof. Dr. S. Albers, TU München
     Verarbeitung in elektronischen Systemen. Jeder          Prof. A. Bernstein, Ph. D., Universität Zürich          Eigentümer und Copyright
     Autor, der Deutscher ist oder ständig in der Bundes-   Prof. Dr. T. Braun, Universität Bern                     © Springer-Verlag GmbH Deutschland,
     republik Deutschland lebt oder Bürger Österreichs,    Prof. Dr. O. Deussen, Universität Konstanz               ein Teil von Springer Nature, 2019

A4
EDITORIAL                 }

                                 Wolfgang E. Nagel                    Thomas Ludwig
                                 © Foto: Robert Gommlich

Data Analytics
Data Analytics ist ein Teil von Data Science und befasst sich mit der Analyse von Ausgangsdaten, um zu neuen Ein-
sichten und Handlungsempfehlungen zu gelangen. Als Data Science oder Datengetriebenes Forschen und Entwickeln
bezeichnen wir dagegen wissenschaftliche Erkenntnis, die aus allen Aspekten des Lebenszyklus von Daten, von ihrer
Entstehung über die Analyse und Archivierung bis zu ihrer Weiterverbreitung, gewonnen wird. Beide Schlagworte sind
in der modernen Welt ständigen Anpassungen unterworfen, und wir wollen in diesem Themenheft einen Eindruck des
Spektrums von Data Analytics vermitteln.
      Data Analytics befasst sich also mit der Extraktion von Informationen aus großen Datenmengen. Methodisch
kommen hier insbesondere Verfahren der Statistik zum Einsatz. Eine moderne Ausweitung dieser Methoden finden
wir im Maschinellen Lernen und insbesondere im Deep Learning. Beide Ansätze versprechen schnelle und effiziente
Erkenntnisgewinne, ihr Einsatz ist aber stets auch problematisch, und ihre Aussagekraft muss sorgfältig analysiert
werden.
      Im vorliegenden Themenheft betrachten wir Data Analytics zunächst klassisch vom Standpunkt eines Statistikers.
Ihren Einsatz finden solche Methoden sowohl in der Forschung als auch in der Industrie. Der Leser findet Beispiele aus
den Lebenswissenschaften und auch aus verschiedenen Bereichen des industriellen Umfelds. Neben den numerischen
Varianten der Datenanalyse gibt es auch eine visuelle Analyse. Am Beispiel der Klimaforschung zeigen die Autoren,
wie mit großen Datenmengen gearbeitet wird und welche Herausforderungen auf diesem Gebiet zu finden sind.
Dabei erzählen Bilder auch Geschichten – eine eigene Variante der Data Analytics, die im Data Story Telling ihren
Ausdruck findet.
      Die Bedeutung von Data Analytics in der Forschung und Entwicklung erfordert auch neue Ausbildungsformen.
In München nimmt die Munich School for Data Science dieser Tage ihre Arbeit auf. Ihr Koordinator erläutert die
Konzepte dieses Ansatzes.
      Data Analytics stützt sich auf vorhandene Daten ab. Das gesamte Ökosystem ihrer Erzeugung, Analyse, Ar-
chivierung und Verteilung nutzt bestehende Forschungsinfrastrukturen. An zwei ausgewählten Beispielen wird die
Einbindung in Data Science dargestellt. Fachgebietsübergreifende Bemühungen auf nationaler Ebene dienen dabei der
Strukturierung der Forschungslandschaft und sollen eine vielseitige und langfristige Datennutzung ermöglichen.
      Die Ideen zu einer datengetriebenen Wissenschaft gehen unter anderem auf eine Veröffentlichung aus dem
Jahr 2009 zurück: ,,The Fourth Paradigm: Data-intensive Scientific Discovery“. Ihr Herausgeber Tony Hey blickt im
Themenheft zurück auf 10 Jahre Entwicklungsgeschichte dieser Strömung und analysiert den aktuellen Stand.
Wolfgang E. Nagel
Thomas Ludwig

                                                                                                  https://doi.org/10.1007/s00287-019-01231-9

                                                                                                            Informatik_Spektrum_42_6_2019      385
{ EDITORIAL

                                                                                                              i

                                                                                                                  Zum Titelbild
                                      Big Data Analytics am Centrum          eller Realität immersiv betrachtet
                                      für Systembiologie Dresden             und mittels Computersimulation
                                      (CSBD).                                (kleines Bild, Simulation von Pro-
                                          Das Bild zeigt ein Foto aus der    teindiffusion in einer Zelle) mo-
                                      CAVE des CSBD, wo Embryos (hier        delliert und verstanden werden
                                      das einer Fruchtfliege) mittel virtu-   können.

386   Informatik_Spektrum_42_6_2019
HAUPTBEITRAG / DATA SCIENCE − AUS SICHT EINES STATISTIKERS                                                               }

            Data Science – Einige Gedanken
            aus Sicht eines Statistikers
                                                                                                            Göran Kauermann

    Einleitung                                          Experten. Mehr und mehr Studiengänge mit Ab-
Eine etymologische Untersuchung über den Ur-            schluss ,,Data Science“ starten, nicht alle davon sind
sprung des Begriffs Data Science steht sicher noch      von ihrem Curriculum her mit Clevelands allumfas-
aus. Aus Sicht der Statistik wird vornehmlich Cleve-    senden Blick vereinbar. Und so lange die Definition
lands Artikel von 2001 [3] als Namensgeber genannt,     von Data Science nicht klar ist, so lange werden auch
wobei der Statistiker Jeff Wu bereits 1997 in einem     Akkreditierungen von Data-Science-Studiengängen
Vortrag vorgeschlagen haben soll, dass man Statistik    im Unklaren lassen, welche Ausbildungskomponen-
doch besser als Data Science bezeichnen soll. Die       ten ein Data-Science-Studiengang haben sollte bzw.
vorgeschlagene Definition von Cleveland und Wu           haben muss. In [7] wird ein generelles Curriculum
baut dabei auf Tukey [13] auf, der 1962 eine Reform     vorgeschlagen, was den Blick auf die beiden Kernge-
der Statistik forderte, weg von der Mathematik hin      biete von Data Science herausarbeitet (siehe auch [6]
zur angewandten Wissenschaft der Datenanalyse. In       oder [4]).
seinem Artikel ,,The future of data analysis“ stellte        Betrachtet man die zentralen Werkzeuge im
er eine neue Wissenschaft in Aussicht, deren Thema      Bereich Data Science, so sind hier sicher statis-
das Lernen aus Daten ist. Fast 40 Jahre später de-      tische Modelle (Regression in allen Varianten),
finiert Cleveland Data Science sehr allgemein als        statistisches Lernen und maschinelles Lernen zu
die wissenschaftliche Disziplin, um Informationen       nennen. Neuerdings sind sicher noch Themen wie
aus Daten zu ziehen. In seinem Artikel fordert er       Deep Learning zu nennen. Eine strenge Abgrenzung
einen Action Plan zur Erweiterung der Statistik in      zwischen den unterschiedlichen Methoden kann
Richtung Informatik und umgekehrt. Dieser Aufruf        kaum gegeben werden. Wohl aber kann man die
liegt heute fast 20 Jahre zurück und doch hat er an     eher statistisch basierten Verfahren von den eher
Aktualität kaum verloren. Clevelands Artikel liest      algorithmisch getriebenen Methoden unterschei-
sich heute, als wäre er erst gestern geschrieben wor-   den. Wir schätzen hier die Unterscheidung zwischen
den, und die Notwendigkeit eines Schulterschlusses      der What’s-going-on- und der What-happens-next-
zwischen Statistik und Informatik im Rahmen von         Sichtweise, die ein wenig die Interpretierbarkeit,
Data Science ist dringend geboten. Einen histori-       aber auch die Anwendbarkeit der Modelle widerspie-
schen Abriss dieser Diskussion liefert Donnoho [13].    gelt. Während statistische Modelle Interpretationen
Die Aktualität des Themas und das Ringen nach           erlauben (,,what’s going on“) und keine ,,Blackbox“
einer Definition auf der einen Seite und hinrei-         darstellen, sind Modelle des maschinellen Lernens
chend vielseitiger Ausbildung und Forschung auf
der anderen Seite sind auch der rote Faden der um-
                                                                                  https://doi.org/10.1007/s00287-019-01224-8
fangreichen Ausarbeitung der Royal Society mit dem                                © Berlin Heidelberg 2019
Titel ,,Dynamics of data science skills“ [12].                                    Göran Kauermann
     Data Science ist heute in aller Munde, Unterneh-                             Institut für Statistik,
                                                                                  Ludwigstraße 33, 80537 München
men und andere Arbeitgeber suchen die gefragten                                   E-Mail: goeran.kauermann@lmu.de

                                                                                                        Informatik_Spektrum_42_6_2019   387
{ DATA SCIENCE − AUS SICHT EINES STATISTIKERS

                                                                                        entwickeln. Ein paar Gedanken in diese Richtung
                          Zusammenfassung                                               sollen nachfolgend geliefert werden.
                        Data Science ist das neue Schlagwort; nach Big
                        Data und Digitalisierung nun also Data Science.                      Hype oder Hope
                        Die Stellenbörsen sind voll von Inseraten, Data                 Den Begriff Data Science findet man heute oftmals
                        Scientists werden händeringend gesucht und                      in Zusammenhang mit vielen konkurrierenden
                        manch Bewerber fügt heute Data Science in                       Begriffen wie ,,Big Data“, ,,künstliche Intelligenz“
                        sein Profil, um seine Jobchancen zu erhöhen.                     oder ,,maschinelles Lernen“. Um den Hypefak-
                        Doch was ist Data Science eigentlich? Der nach-                 tor dieser Begriffe zu visualisieren, bedienen wir
                        folgende Beitrag nähert sich der Fragestellung                  uns der neuen Medien. Abbildung 1 zeigt mithilfe
                        aus der Sichtweise eines Statistikers, ohne dabei               von Google Trends die Frequenz der Nachfragen
                        eine finale Definition von Data Science geben zu                  nach einzelnen Suchbegriffen und deren Verän-
                        wollen.                                                         derung über die Zeit. Die Abbildung zeigt die
                                                                                        Nachfragehäufigkeit für die oben genannten vier
                                                                                        Begriffe seit 2004. ,,Big Data“ (in Blau) zeigt die
                     eher eine algorithmische Blackbox, die aber bei                    Form des von Gartner vorgeschlagenen ,,Hype Cy-
                     hinreichend vielen Daten zur Vorhersage (,,what                    cle“. Das Thema ,,Artificial Intelligence“ (in Gelb)
                     happens next“) komplexe Zusammenhänge gut wie-                     war vor 15 Jahren deutlich gefragt, geriet dann in
                     dergeben. Zwischen diesen Sichtweisen liegt ein                    Vergessenheit und erlebt heute eine Wiederge-
                     Kontinuum und statistische Modelle fließen ste-                     burt. Ähnliches gilt für ,,Machine Learning“ (in
                     tig ins maschinelle Lernen über. Und doch scheint                  Grün), wobei hier die Nachfrage in den letzten
                     es wichtig, die Historien der Herangehensweise im                  Jahren am stärksten gestiegen ist. Und schließ-
                     Auge zu behalten. Denn nur so lassen sich Statistik                lich ist da noch ,,Data Science“ (in Rot), was sich
                     und Informatik erfolgreich zu Data Science weiter-                 im Aufwärtstrend befindet, aber im Vergleich

                     Abb. 1 Google-Trend-Daten zu den Suchbegriffen: Big Data, Data Science, Artificial Intelligence und Machine Learning, abgerufen
                     am 16.9.2019. (Datenquelle: Google Trends, https://www.Google.com/trends)

388   Informatik_Spektrum_42_6_2019
zu Machine Learning in der Nachfragehäufigkeit          lung agiert. Die Begrifflichkeit ,,Science“ ist also
hinterherhinkt.                                        gerechtfertigt.
     Nachfragen bei Google können als Interesse
gedeutet werden oder aber auch als Unklarheit.             Warum Statistik in der Data Science?
Begriffe, deren inhaltliche Bedeutung unklar ist,      Wir haben Data Science als die Kombination von
hinterfragt man heutzutage gerne durch Google oder     Informatik und Statistik dargestellt. Die Rolle der
Wikipedia. Insofern kann man aus der obigen Grafik      Statistik ist dabei essenziell und soll im Folgenden
durchaus auch ablesen, dass Begriffe wie ,,Machine     weiter untermauert werden. Im Financial-Times-
Learning“, ,,Artificial Intelligence“ und eben auch     Magazin schreibt Tim Harford am 28.3.2014:
,,Data Science“ neben generellem Interesse auch eine   ,,Statistiker haben die letzten 200 Jahre damit
nicht vernachlässigbare Unschärfe in Bezug auf eine    verbracht, herauszufinden, welche Fallen auf uns
allgemein verständliche Definition haben. Insofern      warten, wenn wir versuchen, die Welt durch Da-
ist Aufklärung hilfreich. Insbesondere scheint es      ten zu verstehen. Die Daten sind heutzutage größer,
angebracht aufzuzeigen, was Data Science bedeutet      schneller und günstiger, aber wir dürfen nicht so
und welche Kompetenzen ein Data Scientist aufwei-      tun, als wären die Fallen alle aus dem Weg geräumt.“
sen sollte. Dieser Fragestellung wollen wir aus dem    Eine bessere Werbung für Statistik im Bereich Data
Blickwinkel eines Statistikers erörtern.               Science kann man kaum formulieren und gerade
                                                       die genannten Fallen sind es, die immer wieder
    Eine Definition von Data Science                   neue Herausforderungen bilden. Vor ein paar Jah-
Grob gesprochen hat Data Science den Fokus,            ren wurde die Statistik zuweilen noch als die etwas
aus Daten mit adäquaten Methoden Informa-              verstaubte Disziplin angesehen, um Datenanalyse
tion zu ziehen. Im weiteren Sinne kann man Data        mithilfe von (linearen) Regressionsmodellen zu be-
Science auch als ,,datenbasiertes Problemlösen“        treiben. Sie galt bei vielen eher als ein Teilgebiet
bezeichnen. Wir ziehen aber hier die erstge-           der Mathematik. Dem muss heute vehement wider-
nannte und etwas engere Definition vor, bei der         sprochen werden. Statistik ist eine eigenständige
die Informationsgewinnung aus Daten im Vorder-         wissenschaftliche Disziplin und eine der zentralen
grund steht. In dieser Sichtweise ist Data Science     Säulen von Data Science. Statistik erlaubt es, die
eine Kombination aus Statistik und Informa-            richtigen Schlüsse aus Daten zu ziehen und Fehlin-
tik. Aus der Statistik kommen Komponenten wie          terpretationen zu vermeiden. Wir wollen dies mit
Regressionsmodellierung, Quantifizierung von Un-        einigen konkreten Beispielen demonstrieren.
sicherheit, Beurteilung von Validität und Qualität
von Daten und vieles mehr. Aus der Informatik              1. Fehlende Daten
kommen Methoden des maschinellen Lernens,              Zahlreiche Datenanalysen werden durchgeführt,
Deep Learning, Unsupervised Learning, High Per-        ohne dass eine hinreichende Analyse vorgeschaltet
formance Computing, Datenmanagements und               wurde, ob aus den Daten überhaupt die Fragestel-
weiteres. Darüber hinaus sind Kenntnisse im Be-        lung beantwortet werden kann. Ein immer wieder
reich Datensicherheit, Datenschutz und Datenethik      auftretendes Problem ist dabei das Fehlen von Da-
unabdingbar.                                           ten. Damit sind zum einen einzelne Einträge in
     Die Datenanalysen gehen dabei über das ein-       einer (großen) Datenbasis gemeint, zum anderen
fache Anwenden von Methoden hinaus. Es sind            aber auch das Fehlen von ganzen Spalten, sprich die
Anpassungen, Weiterentwicklungen und Erweite-          Nichtverfügbarkeit von Variablen. Beides muss bei
rungen von Modellen und Algorithmen gefragt, die       der Datenanalyse berücksichtigt werden, wie wir
durch die Komplexität der Daten getrieben werden.      nachfolgend zeigen wollen. Die Statistik hat sich
Damit unterscheidet sich der Data Scientist vom        dieser Fragestellung ausgiebig gewidmet und es sei
,,einfachen“ Data-Analysten, weil die Herausforde-     hier auf zwei Standardwerke verwiesen (siehe [8]
rungen an die Datenanalyse groß sind. Nun gibt es      oder [10]). Unterschieden wird dabei zwischen
keinen Schwellwert, ab dem eine Datenanalyse nicht     unterschiedlichen Gründen für das Fehlen von Da-
mehr nur ,,Analyse“, sondern schon ,,Science“ ist,     teneinträgen. Wenn Dateneinträge komplett zufällig
und doch zeigt es, dass Data Science in gewisser       fehlen (,,missing completely at random“), so sind
Weise an der Grenze zur methodischen Neuentwick-       Ergebnisse von Analysen mit den verbleibenden

                                                                                                  Informatik_Spektrum_42_6_2019   389
{ DATA SCIENCE − AUS SICHT EINES STATISTIKERS

                                                                                                                                               Tabelle 1
                                                                                           Fiktive Verkaufszahlen

                     Abb. 2 Variable X beeinflusst Y (links). Üblicherweise gibt es
                     aber mehr Einflussvariablen, die ihrerseits interagieren (rechts)
                                                                                              Ein einfaches, fiktives Beispiel soll dies ver-
                     Daten, einer sogenannten ,,complete case analysis“,                 deutlichen. Wir betrachten einen Händler, der ein
                     zwar nicht effizient, aber zumindest nicht verzerrt.                 Produkt verkauft, wobei der Händler der Einfachheit
                     Sprich, es wird nicht alle verfügbare Information                   halber nur zwei Preisregime fährt: hoher Preis bzw.
                     ausgenutzt, die Ergebnisse der Datenanalyse wei-                    niedriger Preis. Es liegen Verkaufszahlen der letzten
                     sen aber keinen systematischen Fehler auf. Falls das                Periode vor, die in Tab. 1 gegeben sind.
                     Fehlen von Dateneinträgen allerdings von den feh-                        Angegeben ist die durchschnittliche Anzahl an
                     lenden Daten selbst abhängt (sogenanntes ,,missing                  Verkäufen je Tag. Es zeigt sich, dass eine Erhöhung
                     not at random“), ist Vorsicht geboten. Hier kann                    des Preises (X) zu einer Reduktion der Verkaufszah-
                     letztendlich keine Aussage über die Validität ei-                   len je Tag (Y) um 14 Einheiten führt. Der Händler
                     ner Analyse getroffen werden. Eine handhabbare                      mag geneigt sein daraus eine Preiselastizität zu be-
                     Zwischenstufe liegt vor, wenn das Fehlen eines Da-                  rechnen. Allerdings wird dabei missachtet, dass der
                     teneintrags nicht von dessen unbeobachteten Wert,                   Händler kein Monopolist ist, sondern am Markt
                     wohl aber von sonstigen beobachteten Daten ab-                      Konkurrenz herrscht. Der Einfachheit halber gehen
                     hängt. Dies nennt man ,,missing at random“. Eine                    wir von nur einem Konkurrenten aus, der seinerseits
                     Analyse der vollständigen Dateneinträge kann hier                   auch nur zwei Preisregime (W) fährt. Somit liegt
                     falsche Ergebnisse liefern, die aber mit entspre-                   die Situation vor, wie sie in Tab. 2 (links) dargestellt
                     chender statistischer Methodik korrigiert werden                    ist. Die Angebotspreise des Konkurrenten (W) sind
                     können. Daher sollte (ja eigentlich muss) vor je-                   dabei abhängig von den eigenen angebotenen Prei-
                     der Datenanalyse eine statistische Analyse des                      sen (X), was in Tab. 2 (rechte Seite) veranschaulicht
                     Fehlmusters durchgeführt werden, sprich, es muss                    wird. Vernachlässigt man den Preis des Konkur-
                     untersucht werden, warum einzelne Dateneinträge                     renten, so ergeben sich die Daten aus Tab. 1 (z. B.
                     fehlen.                                                             (0,4 × 60 + 0,1 × 70)/0,5 = 62). Aus Tab. 2 (links)
                                                                                         sieht man, dass eine Erhöhung des firmeneigenen
                          2. Fehlende Variablen                                          Preises zu einer Absatzreduktion von 20 Einheiten
                     Während wir im vorherigen Abschnitt von einzelnen                   pro Tag führt. Die zuerst genannten 14 Einheiten aus
                     fehlenden Dateneinträgen gesprochen haben, wollen                   Tab. 1 sind also eine Unterschätzung der Preiselas-
                     wir hier die Problematik erweitern und auf fehlende                 tizität, die entsteht, wenn der Preis der Konkurrenz
                     Variablen eingehen. Wir betrachten exemplarisch                     (W) ignoriert wurde.
                     den Fall, dass wir den Einfluss einer Variablen X                         Dieses kleine fiktive Beispiel soll verdeutlichen,
                     auf eine Variable Y quantifizieren wollen. Dies ist in               dass Datenanalysen den Aspekt der Kausalität nicht
                     Abb. 2 (links) dargestellt. In Realität hat aber nicht              ignorieren dürfen. Im konkreten Fall heißt dies, dass
                     nur X einen Einfluss auf Y, sondern auch weitere                     ein Unternehmen aus den eigenen Verkaufszahlen
                     Größen, nennen wir sie W. Dies ist in Abb. 2 (rechts)               niemals eine Preiselastizität berechnen kann, sofern
                     gezeigt. Die Größen W sind dabei nicht beobachtet,                  das Unternehmen nicht Monopolist ist. Will man die
                     soll heißen, W liegt in der zur Verfügung stehenden                 Preiselastizität berechnen, so ergeben sich nur drei
                     Datenbasis nicht vor. Ist man nun interessiert an                   Herangehensweisen. Zum einen kann man versu-
                     dem Einfluss von X auf Y unter Vernachlässigung                      chen, die Preise der Konkurrenz (also W) mit in die
                     von W, so kann dies aus den verfügbaren Daten nicht                 Datenbasis und damit in die Datenanalyse aufzuneh-
                     bestimmt werden.                                                    men. Zweitens kann man ein Experiment aufsetzen,

390   Informatik_Spektrum_42_6_2019
Tabelle 2
  Linke Tabelle: Verkaufszahlen bei Berücksichtigung des Konkurrenz-
  preises. Rechte Tabelle: Abhängigkeit von unserem Preis (X) und
  Konkurrenzpreis (W)

man versucht also die eigene Preispolitik von der      in den Daten. Die Ausarbeitungen von Meng zeigen,
Preispolitik der Konkurrenz zu entkoppeln (bzw. in     dass Qualität nicht durch Quantität kompensiert
statistischem Jargon unabhängig zu machen). Dies       werden kann. Sprich, wenn Daten eine schlechte
kann zum Beispiel erfolgen, indem man zufällig an      Qualität haben und nicht exakt das wiedergeben,
unterschiedlichen Tagen mal die eine, mal die an-      was gefragt ist, dann nützen auch Terabyte von Da-
dere Preispolitik fährt. Man spricht in diesem Fall    ten schlechter Qualität nichts, denn die Qualität der
von Randomisierung (siehe [11]). Die dritte Mög-       Datenanalyse bleibt dürftig.
lichkeit ist, mit sogenannten Instrumentalvariablen
zu arbeiten. Dies sind Größen, die einen Einfluss auf       4. Statistische Grenzen
X – die eigene Preisgestaltung – haben, aber von W     Es ist bei aller Dateneuphorie wichtig, die Grenzen
– der Preisgestaltung der Konkurrenz – unabhängig      von datenbasiertem Schließen zu erkennen und zu
sind (siehe [1]). Die einfache Analyse der verfügba-   verstehen. Hier kann statistische Argumentation
ren Daten, sprich bei Vernachlässigung von W, führt    helfen, was wir am Beispiel der Gesichtserkennung
aber niemals zum gewünschten Ziel.                     am Berliner Südkreuz motivieren möchten. Die
                                                       exakten Details der Studien können dem Abschluss-
    3. Qualität versus Quantität                       bericht der Bundespolizei entnommen werden
Die Ausführungen im vorherigen Abschnitt ha-           (siehe [2]). Das System wurde als mögliche automa-
ben bereits gezeigt, dass Qualität nicht durch         tisierte Variante einer Fahndung nach Gewalttätern
Quantität ersetzbar ist. Diese Aussage kann man        vorgestellt, letztendlich diente es aber wohl eher
nicht oft genug unterstreichen. In Meng [9] wird       als Datenlieferant, denn als funktionierende Ge-
dies aus statistischer Sicht motiviert, wobei wir      walttäteridentifizierung bleibt eine automatisierte
den zugehörigen Vortrag von Meng ausgespro-            Gesichtserkennung in diesem Stil mutmaßlich
chen empfehlen (siehe https://www.youtube.com/         immer reine Utopie. Der Bericht zeigt Fehlklassi-
watch?v=8YLdIDOMEZs). Es zeigt sich rein               fikationen von bestenfalls 0,12 % Falschpositiv (und
mathematisch-statistisch, dass die Genauigkeit einer   das galt nur in einem eingeschränkten Szenario) und
Datenanalyse von drei Faktoren abhängt:                ca. 15 % Falschnegativ. Das bedeutet, dass ca. eine(r)
                                                       von 800 unbescholtenen Bürgerinnen und Bür-
1. Qualität der Daten,                                 gern, welche die Gesichtserkennung durchlaufen,
2. Quantität der Daten,                                als potenzieller Gewalttäter(in) klassifiziert werden
3. Variabilität der Daten.                             würde. Bei etwa 100.000 Fahrgästen pro Tag, die den
Variabilität weist dabei die unvermeidliche Streuung   Bahnhof Südkreuz täglich nutzen und die wir als
in den Daten aus. Quantität der Daten ist dabei die    unbescholtene Bürger annehmen wollen, bedeutet
Größe des Datenumfangs. Qualität der Daten ist die     dies ca. 120 (Fehl-)Alarme pro Tag. Insofern stellt
(potenzielle) Quelle von systematischer Verzerrung     sich die Frage, welche Akzeptanz ein System haben

                                                                                                 Informatik_Spektrum_42_6_2019   391
{ DATA SCIENCE − AUS SICHT EINES STATISTIKERS

                     kann, bei dem pro Stunde 5 Fehlalarme vorkom-              dellierung von einem festen gegebenen Datensatz
                     men. Dennoch hört sich die Fehlklassifikationsrate          ausgeht, welcher dann bestmöglich analysiert wird.
                     von knapp 0,12 % erstaunlich gut an. Und selbst            Im Bereich Data Science kommt es aber zunehmend
                     wenn diese Rate noch verringert werden könnte,             zu über die Zeit wachsenden Datenquellen: Neue
                     auf sagen wir 0,012 %, so verbleiben immer noch            Daten werden kontinuierlich protokolliert, die Da-
                     12 Fehlalarme pro Tag. Soll heißen, ein System die-        ten verändern sich oder werden komplexer. Um mit
                     ser Art scheint letztendlich nicht einsetzbar, was         derartigen Daten umzugehen, braucht man lernende
                     nicht an der technischen Grenze der Gesichtserken-         Systeme, also Analysemethoden, die sich mit den
                     nung liegt, sondern daran, dass die allermeisten der       Daten automatisiert verändern. Maschinelles Lernen
                     Bürger glücklicherweise unbescholten sind oder sta-        mit seinen vielen Erweiterungen ist hier der Statistik
                     tistisch ausgedrückt die Prävalenz von Gewalttätern        weit überlegen. Im Bereich der Statistik sind soge-
                     gering ist.                                                nannte sequenzielle Methoden zwar bekannt (siehe
                          Eine derartige Erkenntnis fällt leicht mit einer      zum Beispiel [5]), aber ein Entwicklungsschub, wie
                     hinreichenden ,,statistical literacy“, also mit einem      man ihn im Bereich des maschinellen Lernens in
                     hinreichenden Verständnis, wie aus Daten Schlüsse          den letzten Jahren gesehen hat, ist in der Statistik
                     gezogen werden können. Dieses Grundverständ-               (bisher) ausgeblieben. Aus meiner Sicht besteht hier
                     nis ist im Bereich Data Science von fundamentaler          erhebliches Potenzial. Die Errungenschaften der
                     Wichtigkeit, denn nicht alles, was technisch und           Informatik mit ihren automatisierten Lernmetho-
                     numerisch machbar ist, ist auch statistisch sinnvoll.      den können, ja müssen übertragen werden auf die
                     Was aber statistisch sinnlos ist, ist meist auch falsch.   statistische Methodik.
                     Dazu ist die Statistik, anders als Data Science, eine           Potenzial liegt auch in der Verschneidung von
                     gut etablierte wissenschaftliche Disziplin, die seit       Analysemethoden aus den beiden Disziplinen. Da-
                     über 100 Jahren die Grenzen von datenbasiertem             tenanalyse kann als ,,Pipeline“ gesehen werden.
                     Schließen nicht aus den Augen verloren hat. Und in         Daten als Input, ein Ergebnis (oder eine Problemlö-
                     Anbetracht dieser Grenzen muss die Frage erlaubt           sung) als Output. Mit immer komplexer werdenden
                     sein, ob nicht auch Anwendungen wie vollständi-            Daten muss diese Pipeline entsprechend umfängli-
                     ges autonomes Fahren, komplett automatisierte              cher werden. Statt einer Pipeline bestehend aus einer
                     Gesichtserkennung oder autonom fliegende Flug-              Methode sind Pipelines mit statistischen und ma-
                     taxen an statistische Grenzen stoßen. Aus meiner           schinellen Lernkomponenten gefragt. Exemplarisch
                     Sicht ist die Antwort auf diese Frage eindeutig. Das       sei hier die Bildverarbeitung genannt. Die Ergeb-
                     heißt nicht, dass man die Dinge nicht weiterverfol-        nisse von Bildverarbeitungsalgorithmen können als
                     gen sollte, aber man sollte die Grenzen erkennen, im       Input für statistische Modellierung dienen. Statisti-
                     Auge behalten und akzeptieren, dass sie sich tech-         sche Modellierung startet damit nicht bei den Daten,
                     nisch nicht lösen lassen. Statistische Gesetze lassen      sondern beim Output eines Algorithmus. Die Pipe-
                     sich nun einmal nicht aushebeln.                           line wird damit modularisiert und mit statistischen
                                                                                Modellen und/oder maschinellem Lernen bestückt.
                          Warum Data Science in der Statistik                   Aus statistischer Sicht ist dies ein Paradigmenwech-
                     Der vorherige Abschnitt unterstreicht die Bedeutung        sel, der im Bereich Data Science aber wegweisend
                     der Statistik im Bereich Data Science. Man kann die        und vielleicht auch unumgänglich ist.
                     Argumentation aber auch umdrehen und hinterfra-
                     gen, warum Data Science im Bereich Statistik wichtig           Diskussion
                     ist und welche neuen Denkrichtungen hier vonnöten          Aus meiner Sicht beschreiten wir einen spannenden
                     sind. An dieser Stelle wäre durchaus eine lange Liste      und sehr vielversprechenden Weg. Wir erleben, wie
                     an Punkten zu nennen, die aber ob der Ausrichtung          sich eine neue wissenschaftliche Disziplin entwi-
                     der Leserschaft dieses Artikels kurz gehalten ist.         ckelt und wir können viel zu ihrem Erfolg beitragen.
                     Einer der grundlegenden Nachteile von klassischer,         Data Science ist mehr als Statistik. Und Data Science
                     statistischer Modellierung ist, dass die Daten wei-        ist mehr als maschinelles Lernen, Artificial Intelli-
                     testgehend als statistisch angesehen werden. Daraus        gence und Big Data, um die Suchbegriffe von oben
                     ergeben sich statische, statistische Modelle. Gemeint      noch einmal aufzugreifen. Data Science ist die Kom-
                     ist hiermit, dass eine klassische statistische Mo-         bination aus unterschiedlichen Kompetenzen und

392   Informatik_Spektrum_42_6_2019
Methoden und ein allgemeines Herangehen an die                                      4. De Veaux RD, Agarwal M et al (2017) Curriculum guidelines for undergraduate
                                                                                       programs in data science. Annu Rev Stat Appl 4:2.1–2.16
neuen Herausforderungen, wie es die Royal So-                                       5. Gosh M, Mukhopadhy N, Sen PK (1997) Sequential Estimation. Wiley, New York
ciety für UK fordert und forciert [7], wäre auch in                                 6. Kauermann G, Küchenhoff H (2016) Statistik, data science und big data. AStA
                                                                                       Wirtsch Sozialstat Arch 10(2):141–150
Deutschland aus meiner (Statistiker-)Sicht dringend                                 7. Kauermann G, Seidl T (2018) Data science – A proposal for a curriculum. Int J
angeraten.                                                                             Data Sci Anal 6(3):195–199
                                                                                    8. Little RJA, Rubin DA (2002) Statistical Analysis With Missing Data. Wiley, Hobo-
                                                                                       ken, New Jersey
                                                                                    9. Meng XL (2018) Statistical paradises and paradoxes in Big Data (I): Law of large
     Literatur                                                                         populations, big data paradox, and the 2016 US Presidential election. Ann Appl
1. Angrist JD, Rubin DB, Imbens GW (1986) Identification of causal effects using       Stat 12(2):685–726
   instrumental variables. J Am Stat Assoc 91:444–455                              10. Molenberghs G, Fitzmaurice G, Kenward MG, Tsiatis A, Verbeke G (2015) Hand-
2. Bundespolizei (2018) Abschlussbericht des Bundespolizeipräsidiums zur biome-        book of missing data methodology. CRC Press, Boca Raton
   trischen Gesichtserkennung. https://www.bundespolizei.de/Web/DE/04Aktuelles/    11. Montgomery DC (2013) Design and analysis of experiments. Wiley
   01Meldungen/2018/10/181011_abschlussbericht_gesichtserkennung.html              12. The Royal Society (2019) Dynamics of data science skills. https://royalsociety.org/
3. Cleveland WS (2001) Data Science: An action plan for expanding the technical        topics-policy/projects/dynamics-of-data-science/, letzter Zugriff: 13.8.2019
   areas of the field of statistics. Int Stat Rev 69:21–26                         13. Tukey JW (1962) The future of data analysis. Ann Math Stat 33:1–67

                                                                                                                                                        Informatik_Spektrum_42_6_2019   393
{ HAUPTBEITRAG / BIG-DATA ANALYTICS

                                      Big-Data Analytics transformiert
                                      die Lebenswissenschaften
                                                                                                                              Ivo F. Sbalzarini

                     Die Lebenswissenschaften – Biologie, Medizin und        Entdeckung von DNS aufgestellt, die Entwicklung
                     Psychologie – sind im Unterschied zu anderen Na-        von Merkmalen z. B. in der Tier- und Pflanzenzucht
                     turwissenschaften wie Physik oder Chemie nicht          planbar und berechenbar wurde. Die Gemeinsam-
                     theoriegetrieben. In der Physik ist die Theorie den     keit dieser Theorien ist, dass sie biologische Prozesse
                     Experimenten oft Jahrzehnte voraus, z. B. in der        modellieren, nicht jedoch biologische Systeme. Sie
                     Quantenphysik oder der Relativitätstheorie, und         machen Aussagen darüber, wie sich Arten oder
                     auch in der Chemie ist seit der Entdeckung des Pe-      Populationen entwickeln, jedoch nicht darüber,
                     riodensystems der Elemente, und insbesondere seit       wie das einzelne Lebewesen im Innern funktio-
                     dem Verständnis der Nuklear- und Quantenphysik          niert. Systemische Theorien in der Zellbiologie,
                     Mitte des 20. Jahrhunderts, eine theoretische Grund-    der Entwicklungsbiologie, der Medizin oder der
                     lage vorhanden, welche die Wissenschaft von der         Psychologie sind weitestgehend unbekannt.
                     Alchemie zur modernen Chemie transformierte.                 Die Gründe dafür sind vielfältig. Erstens sind
                     Aufgrund dieser theoretischen Grundlagen kön-           lebende Systeme Nichtgleichgewichtssysteme. Dies
                     nen Physik und Chemie die Dynamik komplexer             ist insbesondere seit dem 1944 veröffentlichten Buch
                     Systeme mathematisch modellieren und in nu-             von Erwin Schrödinger What Is Life? The Physical
                     merischen Rechnersimulationen dieser Modelle            Aspect of the Living Cell bekannt. Thermodyna-
                     Verhalten vorhersagen und Systeme optimieren.           misches Gleichgewicht ist nur in lebloser Materie
                     Derart grundlegende und prädiktive Theorien             möglich. Lebende Systeme sind offene Systeme, die
                     sind in den Lebenswissenschaften praktisch nicht        ständig Masse und Energie aufnehmen, umsetzen
                     vorhanden.                                              und abgeben. Dies erschwert die Formulierung prä-
                          Die Gegenbeispiele, wo solche Theorien doch        diktiver physikalischer Theorien lebender Systeme,
                     vorhanden sind, zeigen aber, dass sie grundsätz-        denn viel der bekannten Physik basiert auf Gleich-
                     lich möglich sind. Darwins Evolutionstheorie ist so     gewichtsannahmen. Zweitens sind lebende Systeme
                     ein Gegenbeispiel. Vor Darwin erschien die Viel-        oft über viele Längenskalen gekoppelt, vom Molekül
                     falt der Arten und Lebewesen verwirrend, ihre           zum Organismus, und für eine vorhersagekräftige
                     Entstehung mysteriös und Beziehungen zwischen           Beschreibung kann keine der Skalen sinnvoll wegge-
                     ihnen waren unbekannt. Durch die einfache Idee der      lassen oder vernachlässigt werden. Mathematische
                     Merkmalevolution (,,survival of the fittest“) brachte
                     Darwins Theorie jedoch Struktur und Klarheit, noch                   https://doi.org/10.1007/s00287-019-01227-5
                     vor der Entdeckung der molekularen Grundlagen                        © The Author(s) 2019.
                                                                                          Ivo F. Sbalzarini
                     wie DNS, Gene und Aminosäuren. Dank Darwins                          Technische Universität Dresden, Fakultät Informatik, Institut
                     Theorie können wir mathematische Modelle der                         für Künstliche Intelligenz, Professur für Wissenschaftliches
                                                                                          Rechnen in der Systembiologie,
                     Evolution aufstellen und Stammbäume der Arten                        Nöthnitzer Str. 46, 01187 Dresden
                     algorithmisch errechnen, auch rückwärts in der                       Max-Planck-Institut für Molekulare Zellbiologie und Genetik,
                     Zeit. Ähnlich verhält es sich in der Genetik, wo seit                Zentrum für Systembiologie Dresden,
                                                                                          Pfotenhauerstr. 108, 01307 Dresden
                     Mendels Theorie der Vererbung, ebenfalls vor der                     E-Mail: sbalzarini@mpi-cbg.de

394   Informatik_Spektrum_42_6_2019
und physikalische Modelle hingegen werden meist           Chemie gekoppelten Mechanik stimmen kann [7],
auf einer bestimmten Skala formuliert, z. B. die          und heute wird auch die Informationsverarbei-
Schrödingergleichung auf der atomaren Skala, die          tung und die Algorithmik hinzugenommen [12].
Fokker-Planck-Gleichung auf der zellulären Skala          Die Systembiologie integriert somit Konzepte der
und die Theorien der Kontinuumsmechanik auf der           Biophysik und der Informatik mit den Daten der
Gewebe- und Organskala. Keine dieser Theorien al-         ,,-omik“-Experimente.
leine reicht also aus, Prozesse des Lebens zu erklären,        Aus Informatiksicht ist diese Integration insbe-
und Kopplungen zwischen verschiedenen Theorien            sondere aus zwei Aspekten spannend: Zum einen
sind Gegenstand aktueller Forschung. Drittens ha-         können Informatikmethoden diese Integration er-
ben lebende Systeme sehr viele Freiheitsgrade. Dank       möglichen oder beschleunigen, z. B. Methoden der
Newtons Theorie der Mechanik können wir z. B. die         Datenwissenschaften, der Rechnersimulation, der
Flugbahn eines Tennisballs oder eines Artilleriege-       Bildverarbeitung oder des maschinellen Lernens.
schosses vorhersagen und optimieren. Wir können           Zum anderen kann ein lebendes System, z. B. ein Ge-
aber nicht die Flugbahn eines Vogels erklären oder        webe oder ein Organ, auch selbst als ,,Rechner“, als
vorhersagen, denn der Vogel hat ein Gehirn mit Mil-       informationsverarbeitendes System verstanden wer-
lionen von Nervenzellen, jede mit hunderten von           den. In dieser Sichtweise ist jede Zelle eines Gewebes
Freiheitsgraden, die zusammenwirken um Entschei-          ein ,,Prozessor“, welcher mittels interner Signalver-
dungen über die Flugrichtung zu treffen. Nur wenn         arbeitung Berechnungen ausführt und mit anderen
wir alle diese inneren Freiheitsgrade modellieren         Prozessoren/Zellen kommuniziert. Während uns
und simulieren könnten, wären wir in der Lage die         diese Beschreibung v. a. für Nervensysteme intui-
Flugbahn des Vogels vorherzusagen.                        tiv ist, weil die Informationsverarbeitung dort über
    Das Formulieren und Validieren derartiger             elektrische Signale geschieht, womit eine direkte
Modelle setzt jedoch zuerst einmal voraus, dass           Analogie zu elektronischen Rechnern besteht, ist
Messdaten über die Dynamik einer genügend                 sie auch für andere Gewebe anwendbar. Dort findet
großen Anzahl dieser Freiheitsgrade vorhanden             die Informationsverarbeitung jedoch oft chemisch
sind. Um die letzte Jahrtausendwende entwickelte          statt und chemische Reaktionsnetzwerke nehmen
sich daher der neue Wissenschaftszweig der Sys-           die Rolle elektronischer Schaltkreise ein. Auch
tembiologie. Erstes Ziel der Systembiologie war die       ist die Kommunikation zwischen Zellen nicht auf
Entwicklung neuer Mess- und Experimentierver-             elektrische Signale beschränkt, sondern beinhaltet
fahren, welche es erlauben, möglichst viele interne       chemische und mechanische Signale sowie direkte
Freiheitsgrade eines biologischen Systems syste-          Zell-Zell-Kontakte über Membranproteine. Ein Ge-
matisch zu erfassen. Dazu gehörten Methoden zur           webe ist somit ein massiv paralleler Rechner mit
Sequenzierung vollständiger Genome, insbeson-             Millionen oder Milliarden von Prozessoren, welche
dere das Human-Genom-Projekt (,,Genomik“),                über ein topologisch selbstorganisiertes Netzwerk
Methoden zur Bestimmung aller Proteine in einer           miteinander verbunden sind. Die ,,Hardware“ dieses
Zelle (,,Proteomik“), Methoden zur Messung aller          Rechners sind die Materialien, aus denen die Zel-
chemischen Konzentrationen in einer Zelle (,,Meta-        len aufgebaut sind, also Proteine, Lipidmembranen,
bolomik“), etc. Ziel dieser sogenannten ,,-omik“-Ära      Nukleotide und andere Moleküle. Die ,,Software“ ist
war es, hinreichend viele Daten zu sammeln, um ein        das Genom, d. h. der in der DNS gespeicherte Buch-
integriertes Bild der Prozesse – vom Genom über           stabencode. Dank der Resultate aus Jahrzehnten
die Chemie der Zelle bis zur Mechanik von Gewe-           biologischer, biochemischer und systembiologischer
ben – zu erlangen, welche in ihrem Zusammenspiel          Forschung wissen wir sehr viel über die Hard-
,,Leben“ erzeugen.                                        ware und ihren Aufbau, und wir kennen auch den
    In Alan Turings berühmtem Artikel The che-            vollständigen genetischen Code einer exponentiell
mical basis of morphogenesis (1952) [15] wurde            wachsenden Zahl von Arten. Wir haben jedoch bis-
postuliert, dass Leben das Resultat komplexer che-        her fast kein Verständnis der Algorithmen, welche
mischer Reaktionsnetzwerke mit zehntausenden              dieser Code auf dieser Hardware implementiert.
verschiedener Substanzen ist. In der vergangenen               Diese Algorithmen zu entdecken, zu verstehen,
Dekade wurde jedoch klar, dass das Bild nur un-           wie sie Information verarbeiten und wie sie im Ge-
ter Hinzunahme einer eng und bidirektional an die         nom codiert sind, ist die große Herausforderung,

                                                                                                    Informatik_Spektrum_42_6_2019   395
{ BIG-DATA ANALYTICS

                     vor der die Systembiologie heute steht. Wie tref-       Modelle immer nur Teilsysteme beschreiben, z. B.
                     fen Zellen Entscheidungen? Wie weiß eine Zelle in       Blutströmung, Gewebemechanik oder die Kinetik
                     einem Embryo, wann und in welche Richtung sie           chemischer Reaktionsnetzwerke, die über Daten
                     sich zu teilen hat, wie groß sie wachsen soll, oder     gekoppelt werden müssen und außerdem typischer-
                     wohin sie migrieren soll, sodass im Konzert mit         weise viele unbekannte Parameter und Koeffizienten
                     den Millionen oder Milliarden anderer Zellen ein        haben, welche aus Daten geschätzt werden müssen.
                     funktionsfähiges Lebewesen entsteht und nicht ein            Hier ist ein ganzes Informatikökosystem zu
                     strukturloser Zellklumpen? Könnten wir die Algo-        entwickeln, wie in Abb. 1 schematisch abgebildet.
                     rithmen entschlüsseln und verstehen, nach denen         Am Anfang stehen große Datenmengen, welche
                     dies abläuft, und deren Implementierung in moleku-      oft in Echtzeit aus Laborgeräten strömen. Nebst
                     laren Netzwerken sowie deren Codierung im Genom         den ,,klassischen“ Daten wie Genomsequenzen,
                     verstehen, so wären wir in der Lage, Fehlfunktionen     Massenspektra von Molekülen oder mechanischen
                     dieser Algorithmen zu erkennen und zu beheben,          Messungen sind dies heute vermehrt Bildda-
                     sie umzuprogrammieren oder neu einzustellen. Die        ten von hochauflösenden 3D-Mikroskopen, z. B.
                     Implikationen für Medizin, Landwirtschaft, Phar-        Lichtblattmikroskopen. Diese Mikroskope liefern
                     makologie und Psychologie wären kaum absehbar,          zeitaufgelöste Videos, z. B. von der Entwicklung
                     und es wären auch ethische und humanitäre Aspekte       eines Embryos, mit subzellulärer Auflösung über
                     zu beachten und neu zu bewerten. Es könnte dann         Stunden oder gar Tage [8]. Sie erlauben es uns erst-
                     z. B. möglich werden, die Zellen an der Wunde eines     malig, Gewebebildung mit einer Genauigkeit zu
                     abgetrennten Fingers so umzuprogrammieren, dass         beobachten, welche die Entscheidungen und das
                     sie nicht die Wunde schließen und eine Narbe bil-       Verhalten einzelner Zellen erkennen lässt. Die dabei
                     den, sondern einen neuen Finger wachsen lassen, so      anfallenden Datenmengen und -raten sind jedoch
                     wie es im Embryo auch mal geschah. Auch wird es         eine Herausforderung. Moderne Mikroskope lie-
                     dann denkbar, Transplantationsorgane im Labor aus       fern zwischen 1 und 5 GB/s an Bilddaten. Ein Video
                     körpereigenen Zellen nachzuzüchten, indem diese         der Entwicklung eines Zebrafischembryos über 72
                     Zellen umprogrammiert werden und die Kommuni-           Stunden bis zum Larvenstadium, hat dann 1,3 TB.
                     kation der fehlenden umliegenden Zellen von einem       Diese Datenströme müssen in Echtzeit verarbeitet
                     elektronischen Rechner emuliert wird, wie dies in       (z. B. komprimiert, entrauscht, etc.), gespeichert und
                     den cyberbiologischen Systemen im Labor von Prof.       visualisiert werden.
                     Khammash (ETH Zürich) bereits an Einzelzellen                Da die Daten dreidimensional sind, erfolgt die
                     funktioniert [10]. Die Möglichkeiten in Diagnos-        Visualisierung idealerweise ebenfalls dreidimensio-
                     tik und Therapie sind schier grenzenlos, und eine       nal, z. B. mittels Techniken der virtuellen Realität
                     Star-Trek-Medizin könnte Realität werden.               (VR) oder der erweiterten Realität (AR). Mit gängi-
                          Um diese Herausforderung zu meistern, be-          gen WUXGA VR-Systemen erfordert dies 1–2 Gpix/s
                     darf es neuer physikalischer Theorien, wie z. B.        an Renderingleistung, welche verteilt auf einem
                     der Ungleichgewichtstheorie der aktiven Materie,        Cluster von Grafikkarten erbracht werden muss.
                     neuer Mess- und Beobachtungsmöglichkeiten, wie          Geschieht das in Echtzeit, so wird es möglich, ins
                     z. B. KI-gesteuerter automatisierter 3D-Mikroskope      Spezimen ,,einzutauchen“ und z. B. in einem sich
                     und neuer Informatikmethoden. Letzteres beinhal-        entwickelnden Embryo spazieren zu gehen und sich
                     tet Algorithmen zur numerischen Simulation der          umzuschauen, auch im Inneren, wo man bei einer
                     neuen physikalischen Theorien, Visualisierungs-         normalen, projektiven Darstellung nicht hineinsieht.
                     und Interaktionsmodi für multimodale Daten,             Noch besser wird es, wenn die Wissenschaftlerin
                     Datenbanken zum Ablegen, Strukturieren und              oder der Wissenschaftler direkt über natürliche
                     Wiederfinden heterogener Daten, sowie Big-Data           Benutzerschnittstellen mit dem Spezimen intera-
                     Analytics zur Auswertung der Daten und zum              gieren kann. Dies könnte z. B. ermöglichen, dass
                     Entdecken von Modellen und Mechanismen.                 die Bewegung oder das Verhalten einer Zelle durch
                          Die Datenwissenschaften nehmen dabei eine          bloßes Ansehen der Zielzelle (mittels Pupillentra-
                     zentrale Rolle ein. Dies zum einen weil dank ,,-omik“   cker) aufgezeichnet werden kann, dass Laserschnitte
                     große Datenmengen vorhanden sind und stets wei-         im Gewebe durch Handgesten ausgeführt werden
                     ter wachsen, zum anderen weil biophysikalische          können, oder dass Gene in einzelnen Zellen durch

396   Informatik_Spektrum_42_6_2019
Abb. 1 Schematische Darstellung des Arbeitsablaufs. Hochauflösende 3D Bilder von Mikroskopen zeigen in Echtzeit die
Entwicklung eines Embryos (hier im Bild: ein Fruchtfliegenembryo). Diese Bilder werden immersiv in virtueller Realität
dargestellt und mit Resultaten numerischer Computersimulationen der vermuteten biologischen und physikalischen
Prozesse überlagert, um zu prüfen, ob die Vermutungen hinreichend zur Erklärung des Embryoverhaltens sind. Die
Simulationsmodelle werden von Lernalgorithmen aus Nutzerinteraktionen in der virtuellen Realität einerseits und, mittels
datengetriebenen maschinellen Lernens direkt auf den Rohbildern andererseits, ermittelt und verbessert. Um Datenraten
und Modellkomplexitäten zu erreichen, die zum Verständnis biologischer Systeme notwendig sind, laufen alle Prozesse auf
einer Hochleistungsrechenplattform in einer einheitlichen Softwareumgebung

Antippen mit dem Finger in der virtuellen Realität                Embryos leicht unterschiedlich entwickeln, so kann
über optogenetische Schalter an- und ausgeschaltet                auch die Wissenschaftlerin oder der Wissenschaftler
werden können. Durch die direkte Beobachtung der                  in der virtuellen Realität mittels Handgesten ent-
raumzeitlichen Reaktion des Gewebes auf derar-                    sprechende Bereiche markieren. Diese Information
tige Perturbationen lassen sich dann Rückschlüsse                 wird dann einem Lernalgorithmus zur Verfügung
ziehen über die Kommunikation zwischen Zellen                     gestellt, welcher daraus das Simulationsmodell oder
und über die Funktion einzelner Zellen oder Gene.                 dessen Parameter optimiert.
Dadurch entsteht eine ganz neue Qualität von Ver-                      Mathematische Modelle können aber auch, so-
ständnis, und es entstehen im Kopf der Betrachterin               zusagen hypothesenfrei, direkt aus Daten gelernt
oder des Betrachters unweigerlich Hypothesen über                 werden. Für raumzeitliche Prozesse könnte man
die Funktionsweise des ,,zellulären Rechners“.                    z. B. versuchen, eine mathematische Beschreibung
     Diese Hypothesen können dann, in mathe-                      der Dynamik des Prozesses direkt aus Beobach-
matischen Modellen formalisiert, in numerischen                   tungsdaten zu lernen. Es wäre dann möglich, die
Simulationen getestet werden. Das heißt, durch                    physikalischen Modelle der Strömungsmechanik,
numerische Vorhersage des Gewebeverhaltens, wel-                  die Navier-Stokes-Gleichungen, direkt aus Video-
ches aus einem hypothetischen Modell resultieren                  aufnahmen von Flüssigkeitsströmungen zu lernen,
würde, kann gezeigt werden, ob oder dass das Mo-                  ohne physikalische Annahmen oder Verständnis der
dell hinreichend ist zur Erklärung des beobachteten               zugrunde liegenden Prinzipien. Diese Prinzipien
Verhaltens. Spannend sind auch immer die Fälle                    könnten dann aber durch Analyse der gelernten ma-
oder die Teilbereiche der Daten, in denen die Si-                 thematischen Modelle entdeckt werden. Dass dies
mulationsvorhersage nicht passt. Sind Fehlermaße                  grundsätzlich geht, zeigte eine Arbeitsgruppe um
bekannt, so kann dies rechnerisch ermittelt werden.               Prof. Nathan Kutz von der University of Washington.
Sind sie nicht bekannt, wie oft in der Entwicklungs-              Sie entwickelten den PDE-FIND-Algorithmus [13],
biologie, wo sich auch zwei genetisch identische                  welcher interpretierbare mathematische Differenti-

                                                                                                                    Informatik_Spektrum_42_6_2019   397
{ BIG-DATA ANALYTICS

                     algleichungsmodelle dynamischer Prozesse direkt        die Entwicklung einer Theorie zur konsistenten Ap-
                     aus raumzeitlichen Beobachtungsdaten lernt. Eine       proximation beliebiger Differenzialoperatoren auf
                     Übertragung dieser Idee auf Mikroskopievideos in       irregulär verteilten Datenpunkten [14], die Verallge-
                     den Lebenswissenschaften hätte großes Potenzial,       meinerung der klassischen Newton-Interpolation
                     denn die zugrunde liegenden physikalischen Prinzi-     auf hochdimensionale Räume [6], Beweise von
                     pien und deren mathematische Modelle sind hier oft     Fehlerschranken in der Funktionsapproxima-
                     (noch) unbekannt.                                      tionstheorie [3] und die Entwicklung verteilter
                           Schließlich läuft das ganze Labor der Zukunft    Graphenzerlegung [1]. Dadurch wurde es möglich,
                     auf einer Hochleistungsrechenplattform, sodass die     wichtige Probleme in den Datenwissenschaften an-
                     Resultate der numerischen Simulationen in unter ei-    zupacken, deren Lösung für die Anwendungen der
                     ner Sekunde zur Verfügung stehen, die Datenströme      Lebenswissenschaften essenziell ist. Drei Beispiele
                     in Echtzeit verarbeitet werden und die Lernalgorith-   seien genannt:
                     men in der Schleife mitlaufen. Damit das System             (1) Das Lernen von Modellen aus Daten wird ty-
                     auch erweiterbar, flexibel und neuen biologischen       pischerweise als Optimierungsproblem verstanden.
                     und physikalischen Modellhypothesen anpassbar          So ist es die übliche Herangehensweise im maschi-
                     ist, sollte diese Hochleistungsrechenplattform auf     nellen Lernen, ein Modell zu trainieren, welches
                     einer modularen und skalierbaren Software basieren     die Trainingsdaten so gut wie möglich wiedergibt.
                     und idealerweise über eine oder mehrere domänen-       Dazu wird eine Kostenfunktion definiert, welche
                     spezifische Hochsprachen und einen optimierenden        den Regressionsfehler misst, und die dann mini-
                     Compiler verfügen, um Code-Entwicklungszeiten zu       miert wird, um das Modell oder dessen Parameter
                     reduzieren. Soweit die Wunschliste.                    zu lernen. Wenn sehr viele Datenpunkte vorhanden
                           Die Arbeitsgruppe des Autors am Zentrum für      sind, so funktioniert das sehr gut, wie z. B. im Deep
                     Systembiologie Dresden und an der Technischen          Learning. In den Lebenswissenschaften sind aber
                     Universität Dresden, sowie am Max-Planck-Institut      meist nicht Millionen von Datenpunkten verfüg-
                     für Molekulare Zellbiologie und Genetik in Dres-       bar, sondern ,,nur“ ein paar hundert bis tausend.
                     den und am DFG-Exzellenzcluster ,,Physik des           Jeder einzelne Datenpunkt ist aber sehr groß. Deep
                     Lebens“, entwickelt seit über 10 Jahren die theo-      Learning und optimierungsbasierte Verfahren im
                     retischen, algorithmischen und technologischen         Allgemeinen neigen in diesen Fällen zu Überan-
                     Grundlagen dieser Vision. Dazu gehören neuar-          passung („overfitting“), wobei die Trainingsdaten
                     tige numerische Simulationsverfahren, mit denen        im Wesentlichen auswendig gelernt werden mit
                     es möglich wurde, die physikalische Theorie der ak-    sehr geringer Vorhersagekraft auf neue, im Trai-
                     tiven Materie zu simulieren, um z. B. vorhersagen      ning ungesehene Daten. Genau dies ist aber Sinn
                     zu können, zu welcher Form ein Gewebe heran-           und Zweck der Inferenz. Bereits seit den grund-
                     wächst. Dazu gehört auch ein VR/AR-System zur          legenden Arbeiten von Gregor Kjellström in den
                     immersiven Echtzeitdarstellung großer 3D-Bild- und     1970er-Jahren ist jedoch bekannt, dass es eine al-
                     Videodaten, inkl. der entsprechenden Open-Source-      ternative Formulierung des Problems gibt, bei der
                     Software scenery (github.com/scenerygraphics).         Überanpassung nicht vorkommen kann: Design
                     Dazu gehört die Entwicklung und Implementierung        Centering [9]. Hier wird davon ausgegangen, dass
                     einer Softwareplattform für skalierbares paralleles    es gerade bei komplexen Systemen und begrenzten
                     Hochleistungsrechnen auf CPUs und GPUs namens          Daten viele Modelle geben kann, die akzeptabel gut
                     OpenFPM (openfpm.mpi-cbg.de), sowie eine dazu          passen. Was akzeptabel ist, wird z. B. durch die Mess-
                     passende domänenspezifische Hochsprache. Diese          fehler in den Daten definiert. Alle Modelle, welche
                     ermöglicht es, verteilte Anwendungen für nume-         die Daten innerhalb der Messungenauigkeit wieder-
                     rische Simulation und Datenanalyse in wenigen          geben, sind akzeptabel. Im Allgemeinen ist man
                     Stunden oder Tagen zu implementieren, was vorher       frei, beliebige Akzeptanzkriterien zu definieren,
                     oft eine gesamte Doktorarbeit von mehreren Jahren      welche z. B. auch die Modellkomplexität, die Re-
                     in Anspruch nahm.                                      chenkosten, o. ä. berücksichtigen. Es muss lediglich
                           Diese algorithmischen Fortschritte beruhen auf   gewährleistet sein, dass die Kriterien für ein gege-
                     einer Reihe von theoretischen Vorarbeiten, welche      benes Modell überprüft werden können. Im Raum
                     diese Technologie erst ermöglichen. Dazu gehört        aller möglichen Modelle bilden die akzeptablen

398   Informatik_Spektrum_42_6_2019
Sie können auch lesen