Data Literacy und Data Science Education: Digitale Kompetenzen in der Hochschulausbildung - Deutsche Physikalische ...

Die Seite wird erstellt Dastin Schulz
 
WEITER LESEN
Data Literacy und Data Science Education:
Digitale Kompetenzen in der Hochschulausbildung

Policy Paper der Präsidiums-Task-Force „Data Science“ der Gesellschaft für Infor-
matik e.V. in Zusammenarbeit mit Vertretern der Deutschen Mathematiker-
Vereinigung e.V., der Deutschen Physikalischen Gesellschaft e.V. und der Gesell-
schaft Deutscher Chemiker e.V.

                                                                            GI.DE

                                     Seite 1
IMPRESSUM

Herausgabe

Gesellschaft für Informatik e.V.
Spreepalais am Dom
Anna-Louisa-Karsch-Str. 2
10178 Berlin
gi.de

Stand

April 2018

Bildnachweis

Monsitj

Copyright

Diese Publikation steht unter CC-BY-SA-Lizenz: Es ist
gestattet, das Werk zu vervielfältigen, zu verbreiten
und öffentlich zugänglich zu machen. Zudem ist es
erlaubt die Publikation zu bearbeiten und abzuwan-
deln, sofern folgende Bedingungen eingehalten werden:

   •      Namensnennung: Nutzerin oder Nutzer müssen Urheber bzw. Rechteinhaber
          in der festgelegten Weise, die URL sowie den Titel des Werkes nennen und
          bei einer Abwandlung einen Hinweis darauf geben.
   •      Weitergabe unter gleichen Bedingungen: Sofern das lizenzierte Werk bear-
          beitet, abgewandelt oder als Vorlage für ein neues Werk verwendet wird,
          darf das neu entstandene Werk nur unter dieser oder einer zu dieser kom-
          patiblen Lizenz genutzt und weiterverbreitet werden.
   •      Lizenzangabe: Nutzerin oder Nutzer müssen Anderen alle Lizenzbedingun-
          gen mitgeteilt werden, die für dieses Werk gelten. Am einfachsten ist es,
          wenn dazu ein Link auf den Lizenzvertrag eingebunden wird.

                                       Seite 2
GELEITWORT

Sehr geehrte Damen und Herren,

liebe Leserin, lieber Leser,

der Begriff „Data Science“ – die Da-                ten Staaten aus. Auch in Deutschland
tenwissenschaft – stammt aus den                    ist der Bedarf groß. Ein Geschäfts-
Anfängen der Datenhaltung und -                     überblick der Universität Harvard
analyse, die bis in die 1960er Jahre                kürte den „Data Scientist“ sogar zum
zurückgehen. Mit der zunehmenden                    „attraktivsten Beruf des 21. Jahrhun-
Bedeutung von „Big Data“ rückte die                 derts“.
Wissenschaft der Daten weiter in den
                                                    In der Wissenschaft beschäftigt sich
Fokus. Der Schwerpunkt der „Data
                                                    Data Science mit unterschiedlichen
Science“ liegt dabei nicht bei den
                                                    Bereichen und kann daher verschie-
Daten selbst, sondern auf der Art und
                                                    dene akademische Hintergründe ha-
Weise, wie diese verarbeitet, aufberei-
                                                    ben: Informatik, Statistik, Mathematik,
tet und analysiert werden. Data Sci-
                                                    Natur- oder Wirtschaftswissenschaf-
ence beschäftigt sich mit einer
                                                    ten, einschließlich des maschinellen
zweckorientierten Datenanalyse und
                                                    Lernens, des statistischen Lernens,
der systematischen Generierung von
                                                    der Programmierung, der Datentech-
Entscheidungshilfen und -grundlagen,
                                                    nik, der Mustererkennung, der Prog-
um Wettbewerbsvorteile erzielen zu
                                                    nostik, der Modellierung von Unsi-
können.
                                                    cherheiten und der Datenlagerung.
Im Unternehmensumfeld ist das                       Mittlerweile existiert eine Reihe von
Thema häufig im Bereich Business                    Data-Science-Bachelor- oder -Master-
Intelligence angesiedelt. IT-                       studiengängen.
Unternehmen, Banken und Bera-
                                                    Aufgrund der wachsenden Bedeutung
tungsfirmen suchen die auf große
                                                    dieses neuen Wissenschaftsfeldes an
Datenmengen spezialisierten Analys-
                                                    der Schnittstelle zu verschiedenen
ten genauso wie Autohersteller, Ver-
                                                    Anwendungsbereichen – sowohl für
sicherungen und Verwaltungsbehör-
                                                    Forschung als auch für die Lehre –
den. Die Unternehmensberatung
                                                    hat die Gesellschaft für Informatik e.V.
McKinsey geht für 2017 von 150 000
                                                    die Task-Force „Data Science“ ins Le-
offenen Stellen allein in den Vereinig-
                                                    ben gerufen. Diese interdisziplinäre

                                          Seite 3
Arbeitsgruppe geht der Frage nach,                  Im Koalitionsvertrag von CDU/CSU
was einen Data Scientist in Abgren-                 und SPD heißt es: „Die Hightech-
zung zu bestehenden Wissenschafts-                  Strategie wird weiterentwickelt und
disziplinen wie der Informatik aus-                 auf die großen gesellschaftlichen
macht und welche Kompetenzen ein                    Herausforderungen fokussiert. […] Es
Datenwissenschaftler und eine Da-                   gilt heute Data Science in allen Berei-
tenwissenschaftlerin mitbringen müs-                chen, insbesondere aber in den
sen. Wir wollen der Frage nachgehen,                Hochschulen, auszubauen. Dazu muss
wie Universitäten und Hochschulen                   der Umgang mit Daten zu einem zent-
das Profil eines Data Scientist defi-               ralen eigenen Wissenschaftsfeld und
nieren und wie sich das vom Ver-                    einer eigenen Disziplin werden.“
ständnis in Unternehmen abgrenzt.
                                                    Die Gesellschaft für Informatik e.V.,
In Abgrenzung dazu bedarf es auch                   die mit 20.000 Mitgliedern die größte
grundlegender digitaler Kompetenzen                 Fachgesellschaft für Informatik im
in der Breite der Studierendenschaft:               deutschsprachigen Raum ist, will die-
Eine Data Literacy. Data Literacy ist               se Entwicklung maßgeblich mitgestal-
die Fähigkeit des planvollen Umgangs                ten.
mit Daten. In Ergänzung zu speziali-
                                                    Diese Publikation ist ein Beitrag dazu.
sierten Fachkräften – den Data Scien-
                                                    Sie stellt eine Zusammenfassung der
tists – liegt der Fokus auf der be-
                                                    im Workshop vorgestellten Impulse
darfsgerechten, Disziplinen übergrei-
                                                    dar und soll das Diskussionsfeld rund
fendem Know-how, um datengestützt
                                                    um den Themenbereich „Data Sci-
arbeiten und entscheiden können.
                                                    ence“ aufspannen. Die folgenden Bei-
In einem interdisziplinären Workshop                träge reflektieren dabei ausschließ-
mit Beteiligung von Vertreterinnen                  lich die Meinungen der Autorinnen
und Vertretern der Deutschen Ma-                    und Autoren.
thematiker-Vereinigung e.V., der
                                                    Wir wünschen viel Spaß bei der Lek-
Deutschen Physikalischen Gesell-
                                                    türe und freuen uns über weitere
schaft e.V. und der Gesellschaft Deut-
                                                    Beiträge.
scher Chemiker e.V., der Ende Januar
2018 unter dem Titel „Data Science:
Vom Buzz-Word zu einer neuen Me-
thodik des (wissenschaftlichen) Ar-
beitens im 21. Jahrhundert“, in Berlin              Ihr Peter Liggesmeyer
stattfand, wurden verschiedene Per-                 Past-President und Sprecher der
spektiven hinsichtlich „Data-Literacy“-             Präsidiums-Task-Force Data Science
und „Data-Science“-Kompetenzen in                   der Gesellschaft für Informatik e.V.
Deutschland aufgezeigt.

                                          Seite 4
INHALTSVERZEICHNIS
GELEITWORT                                                                          3

GRUNDLEGENDE DIGITALE KOMPETENZEN IN DER HOCHSCHULAUSBILDUNG                        6
DATA LITERACY: DATA SKILLS IN DER BREITE DER HOCHSCHULAUSBILDUNG                    6
DATA LITERACY UND DAS MODELL DER SCHLÜSSELKONZEPTE DES DATENMANAGEMENTS            10

DATA SCIENCE EXPERTS: BEDARF UND MÖGLICHKEITEN DIESEN ZU DECKEN                    14
IRGENDWAS MIT DATEN… WARUM WIR DATA SCIENTISTS BRAUCHEN                             14
QUALITÄTSANFORDERUNGEN FÜR DATA SCIENCE IN DEUTSCHLAND                              19
DATA SCIENCE IN DER DEUTSCHEN HOCHSCHULLANDSCHAFT                                   22
DATA-SCIENCE-KOMPETENZZENTREN ALS SCHLÜSSEL ZUM ERFOLG                              25
DATA SCIENCE UND DIE QUALITÄT VON DATEN                                            28
DATA SCIENCE IM ANGLOAMERIKANISCHEN KONTEXT: STATUS QUO EINES MODERNEN STUDIEN- UND
BERUFSBILDS                                                                         31

DATA SCIENCE ALS INTERDISZIPLINÄRE HERAUSFORDERUNG FÜR DIE WISSENSCHAFT
                                                                      34
INTERDISZIPLINÄRE DATEN-LABORATORIEN ALS ANTWORT AUF DIE „DATA CHALLENGE“          37
DATA SCIENCE IN DEN SOZIALWISSENSCHAFTEN                                           40
DATA SCIENCE AUS SICHT DER MATHEMATIK                                              44
DIE BEDEUTUNG VON DATA SCIENCE FÜR DIE CHEMIE                                      47

DATA SCIENCE EDUCATION IN DER PRAXIS                                               50
DATA SCIENCE: VON DER WISSENSCHAFT ZUM ERFOLGSFAKTOR FÜR UNTERNEHMEN               50
DATA SCIENTISTS IN DEUTSCHLAND: ÜBER TALENTMANGEL, DEN LÜCKENSCHLUSS ZWISCHEN
PROMOTION UND INDUSTRIE SOWIE FIRMENINTERNE WEITERBILDUNG                          53

AUSBLICK                                                                           56
VON DATA LITERACY BIS DATA SCIENCE: DER HANDLUNGSBEDARF IN DER DEUTSCHEN
HOCHSCHULLANDSCHAFT                                                                56

                                       Seite 5
GRUNDLEGENDE DIGITALE KOMPETENZEN IN DER HOCH-
SCHULAUSBILDUNG

Data Literacy: Data Skills in der Breite der Hochschulaus-
bildung
Von Dr. Jens Heidrich, Fraunhofer-Institut für Experimentelles Software Engineering
IESE, Kaiserslautern, und Daniel Krupka, Gesellschaft für Informatik e.V., Berlin

Data Literacy ist die Fähigkeit des planvollen Umgangs mit Daten. In Ergänzung zu
spezialisierten Fachkräften – den Data Scientists – liegt der Fokus auf der bedarfs-
gerechten, Disziplinen übergreifenden Vermittlung von Wissen, um datengestützt
arbeiten und entscheiden können. Data Literacy wird als eine zentrale Kompetenz
für Digitalisierung und globale Wissensgesellschaft gesehen. Eine Herausforderung
liegt darin, dass Kompetenzen aus verschiedenen Disziplinen integriert werden
müssen und ein an die Bedürfnisse des Anwendungsfelds angepasstes Angebot
kreiert werden muss.

Die Fähigkeit, planvoll mit Daten um-                In der Lesart der kanadischen For-
zugehen und sie im jeweiligen Kon-                   scher ist Data Literacy eine zentrale
text bewusst einsetzen und hinterfra-                Kompetenz für die Digitalisierung und
gen zu können, wird über alle Studi-                 die globale Wissensgesellschaft in
enrichtungen hinweg immer wichti-                    allen Sektoren und Disziplinen. Ange-
ger. Eine Studie der Dalhousie Univer-               sichts der zunehmenden Menge und
sity in Kanada (Ridsdale et al.1) fasst              der Verfügbarkeit von Daten stellt
diese Fähigkeit unter dem Begriff Da-                sich die Herausforderung, mit den
ta Literacy zusammen. Dies beinhaltet                Daten Wissen zu generieren und fun-
die Kompetenzen, Daten erfassen,                     diert Entscheidungen treffen zu kön-
erkunden, managen, kuratieren, ana-                  nen.
lysieren, visualisieren, interpretieren,
                                                     Aus Sicht des Hochschulforums Digi-
kontextualisieren, beurteilen und
                                                     talisierung braucht es hierfür „auf der
anwenden zu können.
                                                     einen Seite spezialisierte Fachkräfte –
                                                     Data Scientists – und auf der anderen
                                                     Seite in allen Sektoren und Fächern
1
  Ridsdale et al. (2015): Strategies and             datengewandte Expertinnen und Ex-
Best Practices for Data Literacy Educa-              perten sowie Führungskräfte, die in
tion: Knowledge Synthesis Report, 2015.

                                           Seite 6
ihren jeweiligen Gebieten Fragen zu                    tionelle Kompetenzen, Kernkompe-
den Daten formulieren und Daten-                       tenzen sowie fortgeschrittene Kompe-
analysen fachlich interpretieren kön-                  tenzen unterschieden. Darüber hin-
nen, insgesamt also datengestützt                      aus wurde eine Reihe von Empfeh-
arbeiten und entscheiden können.“2                     lungen erarbeitet, wie „Data Literacy“
                                                       erfolgreich an Hochschulen vermittelt
Die kanadischen Forscher haben dazu                    und verbreitet werden kann.
22 Kompetenzen mit zugehörigen Fä-
higkeiten, Wissen und Aufgaben iden-
tifiziert und in 5 Kompetenzfelder
gruppiert. Zusätzlich werden konzep-
    Conceptual Framework      Introduction to Data
    Data Collection           Data Discovery and Collection
                              Evaluating and Ensuring Quality of Data and Sources
    Data Management           Data Organization
                              Data Manipulation
                              Data Conversion
                              Metadata Creation and Use
                              Data Curation, Security and Re-Use
                              Data Preservation
    Data Evaluation           Data Tools
                              Basic Data Analytics
                              Data Interpretation (Understanding Data)
                              Identifying Problems Using
                              Data Visualization
                              Presenting Data (Verbally)
                              Data Driven Decisions Making (DDDM)
    Data Application          Critical Thinking
                              Data Culture
                              Data Ethics
                              Data Citation
                              Data Sharing
                              Evaluating Decisions based on Data

    Abbildung 1: Data-Literacy-Kompetenzen nach Ridsdale et al.

2
  Ausschreibung einer Studie „Übergrei-
fende Kompetenzen und Studieninhalte
in der digitalen Welt am Beispiel von Data
Literacy“.

                                             Seite 7
Ausgehend von den Vorarbeiten der                   Fazit und Ausblick
Dalhousie University arbeitet die Ge-
                                                    Erste „Lessons Learned“ und Empfeh-
sellschaft für Informatik zusammen
                                                    lungen, die auf der Literatur- und
mit dem Fraunhofer-Institut für Expe-
                                                    Desk-Research-Phase identifiziert
rimentelles Software Engineering IESE
                                                    werden konnten, sind:
an einer Studie, um umsetzbares Wis-
sen für Hochschulen und Fächer für                  1) Es ist eine große Herausforde-
die Curriculumentwicklung im Hin-                      rung, möglichst früh das Be-
blick auf übergreifende Kompetenzen                    wusstsein für die Wichtigkeit von
und Inhalte in der digitalen Welt an-                  Data Literacy bei Studierenden
hand der Kompetenz der Data Lite-                      und den Bildungsinstitutionen zu
racy zusammenzustellen. Insbesonde-                    schaffen.
re soll die Studie beleuchten, wie die              2) Es bedarf des Aufbaus einer dis-
Kompetenz der Data Literacy von al-                    ziplinunabhängigen Institution,
len Studierenden immersiv erworben                     die Forschende und Lehrende
werden kann.                                           aus verschiedenen Kompetenz-
                                                       feldern (wie informatische, ma-
Dazu wurden aus 83 internationalen
                                                       thematische und Domänen-
Studien- und Weiterbildungsangebo-
                                                       Kompetenzen) zusammenbringt.
ten 13 ausgewählt, die nun einer nä-
                                                    3) Es bedarf des Einsatzes kreativer
heren Betrachtung unterzogen wer-
                                                       Lehransätze mit technologischen
den, um im Rahmen von Interviews
                                                       Hilfsmitteln, u.a. „Hands-on“,
und einem Workshop entsprechende
                                                       „Modul-basiertes“ und „Projekt-
Inhalte, Erfahrungen und Empfehlun-
                                                       basiertes“ Lernen in Workshops
gen für die Vermittlung und Verbrei-
                                                       oder Labs mit realen Daten
tung von Data Literacy zusammenzu-
                                                    4) Es bedarf einer genauen Betrach-
stellen. Vorbilder für die erfolgreiche
                                                       tung der Bildungsniveaus und
Etablierung entsprechender Angebote
                                                       Disziplinen, um die Angebote
in Hochschulen finden sich insbeson-
                                                       entsprechen anzupassen, denn
dere im angloamerikanischen Raum;
                                                       nicht jede/r braucht das kom-
aber auch innerhalb von Europa und
                                                       plette Spektrum der Data-
Deutschland gibt es bereits vielver-
                                                       Literacy-Kompetenzen.
sprechende Ansätze, die näher be-
                                                    5) Data Literacy sollte in der gesam-
trachtet werden.
                                                       ten Breite der Hochschulausbil-
                                                       dung vermittelt werden.

                                          Seite 8
Über die Autoren

Dr. Jens Heidrich ist Hauptabteilungsleiter Prozessmanagement am Fraunhofer-
Institut für Experimentelles Software Engineering IESE. Der promovierte Informati-
ker leitet die Durchführung der Data-Literacy-Studie für das Hochschulforum Digi-
talisierung.

Daniel Krupka ist Geschäftsführer der Gesellschaft für Informatik e.V. und leitet die
Berliner Geschäftsstelle der Fachgesellschaft. Dort ist der Verwaltungswissenschaft-
ler u.a. verantwortlich für die Kontakte zu Politik, Wirtschaft und Gesellschaft.

                                       Seite 9
Data Literacy und das Modell der Schlüsselkonzepte des
Datenmanagements
Von Andreas Grillenberger und Prof. Dr. Ralf Romeike, Friedrich-Alexander-
Universität Erlangen-Nürnberg

Data Literacy ist ein Bereich der informatischen Bildung, welcher sowohl mit den
(Weiter-) Entwicklungen des Forschungsbereichs Datenbanken als auch den kor-
respondierenden gesellschaftlichen Anforderungen in Verbindung steht. In der
berufsbezogenen Ausbildung und für die Allgemeinbildung gewinnt Data Literacy
zunehmend an Bedeutung. Zur fachlichen Fundierung wird der Bezug auf das Mo-
dell der Schlüsselkonzepte des Datenmanagements vorgeschlagen und ein Data-
Literacy-Kompetenzmodell skizziert.

Die Didaktik der Informatik erforscht                 verständlich und helfen Lehr- und
und beschreibt informatische Bil-                     Lerninhalte herauszudestillieren.
dungsgegenstände bezogen auf die
                                                      Ein zentraler Gegenstand der Infor-
berufliche Ausbildung und die Allge-
                                                      matik ist die Verwaltung und Verar-
meinbildung. Eine ihrer zentralen
                                                      beitung von Daten. Deren Relevanz
Aufgaben ist die Betrachtung tragfä-
                                                      und Wahrnehmung hat in den letzten
higer Kernaspekte der Wissenschaft
                                                      Jahren, insbesondere mit der Digitali-
Informatik mit dem Ziel, nachhaltige
                                                      sierung aller Lebensbereiche, deut-
Lerngegenstände und Kompetenzen
                                                      lich zugenommen, wodurch sich ihre
zu ermitteln. Hierzu werden Ansätze
                                                      Bedeutung auch außerhalb der In-
wie die Fundamentalen Ideen der
                                                      formatik geändert hat. Sowohl für den
Informatik3 oder die Great Principles
                                                      alltäglichen als auch den beruflichen
of Computing4 herangezogen, welche
                                                      Umgang mit Daten sind heute grund-
die Informatik oder eines ihrer Teil-
                                                      legende Kompetenzen essentiell, die
gebiete durch zentrale Begriffe, Kon-
                                                      oft unter dem Begriff Data Literacy
zepte, Ideen oder Prinzipien charakte-
                                                      subsumiert werden.
risieren. Dadurch vermitteln diese
einen Einblick in die betrachtete Wis-                Zur Ermittlung der zentralen Inhalte
senschaftsdisziplin, strukturieren sie                und Kompetenzen, die hinter dem
                                                      Begriff Data Literacy stehen, sowie zu
                                                      deren fachlicher Fundierung kann das
3
  Schwill, Andreas (1993): Fundamentale               Modell der Schlüsselkonzepte des
Ideen der Informatik. In: Zentralblatt für
Didaktik der Mathematik, 25(1).
4
  Denning, Peter J. (2003): Great Principles
of Computing. In: Commun ACM, 46(11).

                                               Seite 10
Datenmanagements5 (vgl. Abbildung                   quellen sowie Datenerfassung/-
2) verwendet werden. Dieses nimmt,                  gewinnung miteinander, während „die
in Anlehnung an o.g. Arbeiten zum                   kontinuierliche Erfassung von Daten
Fundament der Informatik, eine Cha-                 durch und über uns beurteilen“ die
rakterisierung des Fachgebiets vor                  Verknüpfung von Datenethik, legalen
und stellt die zentralen Bereiche des               und gesellschaftlichen Aspekten mit
Themenfelds Daten strukturiert dar.                 der Datenerfassung/-gewinnung be-
                                                    tont und „eine (einfache) korrelati-
Eine empirische Untersuchung der
                                                    onsbasierte Datenanalyse auf geeig-
Inhalte und Kompetenzen, die in ver-
                                                    neten Daten durchführen“ die
schiedenen Data-Science-
                                                    Grundsätze der Datenanalyse sowohl
Studiengängen enthalten sind, liefert
                                                    mit der Datenerfassung/-gewinnung
auf dieser Basis einen Entwurf eines
                                                    als auch der Analyse, Visualisierung
Data-Literacy-Kompetenzmodells (vgl.
                                                    und Evaluation in Verbindung setzt.
Abbildung 3). Dieses Kompetenzmo-
dell beinhaltet die Data-Literacy-                  Um das Kompetenzmodell weiter zu
Kompetenzen nach Ridsdale et al.,                   fundieren und auszudifferenzieren,
stellt den Bereich aber mit einem                   aber auch um den Gegenstandsbe-
stärkeren fachdidaktischen Fokus dar                reich Data Literacy und Data Science
und legt einen Schwerpunkt auf die                  zu erschließen, ist weitere Forschung
fachliche Fundierung und die dahin-                 notwendig.
terstehenden Konzepte.6

Wie auch beim Kompetenzmodell der
GI-Empfehlungen für Bildungsstan-
dards Informatik für die Sekundarstu-
fe I/II sind die Prozess- und Inhalts-
bereiche des Data-Literacy-
Kompetenzmodells eng miteinander
verzahnt, wie folgende Beispiele ver-
deutlichen: Die Kompetenz „Daten mit
Hilfe von Sensoren erfassen“ verbin-
det die Bereiche Daten und Daten-

5
  Grillenberger, Andreas und Romeike,
Ralf (2017): Key Concepts of Data Man-
agement: An Empirical Approach. In: Pro-
ceedings of the 17th Koli Calling Interna-
tional Conference on Computing Educa-
tion Research, ACM, New York.
6
  Ridsdale et al. (2015): Strategies and
Best Practices for Data Literacy Educa-
tion: Knowledge Synthesis Report“, Re-
port, 2015.

                                             Seite 11
Praktiken                            Kerntechnologien
 •   Datenerfassung/-          Dateispeicher, Datenbanken, Datenstromsysteme,
     gewinnung                Datenanalysen, Semantic Web, Dokumentenspeicher
 •   Datenbereinigung
                                 Entwurfsprinzipien             Mechanismen
 •   Modellierung
 •   Implementierung         •   Datenunabhängigkeit      •   Strukturierung
 •   Optimierung             •   Integrität
                                                          •   Repräsentation
 •   Analyse                 •   Konsistenz
                             •   Isolierung               •   Replikation
 •   Visualisierung
                             •   Dauerhaftigkeit          •   Synchronisation
 •   Evaluation
                             •   Verfügbarkeit            •   Partitionierung
 •   Austausch
                             •   Partitionstoleranz
 •   Archivierung            •   Konkurrenz               •   Transport
 •   Löschung                •   Redundanz                •   Transaktion

Abbildung 2: Modell der Schlüsselkonzepte des Datenmanagements

Abbildung 3: Entwurf eines Data-Literacy-Kompetenzmodells

                                     Seite 12
Fazit und Ausblick                               men müssen alle Schüler und
                                                 Studenten grundlegende Data-
1) Data Science ist ein zunehmend
                                                 Literacy-Kompetenzen erwerben.
   wichtiger interdisziplinärer For-
                                              4) Kernideen der Data Science wer-
   schungs- und Bildungsbereich,
                                                 den durch das Modell der Schlüs-
   der eine starke Basis in der In-
                                                 selkonzepte des Datenmanage-
   formatik (insbesondere Datenma-
                                                 ments beschrieben.
   nagement) aufweist.
                                              5) Der Fachbezug von Data Literacy
2) Data Literacy ist ein junger Ge-
                                                 kann über das Modell der Schlüs-
   genstandsbereich der informati-
                                                 selkonzepte des Datenmanage-
   schen Bildung, der aufgrund sei-
                                                 ments hergestellt werden.
   ner steigenden Bedeutung sowohl
                                              6) Weitere Forschung zur Fundierung
   für die berufsbezogene Ausbil-
                                                 und Ausdifferenzierung von Data
   dung als auch im Hinblick auf die
                                                 Literacy und Data Science ist not-
   Allgemeinbildung auszudifferen-
                                                 wendig.
   zieren ist.
3) Für einen mündigen Umgang mit
   Daten und datenbasierten Syste-

Über die Autoren

Andreas Grillenberger ist wissenschaftlicher Mitarbeiter an der Professur für Didak-
tik der Informatik der Friedrich-Alexander-Universität Erlangen-Nürnberg. Seit mehr
als vier Jahren beschäftigt er sich mit der Aufarbeitung des Themengebiets Daten-
management aus informatikdidaktischer Sicht.

Ralf Romeike ist Professor für Didaktik der Informatik an der Friedrich-Alexander-
Universität Erlangen-Nürnberg und Sprecher der GI-Fachgruppe Didaktik der In-
formatik. Ziel seiner Aktivitäten in Forschung und Lehre ist die Ausgestaltung in-
formatischer Bildung, die Kinder und Jugendliche dazu befähigt, die digitale Gesell-
schaft zu verstehen und mitzugestalten.

                                       Seite 13
DATA SCIENCE EXPERTS: BEDARF UND MÖGLICHKEITEN
DIESEN ZU DECKEN

Irgendwas mit Daten… Warum wir Data Scientists brau-
chen
Von Gerald Swarat, Fraunhofer-Institut für Experimentelles Software Engineering
IESE

Ein Data Scientist soll „Big Data“ beherrschbar und nutzbar machen, indem er oder
sie von der Datensammlung über die Datenanalyse und Präsentation bis hin zur
Ableitung von Handlungsempfehlungen den kompletten Big-Data-Lifecycle aus
dem Effeff beherrscht. Die Nachfrage nach den Expertinnen und Experten ist enorm
und steigt konsequent an, denn Unternehmen haben natürlich erkannt, dass sie
Fachexperten brauchen. Der Bedarf muss mit unterschiedlichen Maßnahmen kurz-,
mittel- und langfristig adressiert werden.

Data never sleeps: Für die riesigen,                 Im gleichen Maße, wie Schlagworte
großteils unstrukturierten Datenbe-                  wie Big Data, Smart Data, Data Mining,
stände in Wirtschaft und öffentlicher                Data Engineering, Predictive Analytics
Hand hat sich in den letzten Jahren                  in die Diskussion geraten, steigt die
mit großem Nachdruck ein Fachbe-                     Hoffnung auf eine neue Spezies – der
griff etabliert: Big Data. Allerdings                Wunsch nach Data Scientists. Denn
sind diese Daten weder Informatio-                   beinahe unmittelbar mit dem Auf-
nen noch Wissen: „Sie sind erst wert-                kommen des Begriffs „Big Data“ folgte
voll, wenn sie verfeinert und analy-                 das Bekenntnis, mit dem Phänomen
siert werden, sodass aus Rohdaten                    schier unübersichtlicher Datenmen-
‚Smart Data‘“7werden. Nur dann kön-                  gen überfordert zu sein und diesen
nen die wissenschaftlichen, ökonomi-                 nicht mit herkömmlichen Strategien
schen und sozialen Wirkungskräfte                    beizukommen oder gar Mehrwerte
freigesetzt werden.                                  daraus ziehen zu können.

7
 Vgl. Markl, Volker: Gesprengte Ketten. In:
Informatik Spektrum 01/2015.

                                              Seite 14
Data Scientist – The Sexiest Job of the               Softwaresystemen zu modellieren
21st Century?   8
                                                      und zu antizipieren.“10

Was ist also ein Data Scientist? Ganz                 Der Bedarf ist groß
verkürzt dargestellt soll ein Data Sci-
                                                      Die Nachfrage ist trotz (oder gerade
entist „Big Data“ beherrschbar und
                                                      wegen) der sehr breiten und unschar-
nutzbar machen, indem er oder sie
                                                      fen Definition vorhanden und steigt
von der Datensammlung über die
                                                      konsequent an, denn Unternehmen
Datenanalyse und Präsentation bis
                                                      haben natürlich erkannt, dass sie
hin zur Ableitung von Handlungsemp-
                                                      Fachexperten brauchen, die aus di-
fehlungen den kompletten Big-Data-
                                                      versen Datenquellen Antworten auf
Lifecycle aus dem Effeff beherrscht.
                                                      die brennenden Fragen finden, um
Einsatzfelder zeigen sich zur Genüge,                 Prozessabläufe zu optimieren, den
so hat sich z.B. zunehmend der Be-                    Kunden besser zu verstehen oder gar
reich von algorithmischen Entschei-                   völlig neue Geschäftsmodelle zu er-
dungssystemen als Paradebeispiel für                  öffnen. Banken und Beratungsfirmen
Data Scientists angeboten, seitdem                    suchen die auf große Datenmengen
über deren Fehler in der Öffentlich-                  spezialisierten Analysten genauso wie
keit diskutiert wird. Bspw. bei der Be-               Autohersteller, Versicherungen und
wertung von Angeklagten bezüglich                     Verwaltungsbehörden – und in Zeiten
ihres aktuellen oder künftig zu erwar-                der allgegenwärtigen Digitalisierung
tenden kriminellen Verhaltens oder                    und Konzepten wie Industrie 4.0 und
bei der Vergabe von Krediten.9 In die-                autonomer Systeme findet man fast
sen Bereichen werden die Entschei-                    in jeder Branche ein Einsatzfeld. Na-
dungen und Interpretationen von                       türlich steigt mit diesem Markt auch
Data Scientists Auswirkungen sowohl                   die Nachfrage bei Studierenden.
auf die Gesellschaft im Allgemeinen
                                                      Nur werden diese Bedürfnisse durch
als auch auf das Wohl und Wehe ei-
                                                      das heutige Ausbildungssystem noch
nes einzelnen Individuums besitzen,
                                                      nicht ausreichend gestillt; hinzu
was zusätzlich zur technischen Sou-
                                                      kommt, dass die Anforderungen an
veränität eine klare Berufsethik er-
                                                      einen Data Scientist außerordentlich
fordert. Es geht also darum, „die mög-
                                                      komplex sind. Es ist also höchste Zeit,
lichen gesellschaftlichen Folgen von
                                                      Aufgaben und Kompetenzen des Be-
                                                      rufsbildes zu diskutieren und ein Cur-
8
  Lt. Harvard Business Review (2012):                 riculum abzuleiten, das übergreifende
http://hbr.org/2012/10/data-scientist-the-
sexiest-job-of-the-21st-century.
                                                      Kompetenzen und Inhalte in der digi-
9
  Vgl. Zweig, Katharina (2018): Wo Maschinen          talen Welt, wie z.B. Wissenschaft, Ar-
irren können. Verantwortlichkeiten und Feh-           beitswelt und Gesellschaft, zusam-
lerquellen in Prozessen algorithmischer Ent-
scheidungsfindung. Eine Publikation der Ber-
                                                      10
telsmann Stiftung, Gütersloh.                              Zweig, Katharina: S. 30.

                                               Seite 15
menbringt. Dabei geht es einerseits             gibt es kostenpflichtige Fortbildungs-
tatsächlich um die Ausbildung von               angebote für Berufstätige.
Fachexperten – den Data Scientists,
                                                Volker Markl weist zu Recht darauf
die sich in der Tiefe mit den Verfah-
                                                hin, dass in der Vergangenheit die
ren und Technologien auskennen –
                                                Disziplinen der Datenanalyse und der
und andererseits darum, in den ein-
                                                skalierbaren Datenverarbeitung nicht
zelnen Disziplinen eine Art übergrei-
                                                eng verzahnt waren, was jedoch für
fende Grundkompetenz in Data Lite-
                                                einen souveränen Umgang mit gro-
racy zu vermitteln.
                                                ßen Datenmengen mit geringer La-
In Deutschland wird Data Science                tenz erforderlich ist. Zudem sind das
bisher vor allem als Aufbaustudium              Wissen der Anwendungsdomäne und
nach einem Bachelor zum Beispiel in             die juristischen und gesellschaftli-
Mathematik oder Informatik angebo-              chen Implikationen zu beachten.
ten. München war 2015 eine der ers-             Markl vergleicht deshalb die Wün-
ten Universitäten, die einen Master in          sche, die auf den Data Scientist proji-
Data Science anboten, Mannheim und              ziert werden, mit der Suche nach der
Darmstadt zogen nach. Außerdem                  eierlegenden Wollmilchsau:

Abbildung 4: Die Anforderungen an den/die „Data Scientist“ ist enorm (Markl 2015)

                                         Seite 16
Warum ist die eierlegende Wollmilch-             in der Breite aufzubauen. Es ist des-
sau so wichtig?                                  halb zu begrüßen, dass im Koalitions-
                                                 vertrag Data Science Beachtung fin-
Wenn wir Angst haben, dass wir alte
                                                 det.
Jobs verlieren, weil sie in der digitalen
Welt überflüssig werden könnten,                 Handlungsempfehlungen
müssen neue geschaffen werden.
                                                 Um kurzfristig den Bedarf zu decken,
Wenn wir Angst haben, dass uns die
                                                 sollten die betreffenden Mitarbeiter
Datenflut übermannt und wir nie-
                                                 in den Unternehmen unterstützt und
manden haben, der die Instrumente
                                                 geschult werden (bspw. über Fortbil-
beherrscht, dann brauchen wir Be-
                                                 dungen11). Dafür müssen mehr flexible
rufsbilder, die das können. Wenn wir
                                                 Angebotsformen (Fernstudienoptio-
Angst haben, dass nur die bekannten
                                                 nen und berufsbegleitende Optionen)
Big Player der Digitalisierung, wie
                                                 bereitgestellt werden. Ein mittelfristi-
Google, Amazon, Facebook und Apple,
                                                 ger Ansatz bringt die Unternehmen
Potenzial aus Big Data schöpfen,
                                                 mit den anwendungsorientierten Wis-
dann müssen wir Sorge tragen, dass
                                                 senschaftseinrichtungen zusammen,
unsere Unternehmen die notwendi-
                                                 um so die Bedarfsfelder mit den
gen Kompetenzen über entsprechend
                                                 Kompetenzträgern zu vernetzen und
ausgebildetes Personal aufbauen und
                                                 ein Bewusstsein in der Öffentlichkeit
nutzen können. Wenn wir Angst ha-
                                                 zu erzeugen (z.B. in einem Kompe-
ben, dass die Technik zunehmend
                                                 tenzzentrum, das die Felder identifi-
Macht über uns gewinnt (Stichwort
                                                 ziert, die den dringendsten Know-
KI/Algorithmen) und wir feststellen,
                                                 how-Aufbau benötigen und die Inhal-
dass sich immer mehr ethische Fra-
                                                 te an verschiedene Bildungsniveaus
gen aufdrängen, sollten wir Rahmen-
                                                 und Disziplinen (nicht jeder braucht
bedingungen wie einen digitalen Da-
                                                 das komplette Spektrum) anpasst).
tencodex entwickeln und Data Scien-
                                                 Als langfristige Lösung ist ein im brei-
tists in Ethik schulen.
                                                 ten Dialog entstandenes Curriculum
Wir stellen also fest, dass eine inter-          in Deutschland zu entwickeln, das
disziplinäre und ethische Perspektive            unter dem Schirm bestimmter Essen-
notwendig ist, die bei den oft techni-           tials den Universitäten genügend
schen Ausbildungen der heutigen                  Freiraum überlässt, den Studiengang
Data Scientists nicht unbedingt gege-            für sich auszugestalten.
ben ist. Zum anderen fehlen den An-
wendern in den einzelnen Domänen
oft Kompetenzen, wenn es darum                   11

geht, die Datengrundlage einzuschät-             https://www.academy.fraunhofer.de/de/
zen und Ergebnisse richtig zu inter-             weiterbildung/information-
                                                 kommunikation/data-scientist-
pretieren. Diese Kompetenzen gilt es             schulungen.html.

                                          Seite 17
Über den Autor

Gerald Swarat ist studierter Historiker und Germanist. Er ist Leiter des Berliner Kon-
taktbüros des Fraunhofer-Instituts für Experimentelles Software Engineering IESE
(Kaiserslautern). Swarat koordiniert die Aktivitäten des Instituts in der Bundes-
hauptstadt rund um die Themen Smart Ecosystems, Industrie 4.0, Datensouveräni-
tät und Smart Rural Areas, ist Ansprechpartner für Wissenschaft, Politik und Wirt-
schaft vor Ort in Berlin und stellvertretender Sprecher der Regionalgruppe Berlin-
Brandenburg der GI.

                                       Seite 18
Qualitätsanforderungen für Data Science in Deutschland
Von Dr. Hans-Josef Linkens, Bundesministerium für Bildung und Forschung

Um das Versprechen der Datenwissenschaften, aus Daten Informationen zu ma-
chen, zu erfüllen, sind offene Forschungsdaten wichtig. Denn ohne offene Daten ist
ihre Nutzung, ihre Nachnutzung über die Grenzen von Regionen, Organisationen
und Disziplinen hinweg nicht möglich. Um das deutsche Wissenschaftssystem im
internationalen Wettbewerb weiter zu stärken, brauchen wir eine leistungsfähige
Infrastruktur – und zwar nicht nur als Speicher, Rechner und Netze, sondern als
Dienstleistungsangebote und Services. Und wir benötigen Personalentwicklung für
Data Science auf allen Ebenen.

Der wissenschaftlichen Frage, wie aus          „erforderlichen Kompetenzprofile
Daten Informationen, Wissen und                verständigen“ solle.
Innovationen gewonnen werden,
                                               Zweitens: Die Empfehlungen des Rats
kommt eine große Bedeutung zu. Die
                                               für Informationsinfrastrukturen (RfII)
Politik hat sich bereits mehrfach mit
                                               „Leistung aus Vielfalt“ von 2016. Hier-
den entsprechenden Rahmenbedin-
                                               in zieht der RfII u.a. den Schluss, eine
gungen befasst. Zwei Empfehlungen
                                               nationale Forschungsdateninfrastruk-
haben das Thema breiter diskutiert
                                               tur zu etablieren, um eine Grundver-
und die wissenschaftspolitische Dis-
                                               sorgung mit Speichermöglichkeiten
kussion, die zu einer Nationalen For-
                                               und Services anzubieten, Fragmentie-
schungsdateninfrastruktur und der
                                               rung zu überwinden, Standards und
EOSC geführt wird, geprägt und sollen
                                               Methoden zu vereinheitlichen und
hier kurz erwähnt werden:
                                               vernetzte Dienstleistungen anzubie-
Erstens: Die Empfehlungen zur Wei-             ten.
terentwicklung der wissenschaftli-
                                               Um das Versprechen der Datenwis-
chen Informationsinfrastrukturen in
                                               senschaften, aus Daten Informatio-
Deutschland bis 2020, die der Wissen-
                                               nen zu machen, zu erfüllen, sind of-
schaftsrat 2012 veröffentlicht hat. Da-
                                               fene Forschungsdaten wichtig. Denn
rin wird betont, dass die Gewährleis-
                                               ohne offene Daten ist ihre Nutzung
tung des Zugangs zu den für die wis-
                                               über die Grenzen von Regionen, Or-
senschaftliche Arbeit und das Studi-
                                               ganisationen und Disziplinen hinweg
um erforderlichen Daten und Wis-
                                               nicht möglich. Selbstverständlich soll
sensbeständen eine öffentliche Auf-
                                               „offen“ nicht „frei“ erhältlich bedeu-
gabe ist. Zu den Empfehlungen gehör-
                                               ten. Ebenso selbstverständlich gibt es
te, dass die Wissenschaft sich auf die
                                               Interessen, die zu berücksichtigen

                                        Seite 19
sind, und Schutzbedarfe, die einzu-            schaftspolitik ist in der Verantwor-
halten sind. Dennoch sollten Daten             tung, Rahmenbedingungen festzule-
aus öffentlich geförderten Vorhaben            gen.
zugänglich gemacht werden, um das
                                               Für die Bewältigung dieser Heraus-
Wissenschafts- und Innovationssys-
                                               forderungen ist eine umfassende Per-
tem zu stärken. Dieses Anliegen wird
                                               sonalentwicklung erforderlich. Ange-
auch von der G20 und auf EU-Ebene
                                               sichts des großen Bedarfs in For-
verfolgt.
                                               schung und Lehre, in den For-
Die Grenzen zwischen dem, was die              schungseinrichtungen, aber auch in
klassischen Wissenschaften und die             der Wirtschaft wird Datenexpertise
Informationsinfrastrukturen leisten,           auf allen Ebenen benötigt. Zum Be-
werden unschärfer. Dies ist bereits            darf gibt es verschiedene Aussagen,
heute zu bemerken – etwa bei Begut-            Studien und Abschätzungen – allen
achtungen von wissenschaftlichen               gemein ist: Der Bedarf ist erheblich.
Vorhaben, in denen mehr und mehr               Es werden also sowohl spezialisierte
Methodenkenntnis aus dem infra-                Fachleute für die verschiedenen Me-
strukturellen Teil des Antrags erfor-          thoden von Data Science als auch
derlich ist.                                   Kompetenzen in den jeweiligen Fach-
                                               disziplinen benötigt. Da die Informa-
Daraus folgt: Um die Qualität der Wis-
                                               tionsinfrastrukturen ein wesentlicher
senschaft weiter zu befördern, benö-
                                               Bestandteil des Forschungsprozesses
tigen wir eine leistungsfähige Infra-
                                               selber werden, werden auch Ma-
struktur – und zwar nicht nur als
                                               nagementkompetenzen (Prozessma-
Speicher, Rechner und Netze, sondern
                                               nagement, Kommunikation) erforder-
als Dienstleistungsangebote und Ser-
                                               lich, um die Datenwissenschaften in
vices für das Forschungsdatenma-
                                               den Forschungsprozess einzubinden.
nagement, für Mustererkennung, für
Simulation, Visualisierung, Langzeit-          Fazit und Ausblick
archivierung, statistische Auswertung
                                               Vier Thesen für eine weitere Diskussi-
– für die gesamte Bandbreite der da-
                                               on:
tenwissenschaftlichen Methoden,
Techniken und Theorien, also dem,              1)   Eine Grundvoraussetzung für Da-
was man Data Science nennt. Hier                    tenwissenschaften sind offene
brauchen wir generische Dienste wie                 Forschungsdaten – offen in einer
auch fachspezifische Angebote. Es                   intelligenten Form.
liegt dabei in der Verantwortung der           2)   Die Grenzen zwischen dem, was
wissenschaftlichen Communitys und                   die klassischen Wissenschaften
einzelnen Fächer, ihre spezifischen                 und die Informationsinfrastruktu-
Bedarfe zu beschreiben und Stan-                    ren leisten, werden unschärfer.
dards zu setzen. Auch die Wissen-

                                        Seite 20
3)   Um die Qualität der Wissenschaft           4)   Eine Personalentwicklung auf
     weiter zu befördern, ist die Ein-               allen Ebenen ist erforderlich.
     richtung einer leistungsfähigen
     Infrastruktur notwendig.

Über den Autor:

Dr. Hans-Josef Linkens ist Referatsleiter im Referat Digitaler Wandel in Wissenschaft
und Forschung des Bundesministeriums für Bildung und Forschung.

                                         Seite 21
Data Science in der deutschen Hochschullandschaft
Von Dr. Klaus Wannemacher, HIS-Institut für Hochschulentwicklung e.V. (HIS-HE)

Eine sehr ausgeprägte Nachfrage nach Data Scientists am Arbeitsmarkt trifft auf ein
sehr begrenztes Angebot an AbsolventInnen. Die Entwicklung des entsprechenden
Studienangebots an deutschen Hochschulen befindet sich noch in einer Frühphase
und ist bislang stark von staatlichen Hochschulen dominiert. Es ist ein Mangel an
Bachelorstudiengängen, an weiterbildenden Angeboten und an alternativen Quali-
fizierungsformen erkennbar.

Im Rahmen des Forschungsvorhabens            und nahezu keine Untersuchung zum
„Studienangebote im Bereich Data             Studienangebot für Data Science.
Science – Potenziale für Arbeitsmarkt
                                             Eine Deloitte-Studie zu „Data Analy-
und Hochschulentwicklung“ geht HIS-
                                             tics“, in deren Rahmen 291 deutsche
HE im Sinne einer Trendanalyse dem
                                             Unternehmen ab 100 Mio. Euro Um-
Entwicklungsstand im Bereich des
                                             satz befragt worden waren, gelangte
Studienangebots für Data Science an
                                             2015 im Hinblick auf die Verfügbarkeit
den deutschen Hochschulen nach. Im
                                             von Data-Science-Experten am Ar-
Rahmen einer systematischen Litera-
                                             beitsmarkt zu einer kritischen Ein-
tur- und Dokumentenrecherche, einer
                                             schätzung: „Noch bietet der Hoch-
bundesweiten Bestandsaufnahme
                                             schulsektor in Deutschland aber
sowie einer Expertenbefragung wer-
                                             kaum dezidierte Studiengänge in die-
den Tendenzen der Entwicklung des
                                             se Richtung; die Fähigkeiten bringen
Studienangebots im Bereich Data
                                             am ehesten Naturwissenschaftler
Science erfasst und ausgewertet.
                                             mit.“ 47 Prozent der befragten Unter-
Eine im Rahmen des Projekts durch-           nehmen sprachen sich für ein Ein-
geführte systematische Literatur- und        greifen der Politik zur Erhöhung der
Dokumentenrecherche förderte Stu-            Wettbewerbsfähigkeit im Auf- und
dien zum Potenzial von Data Science          Ausbau in spezialisierten Studiengän-
für Unternehmen, arbeitsmarktanaly-          gen aus.
tische und berufsfeldbezogene Unter-
                                             Die grundsätzliche Situation des Stu-
suchungen u.Ä. zutage, doch kaum
                                             dienangebots im Bereich Data Sci-
Studien zur Vermittlung einschlägiger
                                             ence an den deutschen Hochschulen
Kompetenzen, zum Potenzial von Data
                                             ist noch immer wenig komfortabel,
Science für die Hochschulentwicklung
                                             hat sich seit der Deloitte-Studie al-
                                             lerdings signifikant verändert, wie

                                     Seite 22
Zwischenergebnisse der HIS-HE-                       •   sich trotz hoher fachlicher Anfor-
Untersuchung belegen.                                    derungen zahlreiche Fachfremde
                                                         (mit einem wissenschaftlichen
Die Bestandsaufnahme der Studien-
                                                         Hintergrund in Betriebswirt-
angebote im Bereich Data Science an
                                                         schaftslehre, Naturwissenschaf-
den deutschen Hochschulen zeigt,
                                                         ten, Psychologie etc.) auf Stu-
dass mittlerweile rund 25 Bachelor-
                                                         dienplätze bewerben. Sie holen
und Masterstudiengänge (sowie eini-
                                                         fehlende Mathematik-/ Informa-
ge Kontaktstudienangebo-
                                                         tikkenntnisse zu Beginn des Stu-
te/Zertifikatskurse) für Data Science
                                                         diums nach.
existieren – bei steigender Tendenz.
                                                     •   dass widrige Rahmenbedingun-
Die Studiengänge wurden mehrheit-
                                                         gen die Entwicklung weiterbil-
lich seit 2014 eingeführt und sind weit
                                                         dender Angebote durch Hoch-
überwiegend generalistisch konzi-
                                                         schulen hemmen (z.B. die MOOC-
piert; nur selten wird ein spezieller
                                                         Konkurrenz aus den USA, hetero-
fachlicher Fokus verfolgt (z.B. Data
                                                         gene Zielgruppen und die hoch-
Science in der Medizin). Die Studien-
                                                         schulrechtlich verankerte Norm
angebote sind weit überwiegend an
                                                         kostendeckenden Arbeitens bei
staatlichen Universitäten und staatli-
                                                         weiterbildenden Angeboten).
chen Fachhochschulen angesiedelt.
Es handelt sich mehrheitlich um Mas-             Fazit und Ausblick
terstudiengänge, welche vielfach an
zuvor absolvierte Informatik- oder               Es bedarf einer weiteren Ausdifferen-
Mathematikstudiengänge anknüpfen.                zierung des Studienangebots für Data
                                                 Science. Insbesondere sollten
Gegenwärtig wird eine qualitative,
explorative Expertenbefragung unter                  •   weiterbildende Teilzeitstudien-
Vertreter(inne)n von Wirtschaftsver-                     gänge (Bachelor- und Masterni-
bänden und Unternehmen sowie in                          veau),
Wissenschaftseinrichtungen zur Vali-                 •   weiterbildende Zertifikatskurse
dierung und Vertiefung der Projekter-                    (mit ECTS) sowie
gebnisse durchgeführt. Erste Ergeb-                  •   weiterbildende Seminare und
nisse der Expertenbefragung deuten                       Workshops (ohne ECTS)
darauf hin, dass
                                                 konsequent weiter ausgebaut werden.
•   die Nachfrage bei Studieninte-               Während bei weiterbildenden Zertifi-
    ressierten sehr ausgeprägt ist.              katskursen und Seminaren schon
    Studiengangssprecher von Data-               eine Anschubfinanzierung hilfreich
    Science-Studiengängen berichten              sein kann, gilt es für Studiengänge
    von jährlichen Ablehnungsquoten              dauerhafte Finanzierungswege sicher-
    zwischen 50 und 95 Prozent.                  zustellen.

                                          Seite 23
Über den Autor

Dr. Klaus Wannemacher ist wissenschaftlicher Mitarbeiter im Geschäftsbereich
Hochschulmanagement des HIS-Instituts für Hochschulentwicklung (HIS-HE). Als
Organisationsberater unterstützt er Hochschulen, außeruniversitäre Forschungsein-
richtungen und Ministerien mit Grundlagenarbeiten, Beratungsleistungen und For-
schungsprojekten sowie Angeboten zum Wissenstransfer mit einem Schwerpunkt
auf dem Bereich Hochschule im digitalen Zeitalter.

                                    Seite 24
Data-Science-Kompetenzzentren als Schlüssel zum Erfolg
Von Prof. Dr. Erhard Rahm, Universität Leipzig / ScaDS Dresden / Leipzig Compe-
tence Center for Scalable Data Services and Solutions

Erfolgreiche Data-Science-Lösungen erfordern die kombinierte Expertise zu Daten-
aufbereitung/Big Data, Data Mining und maschinellem Lernen sowie Anwendungs-
hintergründen. Diese breite Expertise kann in der Regel nur durch ein Team von
Spezialisten bereitgestellt werden, die idealerweise an Data-Science-
Kompetenzzentren kooperieren. In der Hochschulausbildung sollte Data Science
sowohl auf Bachelor- auch als auf Masterebene stark ausgeweitet werden.

Data Science beinhaltet Methoden zur         Erfolgreiche Data-Science-Lösungen
umfassenden Analyse von Daten zur            erfordern somit die kombinierte Ex-
Gewinnung neuer Erkenntnisse in              pertise zu
unterschiedlichsten Anwendungsge-
bieten. Das Spektrum der Analysever-             •   Big-Data-Technologien wie Da-
fahren ist weit gefächert und reicht                 tenaufberei-
von einfachen Datenabfragen bis hin                  tung/Datenintegration und ska-
zu statistischen Data-Mining-                        lierbare Ansätze zur parallelen
Verfahren und Techniken des ma-                      Datenverarbeitung,
schinellen Lernens. Wesentlich für die           •   zu Data Mining und maschinel-
Aussagekraft und Qualität der Analy-                 lem Lernen
se ist eine umfassende Aufbereitung              •   sowie die Anwendungsexpertise,
der Daten (Datenbereinigung und -                    um für die spezifischen Problem-
konsolidierung), die oft aus unter-                  stellungen adäquate Verfahren
schiedlichen Quellen stammen, teil-                  zur Datenaufbereitung und Da-
weise unstrukturiert sind und zahlrei-               tenanalyse zu bestimmen.
che Qualitätsmängel und Fehler be-
                                             Einzelne Personen werden in der Re-
inhalten können. Die Daten sind zu-
                                             gel nur ein bis zwei dieser drei Berei-
dem teilweise hoch-dynamisch (z.B.
                                             che ausreichend vertieft beherrschen,
Sensordaten) und oft von sehr gro-
                                             so dass anspruchsvolle Data-Science-
ßem Umfang (Big Data). Diese Aspekte
                                             Projekte in der Regel ein Team von
verlangen sehr leistungsfähige, hoch-
                                             Experten benötigen. Kompetenzzen-
parallele Lösungsansätze zur Daten-
                                             tren zu Data Science (bzw. Big Data
verarbeitung, z.B. mit zahlreichen Pro-
                                             oder Machine Learning) können die
zessoren in lokalen Clustern.
                                             unterschiedlichen Kompetenzen bün-
                                             deln und damit eine schnellere Nutz-

                                      Seite 25
barkeit von Data Science in Wissen-            ersten der oben genannten Gebiete
schaft und Praxis unterstützen. Dort           zu berücksichtigen. Die Anwendungs-
können auch die entsprechenden                 aspekte können im Rahmen eines
Hardwareressourcen, in Kombination             Ergänzungsfachs sowie durch Praktika
mit geeigneter Administrations- und            und in der Abschlussarbeit berück-
Serviceunterstützung, bereitgehalten           sichtigt werden.
werden. Vorreiter solcher Zentren
                                               Fazit und Ausblick
sind die beiden BMBF-geförderten
Kompetenzzentren für Big Data,                     1) Die Einrichtung von Kompetenz-
ScaDS Dresden/Leipzig sowie BBDC.                     zentren zu Data Science (Big Da-
Weitere Zentren sind geplant oder                     ta, Machine Learning) hat sich
bereits an anderen Orten eingerichtet                 bewährt, sollte durch Bund und
worden, um den hohen Bedarf an                        Länder jedoch wesentlich ver-
Data-Science-Lösungen in Deutsch-                     stärkt werden, jeweils mit stand-
land zu adressieren.                                  ortspezifischen Forschungs- und
                                                      Anwendungsschwerpunkten.
Die Ausbildung zu Data Science sollte
                                                   2) Umfassende Mehranstrengungen
an den Hochschulen auf dem Ba-
                                                      sind in der Data-Science-
chelor- und Masterlevel stark ausge-
                                                      Ausbildung erforderlich, insbe-
baut werden, um der immensen
                                                      sondere zur Etablierung neuer
Nachfrage nach akademisch ausge-
                                                      bzw. angepasster Bachelor- und
bildeten Data-Science-Spezialisten
                                                      Masterstudiengänge an den
Rechnung zu tragen. Dies kann in ei-
                                                      Hochschulen.
genständigen Studiengängen erfolgen
                                                   3) Um einem Wildwuchs solcher
oder durch entsprechende neue
                                                      Studiengänge entgegenzutreten,
Schwerpunkte in existierenden Studi-
                                                      wäre es hilfreich, wenn die GI
engängen, z.B. der Informatik. Dabei
                                                      Empfehlungen zur inhaltlichen
sind in Informatikstudiengängen vor
                                                      Ausgestaltung solcher Studien-
allem die Methoden in den beiden
                                                      angebote erstellen könnte.

Über den Autor

Prof. Dr. Erhard Rahm ist Professor für Informatik (Datenbanken) an der Universität
Leipzig und einer der beiden Direktoren des BMBF-geförderten Big-Data-
Kompetenzzentrums ScaDS Dresden/Leipzig. Seine Forschungsgebiete sind Big Data
und Datenintegration. Er ist Autor mehrerer Bücher und von über 200 wissenschaft-
lichen Publikationen. Seine Forschungsergebnisse wurden bereits mehrfach ausge-
zeichnet, u.a. mit den angesehenen VLDB Ten Year Best Paper Award sowie dem
ICDE Influential Paper Award. Prof. Rahm ist gewähltes Mitglied im DFG-

                                        Seite 26
Fachkollegium Informatik. In der GI ist er Sprecher des Fachbereichs Datenbanken
und Informationssysteme (DBIS).

                                     Seite 27
Data Science und die Qualität von Daten
Von Prof. Dr. Richard Lenz, Friedrich-Alexander-Universität Erlangen-Nürnberg

Im Zeitalter von „Big Data“ wird zunehmend der „Data Scientist“ als wichtiges Be-
rufsfeld identifiziert. Er analysiert große Datenmengen mit teilautomatisierten Me-
thoden und leitet aus seinen Ergebnissen Handlungsempfehlungen ab. Die Beur-
teilung der Datenqualität ist für den Data Scientist von zentraler Bedeutung. Dabei
kann er aber nicht auf die traditionellen Methoden der Qualitätssicherung zurück-
greifen, denn die Datenquellen entziehen sich in der Regel der Kontrolle der Da-
tenkonsumenten. Data-Profiling-Methoden, neue Methoden der Datenqualitäts-
messung und neue Methoden der Schema-Inferenz werden gebraucht.

Datenqualität ist ein schwer zu fas-           teilen und gegebenenfalls nachträg-
sender Begriff, weil die Kriterien, nach       lich bedarfsgerecht zu bereinigen und
denen die Qualität von Daten beur-             mit geeigneten Metadaten anzurei-
teilt wird, in der Regel vom Verwen-           chern. Von zentraler Bedeutung ist
dungskontext abhängen. Sehr abs-               dabei für den Data Scientist insbe-
trakt wird Datenqualität oft als „fit-         sondere die verschiedenartigen Da-
ness for use“ charakterisiert. Um Da-          tenquellen gut zu verstehen, um be-
tenqualität zu messen und zu verbes-           urteilen zu können, ob sie für den
sern, gibt es heute zahlreiche Metho-          Verwendungszweck auch geeignet
den, die aber nur selten domänenun-            sind. Falsch interpretierten Daten
abhängig sind und oft nicht auf ande-          sieht man nicht an, dass sie fehler-
re Anwendungskontexte übertragbar              haft, unscharf oder für den intendier-
sind. Proaktive Methoden zur Quali-            ten Verwendungszweck gänzlich un-
tätssicherung, wie TDQM (Total Data            geeignet sind, sie führen aber zu fal-
Quality Management), sind auf Big-             schen Schlüssen und damit auch fal-
Data-Szenarien kaum anzuwenden,                schen oder unbegründeten Hand-
denn die zahlreichen Datenquellen              lungsempfehlungen.
entziehen sich zielgerichteten quali-
                                               Data Profiling bezeichnet ein breites
tätssichernden Maßnahmen im Da-
                                               Spektrum an Methoden, die ein Data
tenproduktionsprozess, wenn die
                                               Scientist anwenden kann, um Daten-
Quellen nicht unter der Kontrolle der
                                               quellen besser zu verstehen. Das
Datenkonsumenten stehen.
                                               reicht von der Analyse von Datenty-
Ein Großteil der Aufwände des Data             pen, Wertebereichen, Werteverteilun-
Scientist fließt somit in Aufgaben,            gen, Schlüsseleigenschaften von At-
geeignete Quellen zu finden, zu beur-          tributen, funktionalen Abhängigkeiten

                                        Seite 28
bis zu bedingten funktionalen Abhän-            Wissen um die Bedeutung der Daten,
gigkeiten und Inklusionsanalysen.               das sich der Data Scientist erarbeitet
Felix Naumann weist in einem vielbe-            hat, ist in diesen Anfragen implizit
achteten Artikel auf die besondere              enthalten.
Bedeutung von Data Profiling im Zu-
                                                Im OCEAN-Projekt an der FAU Erlan-
sammenhang mit Data Science hin
                                                gen wird versucht das in Anfragepro-
und macht auf den dringenden Be-
                                                tokollen versteckte Wissen um die
darf an neuen Methoden aufmerk-
                                                Bedeutung von Datenquellen nutzbar
sam, die insbesondere für das Profi-
                                                zu machen. Auf diese Weise soll ver-
ling nicht-relationaler Daten geeignet
                                                sucht werden, einmal unternommene
sind. Eine ähnliche Einschätzung fin-
                                                Anstrengungen für die Datenintegra-
den Halevy et al., die im Zusammen-
                                                tion nicht verpuffen zu lassen, son-
hang mit den Erfahrungen aus
                                                dern wiederzuverwenden, in der
Googles Goods-Projekt auf die hohe
                                                Hoffnung, dass dadurch eine inkre-
Bedeutung von Werkzeugen zur Ver-
                                                mentelle nutzungsorientierte Verbes-
besserung des Verständnisses von
                                                serung des Datenverständnisses er-
Datenquellen hinweisen.
                                                reicht werden kann.
Data-Profiling-Methoden helfen bei
                                                Fazit und Ausblick
unbekannten Datenquellen, sind je-
doch weit davon entfernt die Bedeu-             Im Zusammenhang mit der Beurtei-
tung von Daten vollständig erfassen             lung von Datenqualitätsfragen im
und erklären zu können. Methoden                Bereich Data Science ergeben sich
der Schema-Inferenz würde man sich              Fragestellungen in folgenden Berei-
wünschen, damit automatisiert er-               chen:
kannt werden kann, welche Daten-
quellen vergleichbar oder sinnvoll                  •   Präzisierung und Standardisie-
verknüpfbar sind. Meist lässt sich das                  rung elementarer Datenquali-
aber nicht automatisieren, und dann                     tätskriterien
erfordert die semantische Einordung                 •   Standards zur systematischen
von Datenquellen einen hohen kogni-                     Annotation von Quelldaten mit
tiven Aufwand beim Data Scientist.                      Qualitätsmerkmalen
Hat der Data Scientist die Quellen                  •   Neue Methoden zum Data Profi-
einmal verstanden, kann er sie in                       ling für nicht-relationale Daten-
geeigneten Anfragen zielgerichtet                       quellen
weiterverwenden oder sinnvoll mit                   •   Neue Methoden der Schema-
anderen Quellen verknüpfen. Das                         Inferenz

                                         Seite 29
Über den Autor

Prof. Dr. Richard Lenz ist Professor für Datenmanagement an der Universität Erlan-
gen-Nürnberg. Er beschäftigt sich in seiner Forschung u.a. mit dem Thema Evoluti-
onäre Informationssysteme. In diesem Zusammenhang ist auch das Thema Daten-
qualität von zentraler Bedeutung. Er ist Sprecher des Fachbereichs Informatik in
den Lebenswissenschaften in der GI.

                                     Seite 30
Data Science im angloamerikanischen Kontext: Status
quo eines modernen Studien- und Berufsbilds
Von Dr. Tarek R. Besold, Lecturer in Data Science an der City, University of London

Im internationalen Kontext zählt die junge Disziplin Data Science zu den momentan
sowohl bei Arbeitgebern als auch bei (gegenwärtigen oder zukünftigen) Berufsein-
steigerinnen und -einsteigern gefragtesten Berufsfeldern. Die Data Scientist ist
hierbei eine mit solider theoretischer Fundierung ausgebildete Allrounderin, die
alle wichtigen Schritte des „Data Lifecycle“ durchführen, ihre jeweilige Tätigkeit, wie
auch erzielte Resultate, kritisch reflektieren und anschließend sowohl den Prozess
als auch die erreichten Ergebnisse kommunizieren kann.

Data-Science-Studiengänge erfreuen              eine Betonung anwendungsnaher
sich im angloamerikanischen Raum                und/oder anwendungsrelevanter
großer Beliebtheit. Kleine und größe-           Ausbildungsinhalte festzustellen. Ein
re Unternehmen aus allen Wirt-                  zweiter genereller Trend kann in der
schaftszweigen, von digitalen Ser-              gleichzeitigen, wenn auch etwas ge-
viceprovidern zu klassischer fertigen-          ringer gewichteten Fokussierung auf
der Industrie, erhoffen sich Wettbe-            solide theoretische Grundlagen – vor
werbsvorteile durch datenunterstütz-            allem in Masterstudiengängen, aber
te Entscheidungsfindung sowie durch             auch in grundständigen Studiengän-
(teilweise oder vollständig) datenge-           gen mit dezidierter Schwerpunktle-
triebene Produkte. Studierende und              gung auf Data Science als eigenstän-
Young Professionals, aber auch Ar-              diger Disziplin – gefunden werden.
beitnehmerinnen und Arbeitnehmer
                                                Konzeptuell dienen die theoretischen
in vormals datenfernen Berufszwei-
                                                Lehreinheiten (wie z.B. Module zu
gen versprechen sich persönliche
                                                statistischen Grundlagen, zu maschi-
Karrierevorteile, aber auch nachhalti-
                                                nellem Lernen oder zu Datenbank-
gere Karriereverläufe aus dem Erwerb
                                                technologien im Kontext von Big Da-
der Fähigkeiten der Data Science.
                                                ta) als Grundlage der angewandten
Die genaue Interpretation von Data              Inhalte (z.B. Datenvisualisierung, Pa-
Science und die Schwerpunktlegung               rallel Computing mit Schwerpunkt auf
innerhalb eines Data-Science-                   maschinellem Lernen, oder Verarbei-
Curriculums unterscheiden sich hier-            tung großer Datenmengen). Zugleich
bei je nach Profillinie der jeweiligen          stellt die theoretische Ausbildung die
anbietenden Institution. Generell ist           Nachhaltigkeit der erworbenen

                                         Seite 31
Sie können auch lesen