Data Literacy und Data Science Education: Digitale Kompetenzen in der Hochschulausbildung - Deutsche Physikalische ...
←
→
Transkription von Seiteninhalten
Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten
Data Literacy und Data Science Education:
Digitale Kompetenzen in der Hochschulausbildung
Policy Paper der Präsidiums-Task-Force „Data Science“ der Gesellschaft für Infor-
matik e.V. in Zusammenarbeit mit Vertretern der Deutschen Mathematiker-
Vereinigung e.V., der Deutschen Physikalischen Gesellschaft e.V. und der Gesell-
schaft Deutscher Chemiker e.V.
GI.DE
Seite 1IMPRESSUM
Herausgabe
Gesellschaft für Informatik e.V.
Spreepalais am Dom
Anna-Louisa-Karsch-Str. 2
10178 Berlin
gi.de
Stand
April 2018
Bildnachweis
Monsitj
Copyright
Diese Publikation steht unter CC-BY-SA-Lizenz: Es ist
gestattet, das Werk zu vervielfältigen, zu verbreiten
und öffentlich zugänglich zu machen. Zudem ist es
erlaubt die Publikation zu bearbeiten und abzuwan-
deln, sofern folgende Bedingungen eingehalten werden:
• Namensnennung: Nutzerin oder Nutzer müssen Urheber bzw. Rechteinhaber
in der festgelegten Weise, die URL sowie den Titel des Werkes nennen und
bei einer Abwandlung einen Hinweis darauf geben.
• Weitergabe unter gleichen Bedingungen: Sofern das lizenzierte Werk bear-
beitet, abgewandelt oder als Vorlage für ein neues Werk verwendet wird,
darf das neu entstandene Werk nur unter dieser oder einer zu dieser kom-
patiblen Lizenz genutzt und weiterverbreitet werden.
• Lizenzangabe: Nutzerin oder Nutzer müssen Anderen alle Lizenzbedingun-
gen mitgeteilt werden, die für dieses Werk gelten. Am einfachsten ist es,
wenn dazu ein Link auf den Lizenzvertrag eingebunden wird.
Seite 2GELEITWORT
Sehr geehrte Damen und Herren,
liebe Leserin, lieber Leser,
der Begriff „Data Science“ – die Da- ten Staaten aus. Auch in Deutschland
tenwissenschaft – stammt aus den ist der Bedarf groß. Ein Geschäfts-
Anfängen der Datenhaltung und - überblick der Universität Harvard
analyse, die bis in die 1960er Jahre kürte den „Data Scientist“ sogar zum
zurückgehen. Mit der zunehmenden „attraktivsten Beruf des 21. Jahrhun-
Bedeutung von „Big Data“ rückte die derts“.
Wissenschaft der Daten weiter in den
In der Wissenschaft beschäftigt sich
Fokus. Der Schwerpunkt der „Data
Data Science mit unterschiedlichen
Science“ liegt dabei nicht bei den
Bereichen und kann daher verschie-
Daten selbst, sondern auf der Art und
dene akademische Hintergründe ha-
Weise, wie diese verarbeitet, aufberei-
ben: Informatik, Statistik, Mathematik,
tet und analysiert werden. Data Sci-
Natur- oder Wirtschaftswissenschaf-
ence beschäftigt sich mit einer
ten, einschließlich des maschinellen
zweckorientierten Datenanalyse und
Lernens, des statistischen Lernens,
der systematischen Generierung von
der Programmierung, der Datentech-
Entscheidungshilfen und -grundlagen,
nik, der Mustererkennung, der Prog-
um Wettbewerbsvorteile erzielen zu
nostik, der Modellierung von Unsi-
können.
cherheiten und der Datenlagerung.
Im Unternehmensumfeld ist das Mittlerweile existiert eine Reihe von
Thema häufig im Bereich Business Data-Science-Bachelor- oder -Master-
Intelligence angesiedelt. IT- studiengängen.
Unternehmen, Banken und Bera-
Aufgrund der wachsenden Bedeutung
tungsfirmen suchen die auf große
dieses neuen Wissenschaftsfeldes an
Datenmengen spezialisierten Analys-
der Schnittstelle zu verschiedenen
ten genauso wie Autohersteller, Ver-
Anwendungsbereichen – sowohl für
sicherungen und Verwaltungsbehör-
Forschung als auch für die Lehre –
den. Die Unternehmensberatung
hat die Gesellschaft für Informatik e.V.
McKinsey geht für 2017 von 150 000
die Task-Force „Data Science“ ins Le-
offenen Stellen allein in den Vereinig-
ben gerufen. Diese interdisziplinäre
Seite 3Arbeitsgruppe geht der Frage nach, Im Koalitionsvertrag von CDU/CSU
was einen Data Scientist in Abgren- und SPD heißt es: „Die Hightech-
zung zu bestehenden Wissenschafts- Strategie wird weiterentwickelt und
disziplinen wie der Informatik aus- auf die großen gesellschaftlichen
macht und welche Kompetenzen ein Herausforderungen fokussiert. […] Es
Datenwissenschaftler und eine Da- gilt heute Data Science in allen Berei-
tenwissenschaftlerin mitbringen müs- chen, insbesondere aber in den
sen. Wir wollen der Frage nachgehen, Hochschulen, auszubauen. Dazu muss
wie Universitäten und Hochschulen der Umgang mit Daten zu einem zent-
das Profil eines Data Scientist defi- ralen eigenen Wissenschaftsfeld und
nieren und wie sich das vom Ver- einer eigenen Disziplin werden.“
ständnis in Unternehmen abgrenzt.
Die Gesellschaft für Informatik e.V.,
In Abgrenzung dazu bedarf es auch die mit 20.000 Mitgliedern die größte
grundlegender digitaler Kompetenzen Fachgesellschaft für Informatik im
in der Breite der Studierendenschaft: deutschsprachigen Raum ist, will die-
Eine Data Literacy. Data Literacy ist se Entwicklung maßgeblich mitgestal-
die Fähigkeit des planvollen Umgangs ten.
mit Daten. In Ergänzung zu speziali-
Diese Publikation ist ein Beitrag dazu.
sierten Fachkräften – den Data Scien-
Sie stellt eine Zusammenfassung der
tists – liegt der Fokus auf der be-
im Workshop vorgestellten Impulse
darfsgerechten, Disziplinen übergrei-
dar und soll das Diskussionsfeld rund
fendem Know-how, um datengestützt
um den Themenbereich „Data Sci-
arbeiten und entscheiden können.
ence“ aufspannen. Die folgenden Bei-
In einem interdisziplinären Workshop träge reflektieren dabei ausschließ-
mit Beteiligung von Vertreterinnen lich die Meinungen der Autorinnen
und Vertretern der Deutschen Ma- und Autoren.
thematiker-Vereinigung e.V., der
Wir wünschen viel Spaß bei der Lek-
Deutschen Physikalischen Gesell-
türe und freuen uns über weitere
schaft e.V. und der Gesellschaft Deut-
Beiträge.
scher Chemiker e.V., der Ende Januar
2018 unter dem Titel „Data Science:
Vom Buzz-Word zu einer neuen Me-
thodik des (wissenschaftlichen) Ar-
beitens im 21. Jahrhundert“, in Berlin Ihr Peter Liggesmeyer
stattfand, wurden verschiedene Per- Past-President und Sprecher der
spektiven hinsichtlich „Data-Literacy“- Präsidiums-Task-Force Data Science
und „Data-Science“-Kompetenzen in der Gesellschaft für Informatik e.V.
Deutschland aufgezeigt.
Seite 4INHALTSVERZEICHNIS
GELEITWORT 3
GRUNDLEGENDE DIGITALE KOMPETENZEN IN DER HOCHSCHULAUSBILDUNG 6
DATA LITERACY: DATA SKILLS IN DER BREITE DER HOCHSCHULAUSBILDUNG 6
DATA LITERACY UND DAS MODELL DER SCHLÜSSELKONZEPTE DES DATENMANAGEMENTS 10
DATA SCIENCE EXPERTS: BEDARF UND MÖGLICHKEITEN DIESEN ZU DECKEN 14
IRGENDWAS MIT DATEN… WARUM WIR DATA SCIENTISTS BRAUCHEN 14
QUALITÄTSANFORDERUNGEN FÜR DATA SCIENCE IN DEUTSCHLAND 19
DATA SCIENCE IN DER DEUTSCHEN HOCHSCHULLANDSCHAFT 22
DATA-SCIENCE-KOMPETENZZENTREN ALS SCHLÜSSEL ZUM ERFOLG 25
DATA SCIENCE UND DIE QUALITÄT VON DATEN 28
DATA SCIENCE IM ANGLOAMERIKANISCHEN KONTEXT: STATUS QUO EINES MODERNEN STUDIEN- UND
BERUFSBILDS 31
DATA SCIENCE ALS INTERDISZIPLINÄRE HERAUSFORDERUNG FÜR DIE WISSENSCHAFT
34
INTERDISZIPLINÄRE DATEN-LABORATORIEN ALS ANTWORT AUF DIE „DATA CHALLENGE“ 37
DATA SCIENCE IN DEN SOZIALWISSENSCHAFTEN 40
DATA SCIENCE AUS SICHT DER MATHEMATIK 44
DIE BEDEUTUNG VON DATA SCIENCE FÜR DIE CHEMIE 47
DATA SCIENCE EDUCATION IN DER PRAXIS 50
DATA SCIENCE: VON DER WISSENSCHAFT ZUM ERFOLGSFAKTOR FÜR UNTERNEHMEN 50
DATA SCIENTISTS IN DEUTSCHLAND: ÜBER TALENTMANGEL, DEN LÜCKENSCHLUSS ZWISCHEN
PROMOTION UND INDUSTRIE SOWIE FIRMENINTERNE WEITERBILDUNG 53
AUSBLICK 56
VON DATA LITERACY BIS DATA SCIENCE: DER HANDLUNGSBEDARF IN DER DEUTSCHEN
HOCHSCHULLANDSCHAFT 56
Seite 5GRUNDLEGENDE DIGITALE KOMPETENZEN IN DER HOCH-
SCHULAUSBILDUNG
Data Literacy: Data Skills in der Breite der Hochschulaus-
bildung
Von Dr. Jens Heidrich, Fraunhofer-Institut für Experimentelles Software Engineering
IESE, Kaiserslautern, und Daniel Krupka, Gesellschaft für Informatik e.V., Berlin
Data Literacy ist die Fähigkeit des planvollen Umgangs mit Daten. In Ergänzung zu
spezialisierten Fachkräften – den Data Scientists – liegt der Fokus auf der bedarfs-
gerechten, Disziplinen übergreifenden Vermittlung von Wissen, um datengestützt
arbeiten und entscheiden können. Data Literacy wird als eine zentrale Kompetenz
für Digitalisierung und globale Wissensgesellschaft gesehen. Eine Herausforderung
liegt darin, dass Kompetenzen aus verschiedenen Disziplinen integriert werden
müssen und ein an die Bedürfnisse des Anwendungsfelds angepasstes Angebot
kreiert werden muss.
Die Fähigkeit, planvoll mit Daten um- In der Lesart der kanadischen For-
zugehen und sie im jeweiligen Kon- scher ist Data Literacy eine zentrale
text bewusst einsetzen und hinterfra- Kompetenz für die Digitalisierung und
gen zu können, wird über alle Studi- die globale Wissensgesellschaft in
enrichtungen hinweg immer wichti- allen Sektoren und Disziplinen. Ange-
ger. Eine Studie der Dalhousie Univer- sichts der zunehmenden Menge und
sity in Kanada (Ridsdale et al.1) fasst der Verfügbarkeit von Daten stellt
diese Fähigkeit unter dem Begriff Da- sich die Herausforderung, mit den
ta Literacy zusammen. Dies beinhaltet Daten Wissen zu generieren und fun-
die Kompetenzen, Daten erfassen, diert Entscheidungen treffen zu kön-
erkunden, managen, kuratieren, ana- nen.
lysieren, visualisieren, interpretieren,
Aus Sicht des Hochschulforums Digi-
kontextualisieren, beurteilen und
talisierung braucht es hierfür „auf der
anwenden zu können.
einen Seite spezialisierte Fachkräfte –
Data Scientists – und auf der anderen
Seite in allen Sektoren und Fächern
1
Ridsdale et al. (2015): Strategies and datengewandte Expertinnen und Ex-
Best Practices for Data Literacy Educa- perten sowie Führungskräfte, die in
tion: Knowledge Synthesis Report, 2015.
Seite 6ihren jeweiligen Gebieten Fragen zu tionelle Kompetenzen, Kernkompe-
den Daten formulieren und Daten- tenzen sowie fortgeschrittene Kompe-
analysen fachlich interpretieren kön- tenzen unterschieden. Darüber hin-
nen, insgesamt also datengestützt aus wurde eine Reihe von Empfeh-
arbeiten und entscheiden können.“2 lungen erarbeitet, wie „Data Literacy“
erfolgreich an Hochschulen vermittelt
Die kanadischen Forscher haben dazu und verbreitet werden kann.
22 Kompetenzen mit zugehörigen Fä-
higkeiten, Wissen und Aufgaben iden-
tifiziert und in 5 Kompetenzfelder
gruppiert. Zusätzlich werden konzep-
Conceptual Framework Introduction to Data
Data Collection Data Discovery and Collection
Evaluating and Ensuring Quality of Data and Sources
Data Management Data Organization
Data Manipulation
Data Conversion
Metadata Creation and Use
Data Curation, Security and Re-Use
Data Preservation
Data Evaluation Data Tools
Basic Data Analytics
Data Interpretation (Understanding Data)
Identifying Problems Using
Data Visualization
Presenting Data (Verbally)
Data Driven Decisions Making (DDDM)
Data Application Critical Thinking
Data Culture
Data Ethics
Data Citation
Data Sharing
Evaluating Decisions based on Data
Abbildung 1: Data-Literacy-Kompetenzen nach Ridsdale et al.
2
Ausschreibung einer Studie „Übergrei-
fende Kompetenzen und Studieninhalte
in der digitalen Welt am Beispiel von Data
Literacy“.
Seite 7Ausgehend von den Vorarbeiten der Fazit und Ausblick
Dalhousie University arbeitet die Ge-
Erste „Lessons Learned“ und Empfeh-
sellschaft für Informatik zusammen
lungen, die auf der Literatur- und
mit dem Fraunhofer-Institut für Expe-
Desk-Research-Phase identifiziert
rimentelles Software Engineering IESE
werden konnten, sind:
an einer Studie, um umsetzbares Wis-
sen für Hochschulen und Fächer für 1) Es ist eine große Herausforde-
die Curriculumentwicklung im Hin- rung, möglichst früh das Be-
blick auf übergreifende Kompetenzen wusstsein für die Wichtigkeit von
und Inhalte in der digitalen Welt an- Data Literacy bei Studierenden
hand der Kompetenz der Data Lite- und den Bildungsinstitutionen zu
racy zusammenzustellen. Insbesonde- schaffen.
re soll die Studie beleuchten, wie die 2) Es bedarf des Aufbaus einer dis-
Kompetenz der Data Literacy von al- ziplinunabhängigen Institution,
len Studierenden immersiv erworben die Forschende und Lehrende
werden kann. aus verschiedenen Kompetenz-
feldern (wie informatische, ma-
Dazu wurden aus 83 internationalen
thematische und Domänen-
Studien- und Weiterbildungsangebo-
Kompetenzen) zusammenbringt.
ten 13 ausgewählt, die nun einer nä-
3) Es bedarf des Einsatzes kreativer
heren Betrachtung unterzogen wer-
Lehransätze mit technologischen
den, um im Rahmen von Interviews
Hilfsmitteln, u.a. „Hands-on“,
und einem Workshop entsprechende
„Modul-basiertes“ und „Projekt-
Inhalte, Erfahrungen und Empfehlun-
basiertes“ Lernen in Workshops
gen für die Vermittlung und Verbrei-
oder Labs mit realen Daten
tung von Data Literacy zusammenzu-
4) Es bedarf einer genauen Betrach-
stellen. Vorbilder für die erfolgreiche
tung der Bildungsniveaus und
Etablierung entsprechender Angebote
Disziplinen, um die Angebote
in Hochschulen finden sich insbeson-
entsprechen anzupassen, denn
dere im angloamerikanischen Raum;
nicht jede/r braucht das kom-
aber auch innerhalb von Europa und
plette Spektrum der Data-
Deutschland gibt es bereits vielver-
Literacy-Kompetenzen.
sprechende Ansätze, die näher be-
5) Data Literacy sollte in der gesam-
trachtet werden.
ten Breite der Hochschulausbil-
dung vermittelt werden.
Seite 8Über die Autoren
Dr. Jens Heidrich ist Hauptabteilungsleiter Prozessmanagement am Fraunhofer-
Institut für Experimentelles Software Engineering IESE. Der promovierte Informati-
ker leitet die Durchführung der Data-Literacy-Studie für das Hochschulforum Digi-
talisierung.
Daniel Krupka ist Geschäftsführer der Gesellschaft für Informatik e.V. und leitet die
Berliner Geschäftsstelle der Fachgesellschaft. Dort ist der Verwaltungswissenschaft-
ler u.a. verantwortlich für die Kontakte zu Politik, Wirtschaft und Gesellschaft.
Seite 9Data Literacy und das Modell der Schlüsselkonzepte des
Datenmanagements
Von Andreas Grillenberger und Prof. Dr. Ralf Romeike, Friedrich-Alexander-
Universität Erlangen-Nürnberg
Data Literacy ist ein Bereich der informatischen Bildung, welcher sowohl mit den
(Weiter-) Entwicklungen des Forschungsbereichs Datenbanken als auch den kor-
respondierenden gesellschaftlichen Anforderungen in Verbindung steht. In der
berufsbezogenen Ausbildung und für die Allgemeinbildung gewinnt Data Literacy
zunehmend an Bedeutung. Zur fachlichen Fundierung wird der Bezug auf das Mo-
dell der Schlüsselkonzepte des Datenmanagements vorgeschlagen und ein Data-
Literacy-Kompetenzmodell skizziert.
Die Didaktik der Informatik erforscht verständlich und helfen Lehr- und
und beschreibt informatische Bil- Lerninhalte herauszudestillieren.
dungsgegenstände bezogen auf die
Ein zentraler Gegenstand der Infor-
berufliche Ausbildung und die Allge-
matik ist die Verwaltung und Verar-
meinbildung. Eine ihrer zentralen
beitung von Daten. Deren Relevanz
Aufgaben ist die Betrachtung tragfä-
und Wahrnehmung hat in den letzten
higer Kernaspekte der Wissenschaft
Jahren, insbesondere mit der Digitali-
Informatik mit dem Ziel, nachhaltige
sierung aller Lebensbereiche, deut-
Lerngegenstände und Kompetenzen
lich zugenommen, wodurch sich ihre
zu ermitteln. Hierzu werden Ansätze
Bedeutung auch außerhalb der In-
wie die Fundamentalen Ideen der
formatik geändert hat. Sowohl für den
Informatik3 oder die Great Principles
alltäglichen als auch den beruflichen
of Computing4 herangezogen, welche
Umgang mit Daten sind heute grund-
die Informatik oder eines ihrer Teil-
legende Kompetenzen essentiell, die
gebiete durch zentrale Begriffe, Kon-
oft unter dem Begriff Data Literacy
zepte, Ideen oder Prinzipien charakte-
subsumiert werden.
risieren. Dadurch vermitteln diese
einen Einblick in die betrachtete Wis- Zur Ermittlung der zentralen Inhalte
senschaftsdisziplin, strukturieren sie und Kompetenzen, die hinter dem
Begriff Data Literacy stehen, sowie zu
deren fachlicher Fundierung kann das
3
Schwill, Andreas (1993): Fundamentale Modell der Schlüsselkonzepte des
Ideen der Informatik. In: Zentralblatt für
Didaktik der Mathematik, 25(1).
4
Denning, Peter J. (2003): Great Principles
of Computing. In: Commun ACM, 46(11).
Seite 10Datenmanagements5 (vgl. Abbildung quellen sowie Datenerfassung/-
2) verwendet werden. Dieses nimmt, gewinnung miteinander, während „die
in Anlehnung an o.g. Arbeiten zum kontinuierliche Erfassung von Daten
Fundament der Informatik, eine Cha- durch und über uns beurteilen“ die
rakterisierung des Fachgebiets vor Verknüpfung von Datenethik, legalen
und stellt die zentralen Bereiche des und gesellschaftlichen Aspekten mit
Themenfelds Daten strukturiert dar. der Datenerfassung/-gewinnung be-
tont und „eine (einfache) korrelati-
Eine empirische Untersuchung der
onsbasierte Datenanalyse auf geeig-
Inhalte und Kompetenzen, die in ver-
neten Daten durchführen“ die
schiedenen Data-Science-
Grundsätze der Datenanalyse sowohl
Studiengängen enthalten sind, liefert
mit der Datenerfassung/-gewinnung
auf dieser Basis einen Entwurf eines
als auch der Analyse, Visualisierung
Data-Literacy-Kompetenzmodells (vgl.
und Evaluation in Verbindung setzt.
Abbildung 3). Dieses Kompetenzmo-
dell beinhaltet die Data-Literacy- Um das Kompetenzmodell weiter zu
Kompetenzen nach Ridsdale et al., fundieren und auszudifferenzieren,
stellt den Bereich aber mit einem aber auch um den Gegenstandsbe-
stärkeren fachdidaktischen Fokus dar reich Data Literacy und Data Science
und legt einen Schwerpunkt auf die zu erschließen, ist weitere Forschung
fachliche Fundierung und die dahin- notwendig.
terstehenden Konzepte.6
Wie auch beim Kompetenzmodell der
GI-Empfehlungen für Bildungsstan-
dards Informatik für die Sekundarstu-
fe I/II sind die Prozess- und Inhalts-
bereiche des Data-Literacy-
Kompetenzmodells eng miteinander
verzahnt, wie folgende Beispiele ver-
deutlichen: Die Kompetenz „Daten mit
Hilfe von Sensoren erfassen“ verbin-
det die Bereiche Daten und Daten-
5
Grillenberger, Andreas und Romeike,
Ralf (2017): Key Concepts of Data Man-
agement: An Empirical Approach. In: Pro-
ceedings of the 17th Koli Calling Interna-
tional Conference on Computing Educa-
tion Research, ACM, New York.
6
Ridsdale et al. (2015): Strategies and
Best Practices for Data Literacy Educa-
tion: Knowledge Synthesis Report“, Re-
port, 2015.
Seite 11Praktiken Kerntechnologien
• Datenerfassung/- Dateispeicher, Datenbanken, Datenstromsysteme,
gewinnung Datenanalysen, Semantic Web, Dokumentenspeicher
• Datenbereinigung
Entwurfsprinzipien Mechanismen
• Modellierung
• Implementierung • Datenunabhängigkeit • Strukturierung
• Optimierung • Integrität
• Repräsentation
• Analyse • Konsistenz
• Isolierung • Replikation
• Visualisierung
• Dauerhaftigkeit • Synchronisation
• Evaluation
• Verfügbarkeit • Partitionierung
• Austausch
• Partitionstoleranz
• Archivierung • Konkurrenz • Transport
• Löschung • Redundanz • Transaktion
Abbildung 2: Modell der Schlüsselkonzepte des Datenmanagements
Abbildung 3: Entwurf eines Data-Literacy-Kompetenzmodells
Seite 12Fazit und Ausblick men müssen alle Schüler und
Studenten grundlegende Data-
1) Data Science ist ein zunehmend
Literacy-Kompetenzen erwerben.
wichtiger interdisziplinärer For-
4) Kernideen der Data Science wer-
schungs- und Bildungsbereich,
den durch das Modell der Schlüs-
der eine starke Basis in der In-
selkonzepte des Datenmanage-
formatik (insbesondere Datenma-
ments beschrieben.
nagement) aufweist.
5) Der Fachbezug von Data Literacy
2) Data Literacy ist ein junger Ge-
kann über das Modell der Schlüs-
genstandsbereich der informati-
selkonzepte des Datenmanage-
schen Bildung, der aufgrund sei-
ments hergestellt werden.
ner steigenden Bedeutung sowohl
6) Weitere Forschung zur Fundierung
für die berufsbezogene Ausbil-
und Ausdifferenzierung von Data
dung als auch im Hinblick auf die
Literacy und Data Science ist not-
Allgemeinbildung auszudifferen-
wendig.
zieren ist.
3) Für einen mündigen Umgang mit
Daten und datenbasierten Syste-
Über die Autoren
Andreas Grillenberger ist wissenschaftlicher Mitarbeiter an der Professur für Didak-
tik der Informatik der Friedrich-Alexander-Universität Erlangen-Nürnberg. Seit mehr
als vier Jahren beschäftigt er sich mit der Aufarbeitung des Themengebiets Daten-
management aus informatikdidaktischer Sicht.
Ralf Romeike ist Professor für Didaktik der Informatik an der Friedrich-Alexander-
Universität Erlangen-Nürnberg und Sprecher der GI-Fachgruppe Didaktik der In-
formatik. Ziel seiner Aktivitäten in Forschung und Lehre ist die Ausgestaltung in-
formatischer Bildung, die Kinder und Jugendliche dazu befähigt, die digitale Gesell-
schaft zu verstehen und mitzugestalten.
Seite 13DATA SCIENCE EXPERTS: BEDARF UND MÖGLICHKEITEN
DIESEN ZU DECKEN
Irgendwas mit Daten… Warum wir Data Scientists brau-
chen
Von Gerald Swarat, Fraunhofer-Institut für Experimentelles Software Engineering
IESE
Ein Data Scientist soll „Big Data“ beherrschbar und nutzbar machen, indem er oder
sie von der Datensammlung über die Datenanalyse und Präsentation bis hin zur
Ableitung von Handlungsempfehlungen den kompletten Big-Data-Lifecycle aus
dem Effeff beherrscht. Die Nachfrage nach den Expertinnen und Experten ist enorm
und steigt konsequent an, denn Unternehmen haben natürlich erkannt, dass sie
Fachexperten brauchen. Der Bedarf muss mit unterschiedlichen Maßnahmen kurz-,
mittel- und langfristig adressiert werden.
Data never sleeps: Für die riesigen, Im gleichen Maße, wie Schlagworte
großteils unstrukturierten Datenbe- wie Big Data, Smart Data, Data Mining,
stände in Wirtschaft und öffentlicher Data Engineering, Predictive Analytics
Hand hat sich in den letzten Jahren in die Diskussion geraten, steigt die
mit großem Nachdruck ein Fachbe- Hoffnung auf eine neue Spezies – der
griff etabliert: Big Data. Allerdings Wunsch nach Data Scientists. Denn
sind diese Daten weder Informatio- beinahe unmittelbar mit dem Auf-
nen noch Wissen: „Sie sind erst wert- kommen des Begriffs „Big Data“ folgte
voll, wenn sie verfeinert und analy- das Bekenntnis, mit dem Phänomen
siert werden, sodass aus Rohdaten schier unübersichtlicher Datenmen-
‚Smart Data‘“7werden. Nur dann kön- gen überfordert zu sein und diesen
nen die wissenschaftlichen, ökonomi- nicht mit herkömmlichen Strategien
schen und sozialen Wirkungskräfte beizukommen oder gar Mehrwerte
freigesetzt werden. daraus ziehen zu können.
7
Vgl. Markl, Volker: Gesprengte Ketten. In:
Informatik Spektrum 01/2015.
Seite 14Data Scientist – The Sexiest Job of the Softwaresystemen zu modellieren
21st Century? 8
und zu antizipieren.“10
Was ist also ein Data Scientist? Ganz Der Bedarf ist groß
verkürzt dargestellt soll ein Data Sci-
Die Nachfrage ist trotz (oder gerade
entist „Big Data“ beherrschbar und
wegen) der sehr breiten und unschar-
nutzbar machen, indem er oder sie
fen Definition vorhanden und steigt
von der Datensammlung über die
konsequent an, denn Unternehmen
Datenanalyse und Präsentation bis
haben natürlich erkannt, dass sie
hin zur Ableitung von Handlungsemp-
Fachexperten brauchen, die aus di-
fehlungen den kompletten Big-Data-
versen Datenquellen Antworten auf
Lifecycle aus dem Effeff beherrscht.
die brennenden Fragen finden, um
Einsatzfelder zeigen sich zur Genüge, Prozessabläufe zu optimieren, den
so hat sich z.B. zunehmend der Be- Kunden besser zu verstehen oder gar
reich von algorithmischen Entschei- völlig neue Geschäftsmodelle zu er-
dungssystemen als Paradebeispiel für öffnen. Banken und Beratungsfirmen
Data Scientists angeboten, seitdem suchen die auf große Datenmengen
über deren Fehler in der Öffentlich- spezialisierten Analysten genauso wie
keit diskutiert wird. Bspw. bei der Be- Autohersteller, Versicherungen und
wertung von Angeklagten bezüglich Verwaltungsbehörden – und in Zeiten
ihres aktuellen oder künftig zu erwar- der allgegenwärtigen Digitalisierung
tenden kriminellen Verhaltens oder und Konzepten wie Industrie 4.0 und
bei der Vergabe von Krediten.9 In die- autonomer Systeme findet man fast
sen Bereichen werden die Entschei- in jeder Branche ein Einsatzfeld. Na-
dungen und Interpretationen von türlich steigt mit diesem Markt auch
Data Scientists Auswirkungen sowohl die Nachfrage bei Studierenden.
auf die Gesellschaft im Allgemeinen
Nur werden diese Bedürfnisse durch
als auch auf das Wohl und Wehe ei-
das heutige Ausbildungssystem noch
nes einzelnen Individuums besitzen,
nicht ausreichend gestillt; hinzu
was zusätzlich zur technischen Sou-
kommt, dass die Anforderungen an
veränität eine klare Berufsethik er-
einen Data Scientist außerordentlich
fordert. Es geht also darum, „die mög-
komplex sind. Es ist also höchste Zeit,
lichen gesellschaftlichen Folgen von
Aufgaben und Kompetenzen des Be-
rufsbildes zu diskutieren und ein Cur-
8
Lt. Harvard Business Review (2012): riculum abzuleiten, das übergreifende
http://hbr.org/2012/10/data-scientist-the-
sexiest-job-of-the-21st-century.
Kompetenzen und Inhalte in der digi-
9
Vgl. Zweig, Katharina (2018): Wo Maschinen talen Welt, wie z.B. Wissenschaft, Ar-
irren können. Verantwortlichkeiten und Feh- beitswelt und Gesellschaft, zusam-
lerquellen in Prozessen algorithmischer Ent-
scheidungsfindung. Eine Publikation der Ber-
10
telsmann Stiftung, Gütersloh. Zweig, Katharina: S. 30.
Seite 15menbringt. Dabei geht es einerseits gibt es kostenpflichtige Fortbildungs-
tatsächlich um die Ausbildung von angebote für Berufstätige.
Fachexperten – den Data Scientists,
Volker Markl weist zu Recht darauf
die sich in der Tiefe mit den Verfah-
hin, dass in der Vergangenheit die
ren und Technologien auskennen –
Disziplinen der Datenanalyse und der
und andererseits darum, in den ein-
skalierbaren Datenverarbeitung nicht
zelnen Disziplinen eine Art übergrei-
eng verzahnt waren, was jedoch für
fende Grundkompetenz in Data Lite-
einen souveränen Umgang mit gro-
racy zu vermitteln.
ßen Datenmengen mit geringer La-
In Deutschland wird Data Science tenz erforderlich ist. Zudem sind das
bisher vor allem als Aufbaustudium Wissen der Anwendungsdomäne und
nach einem Bachelor zum Beispiel in die juristischen und gesellschaftli-
Mathematik oder Informatik angebo- chen Implikationen zu beachten.
ten. München war 2015 eine der ers- Markl vergleicht deshalb die Wün-
ten Universitäten, die einen Master in sche, die auf den Data Scientist proji-
Data Science anboten, Mannheim und ziert werden, mit der Suche nach der
Darmstadt zogen nach. Außerdem eierlegenden Wollmilchsau:
Abbildung 4: Die Anforderungen an den/die „Data Scientist“ ist enorm (Markl 2015)
Seite 16Warum ist die eierlegende Wollmilch- in der Breite aufzubauen. Es ist des-
sau so wichtig? halb zu begrüßen, dass im Koalitions-
vertrag Data Science Beachtung fin-
Wenn wir Angst haben, dass wir alte
det.
Jobs verlieren, weil sie in der digitalen
Welt überflüssig werden könnten, Handlungsempfehlungen
müssen neue geschaffen werden.
Um kurzfristig den Bedarf zu decken,
Wenn wir Angst haben, dass uns die
sollten die betreffenden Mitarbeiter
Datenflut übermannt und wir nie-
in den Unternehmen unterstützt und
manden haben, der die Instrumente
geschult werden (bspw. über Fortbil-
beherrscht, dann brauchen wir Be-
dungen11). Dafür müssen mehr flexible
rufsbilder, die das können. Wenn wir
Angebotsformen (Fernstudienoptio-
Angst haben, dass nur die bekannten
nen und berufsbegleitende Optionen)
Big Player der Digitalisierung, wie
bereitgestellt werden. Ein mittelfristi-
Google, Amazon, Facebook und Apple,
ger Ansatz bringt die Unternehmen
Potenzial aus Big Data schöpfen,
mit den anwendungsorientierten Wis-
dann müssen wir Sorge tragen, dass
senschaftseinrichtungen zusammen,
unsere Unternehmen die notwendi-
um so die Bedarfsfelder mit den
gen Kompetenzen über entsprechend
Kompetenzträgern zu vernetzen und
ausgebildetes Personal aufbauen und
ein Bewusstsein in der Öffentlichkeit
nutzen können. Wenn wir Angst ha-
zu erzeugen (z.B. in einem Kompe-
ben, dass die Technik zunehmend
tenzzentrum, das die Felder identifi-
Macht über uns gewinnt (Stichwort
ziert, die den dringendsten Know-
KI/Algorithmen) und wir feststellen,
how-Aufbau benötigen und die Inhal-
dass sich immer mehr ethische Fra-
te an verschiedene Bildungsniveaus
gen aufdrängen, sollten wir Rahmen-
und Disziplinen (nicht jeder braucht
bedingungen wie einen digitalen Da-
das komplette Spektrum) anpasst).
tencodex entwickeln und Data Scien-
Als langfristige Lösung ist ein im brei-
tists in Ethik schulen.
ten Dialog entstandenes Curriculum
Wir stellen also fest, dass eine inter- in Deutschland zu entwickeln, das
disziplinäre und ethische Perspektive unter dem Schirm bestimmter Essen-
notwendig ist, die bei den oft techni- tials den Universitäten genügend
schen Ausbildungen der heutigen Freiraum überlässt, den Studiengang
Data Scientists nicht unbedingt gege- für sich auszugestalten.
ben ist. Zum anderen fehlen den An-
wendern in den einzelnen Domänen
oft Kompetenzen, wenn es darum 11
geht, die Datengrundlage einzuschät- https://www.academy.fraunhofer.de/de/
zen und Ergebnisse richtig zu inter- weiterbildung/information-
kommunikation/data-scientist-
pretieren. Diese Kompetenzen gilt es schulungen.html.
Seite 17Über den Autor
Gerald Swarat ist studierter Historiker und Germanist. Er ist Leiter des Berliner Kon-
taktbüros des Fraunhofer-Instituts für Experimentelles Software Engineering IESE
(Kaiserslautern). Swarat koordiniert die Aktivitäten des Instituts in der Bundes-
hauptstadt rund um die Themen Smart Ecosystems, Industrie 4.0, Datensouveräni-
tät und Smart Rural Areas, ist Ansprechpartner für Wissenschaft, Politik und Wirt-
schaft vor Ort in Berlin und stellvertretender Sprecher der Regionalgruppe Berlin-
Brandenburg der GI.
Seite 18Qualitätsanforderungen für Data Science in Deutschland
Von Dr. Hans-Josef Linkens, Bundesministerium für Bildung und Forschung
Um das Versprechen der Datenwissenschaften, aus Daten Informationen zu ma-
chen, zu erfüllen, sind offene Forschungsdaten wichtig. Denn ohne offene Daten ist
ihre Nutzung, ihre Nachnutzung über die Grenzen von Regionen, Organisationen
und Disziplinen hinweg nicht möglich. Um das deutsche Wissenschaftssystem im
internationalen Wettbewerb weiter zu stärken, brauchen wir eine leistungsfähige
Infrastruktur – und zwar nicht nur als Speicher, Rechner und Netze, sondern als
Dienstleistungsangebote und Services. Und wir benötigen Personalentwicklung für
Data Science auf allen Ebenen.
Der wissenschaftlichen Frage, wie aus „erforderlichen Kompetenzprofile
Daten Informationen, Wissen und verständigen“ solle.
Innovationen gewonnen werden,
Zweitens: Die Empfehlungen des Rats
kommt eine große Bedeutung zu. Die
für Informationsinfrastrukturen (RfII)
Politik hat sich bereits mehrfach mit
„Leistung aus Vielfalt“ von 2016. Hier-
den entsprechenden Rahmenbedin-
in zieht der RfII u.a. den Schluss, eine
gungen befasst. Zwei Empfehlungen
nationale Forschungsdateninfrastruk-
haben das Thema breiter diskutiert
tur zu etablieren, um eine Grundver-
und die wissenschaftspolitische Dis-
sorgung mit Speichermöglichkeiten
kussion, die zu einer Nationalen For-
und Services anzubieten, Fragmentie-
schungsdateninfrastruktur und der
rung zu überwinden, Standards und
EOSC geführt wird, geprägt und sollen
Methoden zu vereinheitlichen und
hier kurz erwähnt werden:
vernetzte Dienstleistungen anzubie-
Erstens: Die Empfehlungen zur Wei- ten.
terentwicklung der wissenschaftli-
Um das Versprechen der Datenwis-
chen Informationsinfrastrukturen in
senschaften, aus Daten Informatio-
Deutschland bis 2020, die der Wissen-
nen zu machen, zu erfüllen, sind of-
schaftsrat 2012 veröffentlicht hat. Da-
fene Forschungsdaten wichtig. Denn
rin wird betont, dass die Gewährleis-
ohne offene Daten ist ihre Nutzung
tung des Zugangs zu den für die wis-
über die Grenzen von Regionen, Or-
senschaftliche Arbeit und das Studi-
ganisationen und Disziplinen hinweg
um erforderlichen Daten und Wis-
nicht möglich. Selbstverständlich soll
sensbeständen eine öffentliche Auf-
„offen“ nicht „frei“ erhältlich bedeu-
gabe ist. Zu den Empfehlungen gehör-
ten. Ebenso selbstverständlich gibt es
te, dass die Wissenschaft sich auf die
Interessen, die zu berücksichtigen
Seite 19sind, und Schutzbedarfe, die einzu- schaftspolitik ist in der Verantwor-
halten sind. Dennoch sollten Daten tung, Rahmenbedingungen festzule-
aus öffentlich geförderten Vorhaben gen.
zugänglich gemacht werden, um das
Für die Bewältigung dieser Heraus-
Wissenschafts- und Innovationssys-
forderungen ist eine umfassende Per-
tem zu stärken. Dieses Anliegen wird
sonalentwicklung erforderlich. Ange-
auch von der G20 und auf EU-Ebene
sichts des großen Bedarfs in For-
verfolgt.
schung und Lehre, in den For-
Die Grenzen zwischen dem, was die schungseinrichtungen, aber auch in
klassischen Wissenschaften und die der Wirtschaft wird Datenexpertise
Informationsinfrastrukturen leisten, auf allen Ebenen benötigt. Zum Be-
werden unschärfer. Dies ist bereits darf gibt es verschiedene Aussagen,
heute zu bemerken – etwa bei Begut- Studien und Abschätzungen – allen
achtungen von wissenschaftlichen gemein ist: Der Bedarf ist erheblich.
Vorhaben, in denen mehr und mehr Es werden also sowohl spezialisierte
Methodenkenntnis aus dem infra- Fachleute für die verschiedenen Me-
strukturellen Teil des Antrags erfor- thoden von Data Science als auch
derlich ist. Kompetenzen in den jeweiligen Fach-
disziplinen benötigt. Da die Informa-
Daraus folgt: Um die Qualität der Wis-
tionsinfrastrukturen ein wesentlicher
senschaft weiter zu befördern, benö-
Bestandteil des Forschungsprozesses
tigen wir eine leistungsfähige Infra-
selber werden, werden auch Ma-
struktur – und zwar nicht nur als
nagementkompetenzen (Prozessma-
Speicher, Rechner und Netze, sondern
nagement, Kommunikation) erforder-
als Dienstleistungsangebote und Ser-
lich, um die Datenwissenschaften in
vices für das Forschungsdatenma-
den Forschungsprozess einzubinden.
nagement, für Mustererkennung, für
Simulation, Visualisierung, Langzeit- Fazit und Ausblick
archivierung, statistische Auswertung
Vier Thesen für eine weitere Diskussi-
– für die gesamte Bandbreite der da-
on:
tenwissenschaftlichen Methoden,
Techniken und Theorien, also dem, 1) Eine Grundvoraussetzung für Da-
was man Data Science nennt. Hier tenwissenschaften sind offene
brauchen wir generische Dienste wie Forschungsdaten – offen in einer
auch fachspezifische Angebote. Es intelligenten Form.
liegt dabei in der Verantwortung der 2) Die Grenzen zwischen dem, was
wissenschaftlichen Communitys und die klassischen Wissenschaften
einzelnen Fächer, ihre spezifischen und die Informationsinfrastruktu-
Bedarfe zu beschreiben und Stan- ren leisten, werden unschärfer.
dards zu setzen. Auch die Wissen-
Seite 203) Um die Qualität der Wissenschaft 4) Eine Personalentwicklung auf
weiter zu befördern, ist die Ein- allen Ebenen ist erforderlich.
richtung einer leistungsfähigen
Infrastruktur notwendig.
Über den Autor:
Dr. Hans-Josef Linkens ist Referatsleiter im Referat Digitaler Wandel in Wissenschaft
und Forschung des Bundesministeriums für Bildung und Forschung.
Seite 21Data Science in der deutschen Hochschullandschaft
Von Dr. Klaus Wannemacher, HIS-Institut für Hochschulentwicklung e.V. (HIS-HE)
Eine sehr ausgeprägte Nachfrage nach Data Scientists am Arbeitsmarkt trifft auf ein
sehr begrenztes Angebot an AbsolventInnen. Die Entwicklung des entsprechenden
Studienangebots an deutschen Hochschulen befindet sich noch in einer Frühphase
und ist bislang stark von staatlichen Hochschulen dominiert. Es ist ein Mangel an
Bachelorstudiengängen, an weiterbildenden Angeboten und an alternativen Quali-
fizierungsformen erkennbar.
Im Rahmen des Forschungsvorhabens und nahezu keine Untersuchung zum
„Studienangebote im Bereich Data Studienangebot für Data Science.
Science – Potenziale für Arbeitsmarkt
Eine Deloitte-Studie zu „Data Analy-
und Hochschulentwicklung“ geht HIS-
tics“, in deren Rahmen 291 deutsche
HE im Sinne einer Trendanalyse dem
Unternehmen ab 100 Mio. Euro Um-
Entwicklungsstand im Bereich des
satz befragt worden waren, gelangte
Studienangebots für Data Science an
2015 im Hinblick auf die Verfügbarkeit
den deutschen Hochschulen nach. Im
von Data-Science-Experten am Ar-
Rahmen einer systematischen Litera-
beitsmarkt zu einer kritischen Ein-
tur- und Dokumentenrecherche, einer
schätzung: „Noch bietet der Hoch-
bundesweiten Bestandsaufnahme
schulsektor in Deutschland aber
sowie einer Expertenbefragung wer-
kaum dezidierte Studiengänge in die-
den Tendenzen der Entwicklung des
se Richtung; die Fähigkeiten bringen
Studienangebots im Bereich Data
am ehesten Naturwissenschaftler
Science erfasst und ausgewertet.
mit.“ 47 Prozent der befragten Unter-
Eine im Rahmen des Projekts durch- nehmen sprachen sich für ein Ein-
geführte systematische Literatur- und greifen der Politik zur Erhöhung der
Dokumentenrecherche förderte Stu- Wettbewerbsfähigkeit im Auf- und
dien zum Potenzial von Data Science Ausbau in spezialisierten Studiengän-
für Unternehmen, arbeitsmarktanaly- gen aus.
tische und berufsfeldbezogene Unter-
Die grundsätzliche Situation des Stu-
suchungen u.Ä. zutage, doch kaum
dienangebots im Bereich Data Sci-
Studien zur Vermittlung einschlägiger
ence an den deutschen Hochschulen
Kompetenzen, zum Potenzial von Data
ist noch immer wenig komfortabel,
Science für die Hochschulentwicklung
hat sich seit der Deloitte-Studie al-
lerdings signifikant verändert, wie
Seite 22Zwischenergebnisse der HIS-HE- • sich trotz hoher fachlicher Anfor-
Untersuchung belegen. derungen zahlreiche Fachfremde
(mit einem wissenschaftlichen
Die Bestandsaufnahme der Studien-
Hintergrund in Betriebswirt-
angebote im Bereich Data Science an
schaftslehre, Naturwissenschaf-
den deutschen Hochschulen zeigt,
ten, Psychologie etc.) auf Stu-
dass mittlerweile rund 25 Bachelor-
dienplätze bewerben. Sie holen
und Masterstudiengänge (sowie eini-
fehlende Mathematik-/ Informa-
ge Kontaktstudienangebo-
tikkenntnisse zu Beginn des Stu-
te/Zertifikatskurse) für Data Science
diums nach.
existieren – bei steigender Tendenz.
• dass widrige Rahmenbedingun-
Die Studiengänge wurden mehrheit-
gen die Entwicklung weiterbil-
lich seit 2014 eingeführt und sind weit
dender Angebote durch Hoch-
überwiegend generalistisch konzi-
schulen hemmen (z.B. die MOOC-
piert; nur selten wird ein spezieller
Konkurrenz aus den USA, hetero-
fachlicher Fokus verfolgt (z.B. Data
gene Zielgruppen und die hoch-
Science in der Medizin). Die Studien-
schulrechtlich verankerte Norm
angebote sind weit überwiegend an
kostendeckenden Arbeitens bei
staatlichen Universitäten und staatli-
weiterbildenden Angeboten).
chen Fachhochschulen angesiedelt.
Es handelt sich mehrheitlich um Mas- Fazit und Ausblick
terstudiengänge, welche vielfach an
zuvor absolvierte Informatik- oder Es bedarf einer weiteren Ausdifferen-
Mathematikstudiengänge anknüpfen. zierung des Studienangebots für Data
Science. Insbesondere sollten
Gegenwärtig wird eine qualitative,
explorative Expertenbefragung unter • weiterbildende Teilzeitstudien-
Vertreter(inne)n von Wirtschaftsver- gänge (Bachelor- und Masterni-
bänden und Unternehmen sowie in veau),
Wissenschaftseinrichtungen zur Vali- • weiterbildende Zertifikatskurse
dierung und Vertiefung der Projekter- (mit ECTS) sowie
gebnisse durchgeführt. Erste Ergeb- • weiterbildende Seminare und
nisse der Expertenbefragung deuten Workshops (ohne ECTS)
darauf hin, dass
konsequent weiter ausgebaut werden.
• die Nachfrage bei Studieninte- Während bei weiterbildenden Zertifi-
ressierten sehr ausgeprägt ist. katskursen und Seminaren schon
Studiengangssprecher von Data- eine Anschubfinanzierung hilfreich
Science-Studiengängen berichten sein kann, gilt es für Studiengänge
von jährlichen Ablehnungsquoten dauerhafte Finanzierungswege sicher-
zwischen 50 und 95 Prozent. zustellen.
Seite 23Über den Autor
Dr. Klaus Wannemacher ist wissenschaftlicher Mitarbeiter im Geschäftsbereich
Hochschulmanagement des HIS-Instituts für Hochschulentwicklung (HIS-HE). Als
Organisationsberater unterstützt er Hochschulen, außeruniversitäre Forschungsein-
richtungen und Ministerien mit Grundlagenarbeiten, Beratungsleistungen und For-
schungsprojekten sowie Angeboten zum Wissenstransfer mit einem Schwerpunkt
auf dem Bereich Hochschule im digitalen Zeitalter.
Seite 24Data-Science-Kompetenzzentren als Schlüssel zum Erfolg
Von Prof. Dr. Erhard Rahm, Universität Leipzig / ScaDS Dresden / Leipzig Compe-
tence Center for Scalable Data Services and Solutions
Erfolgreiche Data-Science-Lösungen erfordern die kombinierte Expertise zu Daten-
aufbereitung/Big Data, Data Mining und maschinellem Lernen sowie Anwendungs-
hintergründen. Diese breite Expertise kann in der Regel nur durch ein Team von
Spezialisten bereitgestellt werden, die idealerweise an Data-Science-
Kompetenzzentren kooperieren. In der Hochschulausbildung sollte Data Science
sowohl auf Bachelor- auch als auf Masterebene stark ausgeweitet werden.
Data Science beinhaltet Methoden zur Erfolgreiche Data-Science-Lösungen
umfassenden Analyse von Daten zur erfordern somit die kombinierte Ex-
Gewinnung neuer Erkenntnisse in pertise zu
unterschiedlichsten Anwendungsge-
bieten. Das Spektrum der Analysever- • Big-Data-Technologien wie Da-
fahren ist weit gefächert und reicht tenaufberei-
von einfachen Datenabfragen bis hin tung/Datenintegration und ska-
zu statistischen Data-Mining- lierbare Ansätze zur parallelen
Verfahren und Techniken des ma- Datenverarbeitung,
schinellen Lernens. Wesentlich für die • zu Data Mining und maschinel-
Aussagekraft und Qualität der Analy- lem Lernen
se ist eine umfassende Aufbereitung • sowie die Anwendungsexpertise,
der Daten (Datenbereinigung und - um für die spezifischen Problem-
konsolidierung), die oft aus unter- stellungen adäquate Verfahren
schiedlichen Quellen stammen, teil- zur Datenaufbereitung und Da-
weise unstrukturiert sind und zahlrei- tenanalyse zu bestimmen.
che Qualitätsmängel und Fehler be-
Einzelne Personen werden in der Re-
inhalten können. Die Daten sind zu-
gel nur ein bis zwei dieser drei Berei-
dem teilweise hoch-dynamisch (z.B.
che ausreichend vertieft beherrschen,
Sensordaten) und oft von sehr gro-
so dass anspruchsvolle Data-Science-
ßem Umfang (Big Data). Diese Aspekte
Projekte in der Regel ein Team von
verlangen sehr leistungsfähige, hoch-
Experten benötigen. Kompetenzzen-
parallele Lösungsansätze zur Daten-
tren zu Data Science (bzw. Big Data
verarbeitung, z.B. mit zahlreichen Pro-
oder Machine Learning) können die
zessoren in lokalen Clustern.
unterschiedlichen Kompetenzen bün-
deln und damit eine schnellere Nutz-
Seite 25barkeit von Data Science in Wissen- ersten der oben genannten Gebiete
schaft und Praxis unterstützen. Dort zu berücksichtigen. Die Anwendungs-
können auch die entsprechenden aspekte können im Rahmen eines
Hardwareressourcen, in Kombination Ergänzungsfachs sowie durch Praktika
mit geeigneter Administrations- und und in der Abschlussarbeit berück-
Serviceunterstützung, bereitgehalten sichtigt werden.
werden. Vorreiter solcher Zentren
Fazit und Ausblick
sind die beiden BMBF-geförderten
Kompetenzzentren für Big Data, 1) Die Einrichtung von Kompetenz-
ScaDS Dresden/Leipzig sowie BBDC. zentren zu Data Science (Big Da-
Weitere Zentren sind geplant oder ta, Machine Learning) hat sich
bereits an anderen Orten eingerichtet bewährt, sollte durch Bund und
worden, um den hohen Bedarf an Länder jedoch wesentlich ver-
Data-Science-Lösungen in Deutsch- stärkt werden, jeweils mit stand-
land zu adressieren. ortspezifischen Forschungs- und
Anwendungsschwerpunkten.
Die Ausbildung zu Data Science sollte
2) Umfassende Mehranstrengungen
an den Hochschulen auf dem Ba-
sind in der Data-Science-
chelor- und Masterlevel stark ausge-
Ausbildung erforderlich, insbe-
baut werden, um der immensen
sondere zur Etablierung neuer
Nachfrage nach akademisch ausge-
bzw. angepasster Bachelor- und
bildeten Data-Science-Spezialisten
Masterstudiengänge an den
Rechnung zu tragen. Dies kann in ei-
Hochschulen.
genständigen Studiengängen erfolgen
3) Um einem Wildwuchs solcher
oder durch entsprechende neue
Studiengänge entgegenzutreten,
Schwerpunkte in existierenden Studi-
wäre es hilfreich, wenn die GI
engängen, z.B. der Informatik. Dabei
Empfehlungen zur inhaltlichen
sind in Informatikstudiengängen vor
Ausgestaltung solcher Studien-
allem die Methoden in den beiden
angebote erstellen könnte.
Über den Autor
Prof. Dr. Erhard Rahm ist Professor für Informatik (Datenbanken) an der Universität
Leipzig und einer der beiden Direktoren des BMBF-geförderten Big-Data-
Kompetenzzentrums ScaDS Dresden/Leipzig. Seine Forschungsgebiete sind Big Data
und Datenintegration. Er ist Autor mehrerer Bücher und von über 200 wissenschaft-
lichen Publikationen. Seine Forschungsergebnisse wurden bereits mehrfach ausge-
zeichnet, u.a. mit den angesehenen VLDB Ten Year Best Paper Award sowie dem
ICDE Influential Paper Award. Prof. Rahm ist gewähltes Mitglied im DFG-
Seite 26Fachkollegium Informatik. In der GI ist er Sprecher des Fachbereichs Datenbanken
und Informationssysteme (DBIS).
Seite 27Data Science und die Qualität von Daten
Von Prof. Dr. Richard Lenz, Friedrich-Alexander-Universität Erlangen-Nürnberg
Im Zeitalter von „Big Data“ wird zunehmend der „Data Scientist“ als wichtiges Be-
rufsfeld identifiziert. Er analysiert große Datenmengen mit teilautomatisierten Me-
thoden und leitet aus seinen Ergebnissen Handlungsempfehlungen ab. Die Beur-
teilung der Datenqualität ist für den Data Scientist von zentraler Bedeutung. Dabei
kann er aber nicht auf die traditionellen Methoden der Qualitätssicherung zurück-
greifen, denn die Datenquellen entziehen sich in der Regel der Kontrolle der Da-
tenkonsumenten. Data-Profiling-Methoden, neue Methoden der Datenqualitäts-
messung und neue Methoden der Schema-Inferenz werden gebraucht.
Datenqualität ist ein schwer zu fas- teilen und gegebenenfalls nachträg-
sender Begriff, weil die Kriterien, nach lich bedarfsgerecht zu bereinigen und
denen die Qualität von Daten beur- mit geeigneten Metadaten anzurei-
teilt wird, in der Regel vom Verwen- chern. Von zentraler Bedeutung ist
dungskontext abhängen. Sehr abs- dabei für den Data Scientist insbe-
trakt wird Datenqualität oft als „fit- sondere die verschiedenartigen Da-
ness for use“ charakterisiert. Um Da- tenquellen gut zu verstehen, um be-
tenqualität zu messen und zu verbes- urteilen zu können, ob sie für den
sern, gibt es heute zahlreiche Metho- Verwendungszweck auch geeignet
den, die aber nur selten domänenun- sind. Falsch interpretierten Daten
abhängig sind und oft nicht auf ande- sieht man nicht an, dass sie fehler-
re Anwendungskontexte übertragbar haft, unscharf oder für den intendier-
sind. Proaktive Methoden zur Quali- ten Verwendungszweck gänzlich un-
tätssicherung, wie TDQM (Total Data geeignet sind, sie führen aber zu fal-
Quality Management), sind auf Big- schen Schlüssen und damit auch fal-
Data-Szenarien kaum anzuwenden, schen oder unbegründeten Hand-
denn die zahlreichen Datenquellen lungsempfehlungen.
entziehen sich zielgerichteten quali-
Data Profiling bezeichnet ein breites
tätssichernden Maßnahmen im Da-
Spektrum an Methoden, die ein Data
tenproduktionsprozess, wenn die
Scientist anwenden kann, um Daten-
Quellen nicht unter der Kontrolle der
quellen besser zu verstehen. Das
Datenkonsumenten stehen.
reicht von der Analyse von Datenty-
Ein Großteil der Aufwände des Data pen, Wertebereichen, Werteverteilun-
Scientist fließt somit in Aufgaben, gen, Schlüsseleigenschaften von At-
geeignete Quellen zu finden, zu beur- tributen, funktionalen Abhängigkeiten
Seite 28bis zu bedingten funktionalen Abhän- Wissen um die Bedeutung der Daten,
gigkeiten und Inklusionsanalysen. das sich der Data Scientist erarbeitet
Felix Naumann weist in einem vielbe- hat, ist in diesen Anfragen implizit
achteten Artikel auf die besondere enthalten.
Bedeutung von Data Profiling im Zu-
Im OCEAN-Projekt an der FAU Erlan-
sammenhang mit Data Science hin
gen wird versucht das in Anfragepro-
und macht auf den dringenden Be-
tokollen versteckte Wissen um die
darf an neuen Methoden aufmerk-
Bedeutung von Datenquellen nutzbar
sam, die insbesondere für das Profi-
zu machen. Auf diese Weise soll ver-
ling nicht-relationaler Daten geeignet
sucht werden, einmal unternommene
sind. Eine ähnliche Einschätzung fin-
Anstrengungen für die Datenintegra-
den Halevy et al., die im Zusammen-
tion nicht verpuffen zu lassen, son-
hang mit den Erfahrungen aus
dern wiederzuverwenden, in der
Googles Goods-Projekt auf die hohe
Hoffnung, dass dadurch eine inkre-
Bedeutung von Werkzeugen zur Ver-
mentelle nutzungsorientierte Verbes-
besserung des Verständnisses von
serung des Datenverständnisses er-
Datenquellen hinweisen.
reicht werden kann.
Data-Profiling-Methoden helfen bei
Fazit und Ausblick
unbekannten Datenquellen, sind je-
doch weit davon entfernt die Bedeu- Im Zusammenhang mit der Beurtei-
tung von Daten vollständig erfassen lung von Datenqualitätsfragen im
und erklären zu können. Methoden Bereich Data Science ergeben sich
der Schema-Inferenz würde man sich Fragestellungen in folgenden Berei-
wünschen, damit automatisiert er- chen:
kannt werden kann, welche Daten-
quellen vergleichbar oder sinnvoll • Präzisierung und Standardisie-
verknüpfbar sind. Meist lässt sich das rung elementarer Datenquali-
aber nicht automatisieren, und dann tätskriterien
erfordert die semantische Einordung • Standards zur systematischen
von Datenquellen einen hohen kogni- Annotation von Quelldaten mit
tiven Aufwand beim Data Scientist. Qualitätsmerkmalen
Hat der Data Scientist die Quellen • Neue Methoden zum Data Profi-
einmal verstanden, kann er sie in ling für nicht-relationale Daten-
geeigneten Anfragen zielgerichtet quellen
weiterverwenden oder sinnvoll mit • Neue Methoden der Schema-
anderen Quellen verknüpfen. Das Inferenz
Seite 29Über den Autor
Prof. Dr. Richard Lenz ist Professor für Datenmanagement an der Universität Erlan-
gen-Nürnberg. Er beschäftigt sich in seiner Forschung u.a. mit dem Thema Evoluti-
onäre Informationssysteme. In diesem Zusammenhang ist auch das Thema Daten-
qualität von zentraler Bedeutung. Er ist Sprecher des Fachbereichs Informatik in
den Lebenswissenschaften in der GI.
Seite 30Data Science im angloamerikanischen Kontext: Status
quo eines modernen Studien- und Berufsbilds
Von Dr. Tarek R. Besold, Lecturer in Data Science an der City, University of London
Im internationalen Kontext zählt die junge Disziplin Data Science zu den momentan
sowohl bei Arbeitgebern als auch bei (gegenwärtigen oder zukünftigen) Berufsein-
steigerinnen und -einsteigern gefragtesten Berufsfeldern. Die Data Scientist ist
hierbei eine mit solider theoretischer Fundierung ausgebildete Allrounderin, die
alle wichtigen Schritte des „Data Lifecycle“ durchführen, ihre jeweilige Tätigkeit, wie
auch erzielte Resultate, kritisch reflektieren und anschließend sowohl den Prozess
als auch die erreichten Ergebnisse kommunizieren kann.
Data-Science-Studiengänge erfreuen eine Betonung anwendungsnaher
sich im angloamerikanischen Raum und/oder anwendungsrelevanter
großer Beliebtheit. Kleine und größe- Ausbildungsinhalte festzustellen. Ein
re Unternehmen aus allen Wirt- zweiter genereller Trend kann in der
schaftszweigen, von digitalen Ser- gleichzeitigen, wenn auch etwas ge-
viceprovidern zu klassischer fertigen- ringer gewichteten Fokussierung auf
der Industrie, erhoffen sich Wettbe- solide theoretische Grundlagen – vor
werbsvorteile durch datenunterstütz- allem in Masterstudiengängen, aber
te Entscheidungsfindung sowie durch auch in grundständigen Studiengän-
(teilweise oder vollständig) datenge- gen mit dezidierter Schwerpunktle-
triebene Produkte. Studierende und gung auf Data Science als eigenstän-
Young Professionals, aber auch Ar- diger Disziplin – gefunden werden.
beitnehmerinnen und Arbeitnehmer
Konzeptuell dienen die theoretischen
in vormals datenfernen Berufszwei-
Lehreinheiten (wie z.B. Module zu
gen versprechen sich persönliche
statistischen Grundlagen, zu maschi-
Karrierevorteile, aber auch nachhalti-
nellem Lernen oder zu Datenbank-
gere Karriereverläufe aus dem Erwerb
technologien im Kontext von Big Da-
der Fähigkeiten der Data Science.
ta) als Grundlage der angewandten
Die genaue Interpretation von Data Inhalte (z.B. Datenvisualisierung, Pa-
Science und die Schwerpunktlegung rallel Computing mit Schwerpunkt auf
innerhalb eines Data-Science- maschinellem Lernen, oder Verarbei-
Curriculums unterscheiden sich hier- tung großer Datenmengen). Zugleich
bei je nach Profillinie der jeweiligen stellt die theoretische Ausbildung die
anbietenden Institution. Generell ist Nachhaltigkeit der erworbenen
Seite 31Sie können auch lesen