Data Literacy und Data Science Education: Digitale Kompetenzen in der Hochschulausbildung - Deutsche Physikalische ...
←
→
Transkription von Seiteninhalten
Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten
Data Literacy und Data Science Education: Digitale Kompetenzen in der Hochschulausbildung Policy Paper der Präsidiums-Task-Force „Data Science“ der Gesellschaft für Infor- matik e.V. in Zusammenarbeit mit Vertretern der Deutschen Mathematiker- Vereinigung e.V., der Deutschen Physikalischen Gesellschaft e.V. und der Gesell- schaft Deutscher Chemiker e.V. GI.DE Seite 1
IMPRESSUM Herausgabe Gesellschaft für Informatik e.V. Spreepalais am Dom Anna-Louisa-Karsch-Str. 2 10178 Berlin gi.de Stand April 2018 Bildnachweis Monsitj Copyright Diese Publikation steht unter CC-BY-SA-Lizenz: Es ist gestattet, das Werk zu vervielfältigen, zu verbreiten und öffentlich zugänglich zu machen. Zudem ist es erlaubt die Publikation zu bearbeiten und abzuwan- deln, sofern folgende Bedingungen eingehalten werden: • Namensnennung: Nutzerin oder Nutzer müssen Urheber bzw. Rechteinhaber in der festgelegten Weise, die URL sowie den Titel des Werkes nennen und bei einer Abwandlung einen Hinweis darauf geben. • Weitergabe unter gleichen Bedingungen: Sofern das lizenzierte Werk bear- beitet, abgewandelt oder als Vorlage für ein neues Werk verwendet wird, darf das neu entstandene Werk nur unter dieser oder einer zu dieser kom- patiblen Lizenz genutzt und weiterverbreitet werden. • Lizenzangabe: Nutzerin oder Nutzer müssen Anderen alle Lizenzbedingun- gen mitgeteilt werden, die für dieses Werk gelten. Am einfachsten ist es, wenn dazu ein Link auf den Lizenzvertrag eingebunden wird. Seite 2
GELEITWORT Sehr geehrte Damen und Herren, liebe Leserin, lieber Leser, der Begriff „Data Science“ – die Da- ten Staaten aus. Auch in Deutschland tenwissenschaft – stammt aus den ist der Bedarf groß. Ein Geschäfts- Anfängen der Datenhaltung und - überblick der Universität Harvard analyse, die bis in die 1960er Jahre kürte den „Data Scientist“ sogar zum zurückgehen. Mit der zunehmenden „attraktivsten Beruf des 21. Jahrhun- Bedeutung von „Big Data“ rückte die derts“. Wissenschaft der Daten weiter in den In der Wissenschaft beschäftigt sich Fokus. Der Schwerpunkt der „Data Data Science mit unterschiedlichen Science“ liegt dabei nicht bei den Bereichen und kann daher verschie- Daten selbst, sondern auf der Art und dene akademische Hintergründe ha- Weise, wie diese verarbeitet, aufberei- ben: Informatik, Statistik, Mathematik, tet und analysiert werden. Data Sci- Natur- oder Wirtschaftswissenschaf- ence beschäftigt sich mit einer ten, einschließlich des maschinellen zweckorientierten Datenanalyse und Lernens, des statistischen Lernens, der systematischen Generierung von der Programmierung, der Datentech- Entscheidungshilfen und -grundlagen, nik, der Mustererkennung, der Prog- um Wettbewerbsvorteile erzielen zu nostik, der Modellierung von Unsi- können. cherheiten und der Datenlagerung. Im Unternehmensumfeld ist das Mittlerweile existiert eine Reihe von Thema häufig im Bereich Business Data-Science-Bachelor- oder -Master- Intelligence angesiedelt. IT- studiengängen. Unternehmen, Banken und Bera- Aufgrund der wachsenden Bedeutung tungsfirmen suchen die auf große dieses neuen Wissenschaftsfeldes an Datenmengen spezialisierten Analys- der Schnittstelle zu verschiedenen ten genauso wie Autohersteller, Ver- Anwendungsbereichen – sowohl für sicherungen und Verwaltungsbehör- Forschung als auch für die Lehre – den. Die Unternehmensberatung hat die Gesellschaft für Informatik e.V. McKinsey geht für 2017 von 150 000 die Task-Force „Data Science“ ins Le- offenen Stellen allein in den Vereinig- ben gerufen. Diese interdisziplinäre Seite 3
Arbeitsgruppe geht der Frage nach, Im Koalitionsvertrag von CDU/CSU was einen Data Scientist in Abgren- und SPD heißt es: „Die Hightech- zung zu bestehenden Wissenschafts- Strategie wird weiterentwickelt und disziplinen wie der Informatik aus- auf die großen gesellschaftlichen macht und welche Kompetenzen ein Herausforderungen fokussiert. […] Es Datenwissenschaftler und eine Da- gilt heute Data Science in allen Berei- tenwissenschaftlerin mitbringen müs- chen, insbesondere aber in den sen. Wir wollen der Frage nachgehen, Hochschulen, auszubauen. Dazu muss wie Universitäten und Hochschulen der Umgang mit Daten zu einem zent- das Profil eines Data Scientist defi- ralen eigenen Wissenschaftsfeld und nieren und wie sich das vom Ver- einer eigenen Disziplin werden.“ ständnis in Unternehmen abgrenzt. Die Gesellschaft für Informatik e.V., In Abgrenzung dazu bedarf es auch die mit 20.000 Mitgliedern die größte grundlegender digitaler Kompetenzen Fachgesellschaft für Informatik im in der Breite der Studierendenschaft: deutschsprachigen Raum ist, will die- Eine Data Literacy. Data Literacy ist se Entwicklung maßgeblich mitgestal- die Fähigkeit des planvollen Umgangs ten. mit Daten. In Ergänzung zu speziali- Diese Publikation ist ein Beitrag dazu. sierten Fachkräften – den Data Scien- Sie stellt eine Zusammenfassung der tists – liegt der Fokus auf der be- im Workshop vorgestellten Impulse darfsgerechten, Disziplinen übergrei- dar und soll das Diskussionsfeld rund fendem Know-how, um datengestützt um den Themenbereich „Data Sci- arbeiten und entscheiden können. ence“ aufspannen. Die folgenden Bei- In einem interdisziplinären Workshop träge reflektieren dabei ausschließ- mit Beteiligung von Vertreterinnen lich die Meinungen der Autorinnen und Vertretern der Deutschen Ma- und Autoren. thematiker-Vereinigung e.V., der Wir wünschen viel Spaß bei der Lek- Deutschen Physikalischen Gesell- türe und freuen uns über weitere schaft e.V. und der Gesellschaft Deut- Beiträge. scher Chemiker e.V., der Ende Januar 2018 unter dem Titel „Data Science: Vom Buzz-Word zu einer neuen Me- thodik des (wissenschaftlichen) Ar- beitens im 21. Jahrhundert“, in Berlin Ihr Peter Liggesmeyer stattfand, wurden verschiedene Per- Past-President und Sprecher der spektiven hinsichtlich „Data-Literacy“- Präsidiums-Task-Force Data Science und „Data-Science“-Kompetenzen in der Gesellschaft für Informatik e.V. Deutschland aufgezeigt. Seite 4
INHALTSVERZEICHNIS GELEITWORT 3 GRUNDLEGENDE DIGITALE KOMPETENZEN IN DER HOCHSCHULAUSBILDUNG 6 DATA LITERACY: DATA SKILLS IN DER BREITE DER HOCHSCHULAUSBILDUNG 6 DATA LITERACY UND DAS MODELL DER SCHLÜSSELKONZEPTE DES DATENMANAGEMENTS 10 DATA SCIENCE EXPERTS: BEDARF UND MÖGLICHKEITEN DIESEN ZU DECKEN 14 IRGENDWAS MIT DATEN… WARUM WIR DATA SCIENTISTS BRAUCHEN 14 QUALITÄTSANFORDERUNGEN FÜR DATA SCIENCE IN DEUTSCHLAND 19 DATA SCIENCE IN DER DEUTSCHEN HOCHSCHULLANDSCHAFT 22 DATA-SCIENCE-KOMPETENZZENTREN ALS SCHLÜSSEL ZUM ERFOLG 25 DATA SCIENCE UND DIE QUALITÄT VON DATEN 28 DATA SCIENCE IM ANGLOAMERIKANISCHEN KONTEXT: STATUS QUO EINES MODERNEN STUDIEN- UND BERUFSBILDS 31 DATA SCIENCE ALS INTERDISZIPLINÄRE HERAUSFORDERUNG FÜR DIE WISSENSCHAFT 34 INTERDISZIPLINÄRE DATEN-LABORATORIEN ALS ANTWORT AUF DIE „DATA CHALLENGE“ 37 DATA SCIENCE IN DEN SOZIALWISSENSCHAFTEN 40 DATA SCIENCE AUS SICHT DER MATHEMATIK 44 DIE BEDEUTUNG VON DATA SCIENCE FÜR DIE CHEMIE 47 DATA SCIENCE EDUCATION IN DER PRAXIS 50 DATA SCIENCE: VON DER WISSENSCHAFT ZUM ERFOLGSFAKTOR FÜR UNTERNEHMEN 50 DATA SCIENTISTS IN DEUTSCHLAND: ÜBER TALENTMANGEL, DEN LÜCKENSCHLUSS ZWISCHEN PROMOTION UND INDUSTRIE SOWIE FIRMENINTERNE WEITERBILDUNG 53 AUSBLICK 56 VON DATA LITERACY BIS DATA SCIENCE: DER HANDLUNGSBEDARF IN DER DEUTSCHEN HOCHSCHULLANDSCHAFT 56 Seite 5
GRUNDLEGENDE DIGITALE KOMPETENZEN IN DER HOCH- SCHULAUSBILDUNG Data Literacy: Data Skills in der Breite der Hochschulaus- bildung Von Dr. Jens Heidrich, Fraunhofer-Institut für Experimentelles Software Engineering IESE, Kaiserslautern, und Daniel Krupka, Gesellschaft für Informatik e.V., Berlin Data Literacy ist die Fähigkeit des planvollen Umgangs mit Daten. In Ergänzung zu spezialisierten Fachkräften – den Data Scientists – liegt der Fokus auf der bedarfs- gerechten, Disziplinen übergreifenden Vermittlung von Wissen, um datengestützt arbeiten und entscheiden können. Data Literacy wird als eine zentrale Kompetenz für Digitalisierung und globale Wissensgesellschaft gesehen. Eine Herausforderung liegt darin, dass Kompetenzen aus verschiedenen Disziplinen integriert werden müssen und ein an die Bedürfnisse des Anwendungsfelds angepasstes Angebot kreiert werden muss. Die Fähigkeit, planvoll mit Daten um- In der Lesart der kanadischen For- zugehen und sie im jeweiligen Kon- scher ist Data Literacy eine zentrale text bewusst einsetzen und hinterfra- Kompetenz für die Digitalisierung und gen zu können, wird über alle Studi- die globale Wissensgesellschaft in enrichtungen hinweg immer wichti- allen Sektoren und Disziplinen. Ange- ger. Eine Studie der Dalhousie Univer- sichts der zunehmenden Menge und sity in Kanada (Ridsdale et al.1) fasst der Verfügbarkeit von Daten stellt diese Fähigkeit unter dem Begriff Da- sich die Herausforderung, mit den ta Literacy zusammen. Dies beinhaltet Daten Wissen zu generieren und fun- die Kompetenzen, Daten erfassen, diert Entscheidungen treffen zu kön- erkunden, managen, kuratieren, ana- nen. lysieren, visualisieren, interpretieren, Aus Sicht des Hochschulforums Digi- kontextualisieren, beurteilen und talisierung braucht es hierfür „auf der anwenden zu können. einen Seite spezialisierte Fachkräfte – Data Scientists – und auf der anderen Seite in allen Sektoren und Fächern 1 Ridsdale et al. (2015): Strategies and datengewandte Expertinnen und Ex- Best Practices for Data Literacy Educa- perten sowie Führungskräfte, die in tion: Knowledge Synthesis Report, 2015. Seite 6
ihren jeweiligen Gebieten Fragen zu tionelle Kompetenzen, Kernkompe- den Daten formulieren und Daten- tenzen sowie fortgeschrittene Kompe- analysen fachlich interpretieren kön- tenzen unterschieden. Darüber hin- nen, insgesamt also datengestützt aus wurde eine Reihe von Empfeh- arbeiten und entscheiden können.“2 lungen erarbeitet, wie „Data Literacy“ erfolgreich an Hochschulen vermittelt Die kanadischen Forscher haben dazu und verbreitet werden kann. 22 Kompetenzen mit zugehörigen Fä- higkeiten, Wissen und Aufgaben iden- tifiziert und in 5 Kompetenzfelder gruppiert. Zusätzlich werden konzep- Conceptual Framework Introduction to Data Data Collection Data Discovery and Collection Evaluating and Ensuring Quality of Data and Sources Data Management Data Organization Data Manipulation Data Conversion Metadata Creation and Use Data Curation, Security and Re-Use Data Preservation Data Evaluation Data Tools Basic Data Analytics Data Interpretation (Understanding Data) Identifying Problems Using Data Visualization Presenting Data (Verbally) Data Driven Decisions Making (DDDM) Data Application Critical Thinking Data Culture Data Ethics Data Citation Data Sharing Evaluating Decisions based on Data Abbildung 1: Data-Literacy-Kompetenzen nach Ridsdale et al. 2 Ausschreibung einer Studie „Übergrei- fende Kompetenzen und Studieninhalte in der digitalen Welt am Beispiel von Data Literacy“. Seite 7
Ausgehend von den Vorarbeiten der Fazit und Ausblick Dalhousie University arbeitet die Ge- Erste „Lessons Learned“ und Empfeh- sellschaft für Informatik zusammen lungen, die auf der Literatur- und mit dem Fraunhofer-Institut für Expe- Desk-Research-Phase identifiziert rimentelles Software Engineering IESE werden konnten, sind: an einer Studie, um umsetzbares Wis- sen für Hochschulen und Fächer für 1) Es ist eine große Herausforde- die Curriculumentwicklung im Hin- rung, möglichst früh das Be- blick auf übergreifende Kompetenzen wusstsein für die Wichtigkeit von und Inhalte in der digitalen Welt an- Data Literacy bei Studierenden hand der Kompetenz der Data Lite- und den Bildungsinstitutionen zu racy zusammenzustellen. Insbesonde- schaffen. re soll die Studie beleuchten, wie die 2) Es bedarf des Aufbaus einer dis- Kompetenz der Data Literacy von al- ziplinunabhängigen Institution, len Studierenden immersiv erworben die Forschende und Lehrende werden kann. aus verschiedenen Kompetenz- feldern (wie informatische, ma- Dazu wurden aus 83 internationalen thematische und Domänen- Studien- und Weiterbildungsangebo- Kompetenzen) zusammenbringt. ten 13 ausgewählt, die nun einer nä- 3) Es bedarf des Einsatzes kreativer heren Betrachtung unterzogen wer- Lehransätze mit technologischen den, um im Rahmen von Interviews Hilfsmitteln, u.a. „Hands-on“, und einem Workshop entsprechende „Modul-basiertes“ und „Projekt- Inhalte, Erfahrungen und Empfehlun- basiertes“ Lernen in Workshops gen für die Vermittlung und Verbrei- oder Labs mit realen Daten tung von Data Literacy zusammenzu- 4) Es bedarf einer genauen Betrach- stellen. Vorbilder für die erfolgreiche tung der Bildungsniveaus und Etablierung entsprechender Angebote Disziplinen, um die Angebote in Hochschulen finden sich insbeson- entsprechen anzupassen, denn dere im angloamerikanischen Raum; nicht jede/r braucht das kom- aber auch innerhalb von Europa und plette Spektrum der Data- Deutschland gibt es bereits vielver- Literacy-Kompetenzen. sprechende Ansätze, die näher be- 5) Data Literacy sollte in der gesam- trachtet werden. ten Breite der Hochschulausbil- dung vermittelt werden. Seite 8
Über die Autoren Dr. Jens Heidrich ist Hauptabteilungsleiter Prozessmanagement am Fraunhofer- Institut für Experimentelles Software Engineering IESE. Der promovierte Informati- ker leitet die Durchführung der Data-Literacy-Studie für das Hochschulforum Digi- talisierung. Daniel Krupka ist Geschäftsführer der Gesellschaft für Informatik e.V. und leitet die Berliner Geschäftsstelle der Fachgesellschaft. Dort ist der Verwaltungswissenschaft- ler u.a. verantwortlich für die Kontakte zu Politik, Wirtschaft und Gesellschaft. Seite 9
Data Literacy und das Modell der Schlüsselkonzepte des Datenmanagements Von Andreas Grillenberger und Prof. Dr. Ralf Romeike, Friedrich-Alexander- Universität Erlangen-Nürnberg Data Literacy ist ein Bereich der informatischen Bildung, welcher sowohl mit den (Weiter-) Entwicklungen des Forschungsbereichs Datenbanken als auch den kor- respondierenden gesellschaftlichen Anforderungen in Verbindung steht. In der berufsbezogenen Ausbildung und für die Allgemeinbildung gewinnt Data Literacy zunehmend an Bedeutung. Zur fachlichen Fundierung wird der Bezug auf das Mo- dell der Schlüsselkonzepte des Datenmanagements vorgeschlagen und ein Data- Literacy-Kompetenzmodell skizziert. Die Didaktik der Informatik erforscht verständlich und helfen Lehr- und und beschreibt informatische Bil- Lerninhalte herauszudestillieren. dungsgegenstände bezogen auf die Ein zentraler Gegenstand der Infor- berufliche Ausbildung und die Allge- matik ist die Verwaltung und Verar- meinbildung. Eine ihrer zentralen beitung von Daten. Deren Relevanz Aufgaben ist die Betrachtung tragfä- und Wahrnehmung hat in den letzten higer Kernaspekte der Wissenschaft Jahren, insbesondere mit der Digitali- Informatik mit dem Ziel, nachhaltige sierung aller Lebensbereiche, deut- Lerngegenstände und Kompetenzen lich zugenommen, wodurch sich ihre zu ermitteln. Hierzu werden Ansätze Bedeutung auch außerhalb der In- wie die Fundamentalen Ideen der formatik geändert hat. Sowohl für den Informatik3 oder die Great Principles alltäglichen als auch den beruflichen of Computing4 herangezogen, welche Umgang mit Daten sind heute grund- die Informatik oder eines ihrer Teil- legende Kompetenzen essentiell, die gebiete durch zentrale Begriffe, Kon- oft unter dem Begriff Data Literacy zepte, Ideen oder Prinzipien charakte- subsumiert werden. risieren. Dadurch vermitteln diese einen Einblick in die betrachtete Wis- Zur Ermittlung der zentralen Inhalte senschaftsdisziplin, strukturieren sie und Kompetenzen, die hinter dem Begriff Data Literacy stehen, sowie zu deren fachlicher Fundierung kann das 3 Schwill, Andreas (1993): Fundamentale Modell der Schlüsselkonzepte des Ideen der Informatik. In: Zentralblatt für Didaktik der Mathematik, 25(1). 4 Denning, Peter J. (2003): Great Principles of Computing. In: Commun ACM, 46(11). Seite 10
Datenmanagements5 (vgl. Abbildung quellen sowie Datenerfassung/- 2) verwendet werden. Dieses nimmt, gewinnung miteinander, während „die in Anlehnung an o.g. Arbeiten zum kontinuierliche Erfassung von Daten Fundament der Informatik, eine Cha- durch und über uns beurteilen“ die rakterisierung des Fachgebiets vor Verknüpfung von Datenethik, legalen und stellt die zentralen Bereiche des und gesellschaftlichen Aspekten mit Themenfelds Daten strukturiert dar. der Datenerfassung/-gewinnung be- tont und „eine (einfache) korrelati- Eine empirische Untersuchung der onsbasierte Datenanalyse auf geeig- Inhalte und Kompetenzen, die in ver- neten Daten durchführen“ die schiedenen Data-Science- Grundsätze der Datenanalyse sowohl Studiengängen enthalten sind, liefert mit der Datenerfassung/-gewinnung auf dieser Basis einen Entwurf eines als auch der Analyse, Visualisierung Data-Literacy-Kompetenzmodells (vgl. und Evaluation in Verbindung setzt. Abbildung 3). Dieses Kompetenzmo- dell beinhaltet die Data-Literacy- Um das Kompetenzmodell weiter zu Kompetenzen nach Ridsdale et al., fundieren und auszudifferenzieren, stellt den Bereich aber mit einem aber auch um den Gegenstandsbe- stärkeren fachdidaktischen Fokus dar reich Data Literacy und Data Science und legt einen Schwerpunkt auf die zu erschließen, ist weitere Forschung fachliche Fundierung und die dahin- notwendig. terstehenden Konzepte.6 Wie auch beim Kompetenzmodell der GI-Empfehlungen für Bildungsstan- dards Informatik für die Sekundarstu- fe I/II sind die Prozess- und Inhalts- bereiche des Data-Literacy- Kompetenzmodells eng miteinander verzahnt, wie folgende Beispiele ver- deutlichen: Die Kompetenz „Daten mit Hilfe von Sensoren erfassen“ verbin- det die Bereiche Daten und Daten- 5 Grillenberger, Andreas und Romeike, Ralf (2017): Key Concepts of Data Man- agement: An Empirical Approach. In: Pro- ceedings of the 17th Koli Calling Interna- tional Conference on Computing Educa- tion Research, ACM, New York. 6 Ridsdale et al. (2015): Strategies and Best Practices for Data Literacy Educa- tion: Knowledge Synthesis Report“, Re- port, 2015. Seite 11
Praktiken Kerntechnologien • Datenerfassung/- Dateispeicher, Datenbanken, Datenstromsysteme, gewinnung Datenanalysen, Semantic Web, Dokumentenspeicher • Datenbereinigung Entwurfsprinzipien Mechanismen • Modellierung • Implementierung • Datenunabhängigkeit • Strukturierung • Optimierung • Integrität • Repräsentation • Analyse • Konsistenz • Isolierung • Replikation • Visualisierung • Dauerhaftigkeit • Synchronisation • Evaluation • Verfügbarkeit • Partitionierung • Austausch • Partitionstoleranz • Archivierung • Konkurrenz • Transport • Löschung • Redundanz • Transaktion Abbildung 2: Modell der Schlüsselkonzepte des Datenmanagements Abbildung 3: Entwurf eines Data-Literacy-Kompetenzmodells Seite 12
Fazit und Ausblick men müssen alle Schüler und Studenten grundlegende Data- 1) Data Science ist ein zunehmend Literacy-Kompetenzen erwerben. wichtiger interdisziplinärer For- 4) Kernideen der Data Science wer- schungs- und Bildungsbereich, den durch das Modell der Schlüs- der eine starke Basis in der In- selkonzepte des Datenmanage- formatik (insbesondere Datenma- ments beschrieben. nagement) aufweist. 5) Der Fachbezug von Data Literacy 2) Data Literacy ist ein junger Ge- kann über das Modell der Schlüs- genstandsbereich der informati- selkonzepte des Datenmanage- schen Bildung, der aufgrund sei- ments hergestellt werden. ner steigenden Bedeutung sowohl 6) Weitere Forschung zur Fundierung für die berufsbezogene Ausbil- und Ausdifferenzierung von Data dung als auch im Hinblick auf die Literacy und Data Science ist not- Allgemeinbildung auszudifferen- wendig. zieren ist. 3) Für einen mündigen Umgang mit Daten und datenbasierten Syste- Über die Autoren Andreas Grillenberger ist wissenschaftlicher Mitarbeiter an der Professur für Didak- tik der Informatik der Friedrich-Alexander-Universität Erlangen-Nürnberg. Seit mehr als vier Jahren beschäftigt er sich mit der Aufarbeitung des Themengebiets Daten- management aus informatikdidaktischer Sicht. Ralf Romeike ist Professor für Didaktik der Informatik an der Friedrich-Alexander- Universität Erlangen-Nürnberg und Sprecher der GI-Fachgruppe Didaktik der In- formatik. Ziel seiner Aktivitäten in Forschung und Lehre ist die Ausgestaltung in- formatischer Bildung, die Kinder und Jugendliche dazu befähigt, die digitale Gesell- schaft zu verstehen und mitzugestalten. Seite 13
DATA SCIENCE EXPERTS: BEDARF UND MÖGLICHKEITEN DIESEN ZU DECKEN Irgendwas mit Daten… Warum wir Data Scientists brau- chen Von Gerald Swarat, Fraunhofer-Institut für Experimentelles Software Engineering IESE Ein Data Scientist soll „Big Data“ beherrschbar und nutzbar machen, indem er oder sie von der Datensammlung über die Datenanalyse und Präsentation bis hin zur Ableitung von Handlungsempfehlungen den kompletten Big-Data-Lifecycle aus dem Effeff beherrscht. Die Nachfrage nach den Expertinnen und Experten ist enorm und steigt konsequent an, denn Unternehmen haben natürlich erkannt, dass sie Fachexperten brauchen. Der Bedarf muss mit unterschiedlichen Maßnahmen kurz-, mittel- und langfristig adressiert werden. Data never sleeps: Für die riesigen, Im gleichen Maße, wie Schlagworte großteils unstrukturierten Datenbe- wie Big Data, Smart Data, Data Mining, stände in Wirtschaft und öffentlicher Data Engineering, Predictive Analytics Hand hat sich in den letzten Jahren in die Diskussion geraten, steigt die mit großem Nachdruck ein Fachbe- Hoffnung auf eine neue Spezies – der griff etabliert: Big Data. Allerdings Wunsch nach Data Scientists. Denn sind diese Daten weder Informatio- beinahe unmittelbar mit dem Auf- nen noch Wissen: „Sie sind erst wert- kommen des Begriffs „Big Data“ folgte voll, wenn sie verfeinert und analy- das Bekenntnis, mit dem Phänomen siert werden, sodass aus Rohdaten schier unübersichtlicher Datenmen- ‚Smart Data‘“7werden. Nur dann kön- gen überfordert zu sein und diesen nen die wissenschaftlichen, ökonomi- nicht mit herkömmlichen Strategien schen und sozialen Wirkungskräfte beizukommen oder gar Mehrwerte freigesetzt werden. daraus ziehen zu können. 7 Vgl. Markl, Volker: Gesprengte Ketten. In: Informatik Spektrum 01/2015. Seite 14
Data Scientist – The Sexiest Job of the Softwaresystemen zu modellieren 21st Century? 8 und zu antizipieren.“10 Was ist also ein Data Scientist? Ganz Der Bedarf ist groß verkürzt dargestellt soll ein Data Sci- Die Nachfrage ist trotz (oder gerade entist „Big Data“ beherrschbar und wegen) der sehr breiten und unschar- nutzbar machen, indem er oder sie fen Definition vorhanden und steigt von der Datensammlung über die konsequent an, denn Unternehmen Datenanalyse und Präsentation bis haben natürlich erkannt, dass sie hin zur Ableitung von Handlungsemp- Fachexperten brauchen, die aus di- fehlungen den kompletten Big-Data- versen Datenquellen Antworten auf Lifecycle aus dem Effeff beherrscht. die brennenden Fragen finden, um Einsatzfelder zeigen sich zur Genüge, Prozessabläufe zu optimieren, den so hat sich z.B. zunehmend der Be- Kunden besser zu verstehen oder gar reich von algorithmischen Entschei- völlig neue Geschäftsmodelle zu er- dungssystemen als Paradebeispiel für öffnen. Banken und Beratungsfirmen Data Scientists angeboten, seitdem suchen die auf große Datenmengen über deren Fehler in der Öffentlich- spezialisierten Analysten genauso wie keit diskutiert wird. Bspw. bei der Be- Autohersteller, Versicherungen und wertung von Angeklagten bezüglich Verwaltungsbehörden – und in Zeiten ihres aktuellen oder künftig zu erwar- der allgegenwärtigen Digitalisierung tenden kriminellen Verhaltens oder und Konzepten wie Industrie 4.0 und bei der Vergabe von Krediten.9 In die- autonomer Systeme findet man fast sen Bereichen werden die Entschei- in jeder Branche ein Einsatzfeld. Na- dungen und Interpretationen von türlich steigt mit diesem Markt auch Data Scientists Auswirkungen sowohl die Nachfrage bei Studierenden. auf die Gesellschaft im Allgemeinen Nur werden diese Bedürfnisse durch als auch auf das Wohl und Wehe ei- das heutige Ausbildungssystem noch nes einzelnen Individuums besitzen, nicht ausreichend gestillt; hinzu was zusätzlich zur technischen Sou- kommt, dass die Anforderungen an veränität eine klare Berufsethik er- einen Data Scientist außerordentlich fordert. Es geht also darum, „die mög- komplex sind. Es ist also höchste Zeit, lichen gesellschaftlichen Folgen von Aufgaben und Kompetenzen des Be- rufsbildes zu diskutieren und ein Cur- 8 Lt. Harvard Business Review (2012): riculum abzuleiten, das übergreifende http://hbr.org/2012/10/data-scientist-the- sexiest-job-of-the-21st-century. Kompetenzen und Inhalte in der digi- 9 Vgl. Zweig, Katharina (2018): Wo Maschinen talen Welt, wie z.B. Wissenschaft, Ar- irren können. Verantwortlichkeiten und Feh- beitswelt und Gesellschaft, zusam- lerquellen in Prozessen algorithmischer Ent- scheidungsfindung. Eine Publikation der Ber- 10 telsmann Stiftung, Gütersloh. Zweig, Katharina: S. 30. Seite 15
menbringt. Dabei geht es einerseits gibt es kostenpflichtige Fortbildungs- tatsächlich um die Ausbildung von angebote für Berufstätige. Fachexperten – den Data Scientists, Volker Markl weist zu Recht darauf die sich in der Tiefe mit den Verfah- hin, dass in der Vergangenheit die ren und Technologien auskennen – Disziplinen der Datenanalyse und der und andererseits darum, in den ein- skalierbaren Datenverarbeitung nicht zelnen Disziplinen eine Art übergrei- eng verzahnt waren, was jedoch für fende Grundkompetenz in Data Lite- einen souveränen Umgang mit gro- racy zu vermitteln. ßen Datenmengen mit geringer La- In Deutschland wird Data Science tenz erforderlich ist. Zudem sind das bisher vor allem als Aufbaustudium Wissen der Anwendungsdomäne und nach einem Bachelor zum Beispiel in die juristischen und gesellschaftli- Mathematik oder Informatik angebo- chen Implikationen zu beachten. ten. München war 2015 eine der ers- Markl vergleicht deshalb die Wün- ten Universitäten, die einen Master in sche, die auf den Data Scientist proji- Data Science anboten, Mannheim und ziert werden, mit der Suche nach der Darmstadt zogen nach. Außerdem eierlegenden Wollmilchsau: Abbildung 4: Die Anforderungen an den/die „Data Scientist“ ist enorm (Markl 2015) Seite 16
Warum ist die eierlegende Wollmilch- in der Breite aufzubauen. Es ist des- sau so wichtig? halb zu begrüßen, dass im Koalitions- vertrag Data Science Beachtung fin- Wenn wir Angst haben, dass wir alte det. Jobs verlieren, weil sie in der digitalen Welt überflüssig werden könnten, Handlungsempfehlungen müssen neue geschaffen werden. Um kurzfristig den Bedarf zu decken, Wenn wir Angst haben, dass uns die sollten die betreffenden Mitarbeiter Datenflut übermannt und wir nie- in den Unternehmen unterstützt und manden haben, der die Instrumente geschult werden (bspw. über Fortbil- beherrscht, dann brauchen wir Be- dungen11). Dafür müssen mehr flexible rufsbilder, die das können. Wenn wir Angebotsformen (Fernstudienoptio- Angst haben, dass nur die bekannten nen und berufsbegleitende Optionen) Big Player der Digitalisierung, wie bereitgestellt werden. Ein mittelfristi- Google, Amazon, Facebook und Apple, ger Ansatz bringt die Unternehmen Potenzial aus Big Data schöpfen, mit den anwendungsorientierten Wis- dann müssen wir Sorge tragen, dass senschaftseinrichtungen zusammen, unsere Unternehmen die notwendi- um so die Bedarfsfelder mit den gen Kompetenzen über entsprechend Kompetenzträgern zu vernetzen und ausgebildetes Personal aufbauen und ein Bewusstsein in der Öffentlichkeit nutzen können. Wenn wir Angst ha- zu erzeugen (z.B. in einem Kompe- ben, dass die Technik zunehmend tenzzentrum, das die Felder identifi- Macht über uns gewinnt (Stichwort ziert, die den dringendsten Know- KI/Algorithmen) und wir feststellen, how-Aufbau benötigen und die Inhal- dass sich immer mehr ethische Fra- te an verschiedene Bildungsniveaus gen aufdrängen, sollten wir Rahmen- und Disziplinen (nicht jeder braucht bedingungen wie einen digitalen Da- das komplette Spektrum) anpasst). tencodex entwickeln und Data Scien- Als langfristige Lösung ist ein im brei- tists in Ethik schulen. ten Dialog entstandenes Curriculum Wir stellen also fest, dass eine inter- in Deutschland zu entwickeln, das disziplinäre und ethische Perspektive unter dem Schirm bestimmter Essen- notwendig ist, die bei den oft techni- tials den Universitäten genügend schen Ausbildungen der heutigen Freiraum überlässt, den Studiengang Data Scientists nicht unbedingt gege- für sich auszugestalten. ben ist. Zum anderen fehlen den An- wendern in den einzelnen Domänen oft Kompetenzen, wenn es darum 11 geht, die Datengrundlage einzuschät- https://www.academy.fraunhofer.de/de/ zen und Ergebnisse richtig zu inter- weiterbildung/information- kommunikation/data-scientist- pretieren. Diese Kompetenzen gilt es schulungen.html. Seite 17
Über den Autor Gerald Swarat ist studierter Historiker und Germanist. Er ist Leiter des Berliner Kon- taktbüros des Fraunhofer-Instituts für Experimentelles Software Engineering IESE (Kaiserslautern). Swarat koordiniert die Aktivitäten des Instituts in der Bundes- hauptstadt rund um die Themen Smart Ecosystems, Industrie 4.0, Datensouveräni- tät und Smart Rural Areas, ist Ansprechpartner für Wissenschaft, Politik und Wirt- schaft vor Ort in Berlin und stellvertretender Sprecher der Regionalgruppe Berlin- Brandenburg der GI. Seite 18
Qualitätsanforderungen für Data Science in Deutschland Von Dr. Hans-Josef Linkens, Bundesministerium für Bildung und Forschung Um das Versprechen der Datenwissenschaften, aus Daten Informationen zu ma- chen, zu erfüllen, sind offene Forschungsdaten wichtig. Denn ohne offene Daten ist ihre Nutzung, ihre Nachnutzung über die Grenzen von Regionen, Organisationen und Disziplinen hinweg nicht möglich. Um das deutsche Wissenschaftssystem im internationalen Wettbewerb weiter zu stärken, brauchen wir eine leistungsfähige Infrastruktur – und zwar nicht nur als Speicher, Rechner und Netze, sondern als Dienstleistungsangebote und Services. Und wir benötigen Personalentwicklung für Data Science auf allen Ebenen. Der wissenschaftlichen Frage, wie aus „erforderlichen Kompetenzprofile Daten Informationen, Wissen und verständigen“ solle. Innovationen gewonnen werden, Zweitens: Die Empfehlungen des Rats kommt eine große Bedeutung zu. Die für Informationsinfrastrukturen (RfII) Politik hat sich bereits mehrfach mit „Leistung aus Vielfalt“ von 2016. Hier- den entsprechenden Rahmenbedin- in zieht der RfII u.a. den Schluss, eine gungen befasst. Zwei Empfehlungen nationale Forschungsdateninfrastruk- haben das Thema breiter diskutiert tur zu etablieren, um eine Grundver- und die wissenschaftspolitische Dis- sorgung mit Speichermöglichkeiten kussion, die zu einer Nationalen For- und Services anzubieten, Fragmentie- schungsdateninfrastruktur und der rung zu überwinden, Standards und EOSC geführt wird, geprägt und sollen Methoden zu vereinheitlichen und hier kurz erwähnt werden: vernetzte Dienstleistungen anzubie- Erstens: Die Empfehlungen zur Wei- ten. terentwicklung der wissenschaftli- Um das Versprechen der Datenwis- chen Informationsinfrastrukturen in senschaften, aus Daten Informatio- Deutschland bis 2020, die der Wissen- nen zu machen, zu erfüllen, sind of- schaftsrat 2012 veröffentlicht hat. Da- fene Forschungsdaten wichtig. Denn rin wird betont, dass die Gewährleis- ohne offene Daten ist ihre Nutzung tung des Zugangs zu den für die wis- über die Grenzen von Regionen, Or- senschaftliche Arbeit und das Studi- ganisationen und Disziplinen hinweg um erforderlichen Daten und Wis- nicht möglich. Selbstverständlich soll sensbeständen eine öffentliche Auf- „offen“ nicht „frei“ erhältlich bedeu- gabe ist. Zu den Empfehlungen gehör- ten. Ebenso selbstverständlich gibt es te, dass die Wissenschaft sich auf die Interessen, die zu berücksichtigen Seite 19
sind, und Schutzbedarfe, die einzu- schaftspolitik ist in der Verantwor- halten sind. Dennoch sollten Daten tung, Rahmenbedingungen festzule- aus öffentlich geförderten Vorhaben gen. zugänglich gemacht werden, um das Für die Bewältigung dieser Heraus- Wissenschafts- und Innovationssys- forderungen ist eine umfassende Per- tem zu stärken. Dieses Anliegen wird sonalentwicklung erforderlich. Ange- auch von der G20 und auf EU-Ebene sichts des großen Bedarfs in For- verfolgt. schung und Lehre, in den For- Die Grenzen zwischen dem, was die schungseinrichtungen, aber auch in klassischen Wissenschaften und die der Wirtschaft wird Datenexpertise Informationsinfrastrukturen leisten, auf allen Ebenen benötigt. Zum Be- werden unschärfer. Dies ist bereits darf gibt es verschiedene Aussagen, heute zu bemerken – etwa bei Begut- Studien und Abschätzungen – allen achtungen von wissenschaftlichen gemein ist: Der Bedarf ist erheblich. Vorhaben, in denen mehr und mehr Es werden also sowohl spezialisierte Methodenkenntnis aus dem infra- Fachleute für die verschiedenen Me- strukturellen Teil des Antrags erfor- thoden von Data Science als auch derlich ist. Kompetenzen in den jeweiligen Fach- disziplinen benötigt. Da die Informa- Daraus folgt: Um die Qualität der Wis- tionsinfrastrukturen ein wesentlicher senschaft weiter zu befördern, benö- Bestandteil des Forschungsprozesses tigen wir eine leistungsfähige Infra- selber werden, werden auch Ma- struktur – und zwar nicht nur als nagementkompetenzen (Prozessma- Speicher, Rechner und Netze, sondern nagement, Kommunikation) erforder- als Dienstleistungsangebote und Ser- lich, um die Datenwissenschaften in vices für das Forschungsdatenma- den Forschungsprozess einzubinden. nagement, für Mustererkennung, für Simulation, Visualisierung, Langzeit- Fazit und Ausblick archivierung, statistische Auswertung Vier Thesen für eine weitere Diskussi- – für die gesamte Bandbreite der da- on: tenwissenschaftlichen Methoden, Techniken und Theorien, also dem, 1) Eine Grundvoraussetzung für Da- was man Data Science nennt. Hier tenwissenschaften sind offene brauchen wir generische Dienste wie Forschungsdaten – offen in einer auch fachspezifische Angebote. Es intelligenten Form. liegt dabei in der Verantwortung der 2) Die Grenzen zwischen dem, was wissenschaftlichen Communitys und die klassischen Wissenschaften einzelnen Fächer, ihre spezifischen und die Informationsinfrastruktu- Bedarfe zu beschreiben und Stan- ren leisten, werden unschärfer. dards zu setzen. Auch die Wissen- Seite 20
3) Um die Qualität der Wissenschaft 4) Eine Personalentwicklung auf weiter zu befördern, ist die Ein- allen Ebenen ist erforderlich. richtung einer leistungsfähigen Infrastruktur notwendig. Über den Autor: Dr. Hans-Josef Linkens ist Referatsleiter im Referat Digitaler Wandel in Wissenschaft und Forschung des Bundesministeriums für Bildung und Forschung. Seite 21
Data Science in der deutschen Hochschullandschaft Von Dr. Klaus Wannemacher, HIS-Institut für Hochschulentwicklung e.V. (HIS-HE) Eine sehr ausgeprägte Nachfrage nach Data Scientists am Arbeitsmarkt trifft auf ein sehr begrenztes Angebot an AbsolventInnen. Die Entwicklung des entsprechenden Studienangebots an deutschen Hochschulen befindet sich noch in einer Frühphase und ist bislang stark von staatlichen Hochschulen dominiert. Es ist ein Mangel an Bachelorstudiengängen, an weiterbildenden Angeboten und an alternativen Quali- fizierungsformen erkennbar. Im Rahmen des Forschungsvorhabens und nahezu keine Untersuchung zum „Studienangebote im Bereich Data Studienangebot für Data Science. Science – Potenziale für Arbeitsmarkt Eine Deloitte-Studie zu „Data Analy- und Hochschulentwicklung“ geht HIS- tics“, in deren Rahmen 291 deutsche HE im Sinne einer Trendanalyse dem Unternehmen ab 100 Mio. Euro Um- Entwicklungsstand im Bereich des satz befragt worden waren, gelangte Studienangebots für Data Science an 2015 im Hinblick auf die Verfügbarkeit den deutschen Hochschulen nach. Im von Data-Science-Experten am Ar- Rahmen einer systematischen Litera- beitsmarkt zu einer kritischen Ein- tur- und Dokumentenrecherche, einer schätzung: „Noch bietet der Hoch- bundesweiten Bestandsaufnahme schulsektor in Deutschland aber sowie einer Expertenbefragung wer- kaum dezidierte Studiengänge in die- den Tendenzen der Entwicklung des se Richtung; die Fähigkeiten bringen Studienangebots im Bereich Data am ehesten Naturwissenschaftler Science erfasst und ausgewertet. mit.“ 47 Prozent der befragten Unter- Eine im Rahmen des Projekts durch- nehmen sprachen sich für ein Ein- geführte systematische Literatur- und greifen der Politik zur Erhöhung der Dokumentenrecherche förderte Stu- Wettbewerbsfähigkeit im Auf- und dien zum Potenzial von Data Science Ausbau in spezialisierten Studiengän- für Unternehmen, arbeitsmarktanaly- gen aus. tische und berufsfeldbezogene Unter- Die grundsätzliche Situation des Stu- suchungen u.Ä. zutage, doch kaum dienangebots im Bereich Data Sci- Studien zur Vermittlung einschlägiger ence an den deutschen Hochschulen Kompetenzen, zum Potenzial von Data ist noch immer wenig komfortabel, Science für die Hochschulentwicklung hat sich seit der Deloitte-Studie al- lerdings signifikant verändert, wie Seite 22
Zwischenergebnisse der HIS-HE- • sich trotz hoher fachlicher Anfor- Untersuchung belegen. derungen zahlreiche Fachfremde (mit einem wissenschaftlichen Die Bestandsaufnahme der Studien- Hintergrund in Betriebswirt- angebote im Bereich Data Science an schaftslehre, Naturwissenschaf- den deutschen Hochschulen zeigt, ten, Psychologie etc.) auf Stu- dass mittlerweile rund 25 Bachelor- dienplätze bewerben. Sie holen und Masterstudiengänge (sowie eini- fehlende Mathematik-/ Informa- ge Kontaktstudienangebo- tikkenntnisse zu Beginn des Stu- te/Zertifikatskurse) für Data Science diums nach. existieren – bei steigender Tendenz. • dass widrige Rahmenbedingun- Die Studiengänge wurden mehrheit- gen die Entwicklung weiterbil- lich seit 2014 eingeführt und sind weit dender Angebote durch Hoch- überwiegend generalistisch konzi- schulen hemmen (z.B. die MOOC- piert; nur selten wird ein spezieller Konkurrenz aus den USA, hetero- fachlicher Fokus verfolgt (z.B. Data gene Zielgruppen und die hoch- Science in der Medizin). Die Studien- schulrechtlich verankerte Norm angebote sind weit überwiegend an kostendeckenden Arbeitens bei staatlichen Universitäten und staatli- weiterbildenden Angeboten). chen Fachhochschulen angesiedelt. Es handelt sich mehrheitlich um Mas- Fazit und Ausblick terstudiengänge, welche vielfach an zuvor absolvierte Informatik- oder Es bedarf einer weiteren Ausdifferen- Mathematikstudiengänge anknüpfen. zierung des Studienangebots für Data Science. Insbesondere sollten Gegenwärtig wird eine qualitative, explorative Expertenbefragung unter • weiterbildende Teilzeitstudien- Vertreter(inne)n von Wirtschaftsver- gänge (Bachelor- und Masterni- bänden und Unternehmen sowie in veau), Wissenschaftseinrichtungen zur Vali- • weiterbildende Zertifikatskurse dierung und Vertiefung der Projekter- (mit ECTS) sowie gebnisse durchgeführt. Erste Ergeb- • weiterbildende Seminare und nisse der Expertenbefragung deuten Workshops (ohne ECTS) darauf hin, dass konsequent weiter ausgebaut werden. • die Nachfrage bei Studieninte- Während bei weiterbildenden Zertifi- ressierten sehr ausgeprägt ist. katskursen und Seminaren schon Studiengangssprecher von Data- eine Anschubfinanzierung hilfreich Science-Studiengängen berichten sein kann, gilt es für Studiengänge von jährlichen Ablehnungsquoten dauerhafte Finanzierungswege sicher- zwischen 50 und 95 Prozent. zustellen. Seite 23
Über den Autor Dr. Klaus Wannemacher ist wissenschaftlicher Mitarbeiter im Geschäftsbereich Hochschulmanagement des HIS-Instituts für Hochschulentwicklung (HIS-HE). Als Organisationsberater unterstützt er Hochschulen, außeruniversitäre Forschungsein- richtungen und Ministerien mit Grundlagenarbeiten, Beratungsleistungen und For- schungsprojekten sowie Angeboten zum Wissenstransfer mit einem Schwerpunkt auf dem Bereich Hochschule im digitalen Zeitalter. Seite 24
Data-Science-Kompetenzzentren als Schlüssel zum Erfolg Von Prof. Dr. Erhard Rahm, Universität Leipzig / ScaDS Dresden / Leipzig Compe- tence Center for Scalable Data Services and Solutions Erfolgreiche Data-Science-Lösungen erfordern die kombinierte Expertise zu Daten- aufbereitung/Big Data, Data Mining und maschinellem Lernen sowie Anwendungs- hintergründen. Diese breite Expertise kann in der Regel nur durch ein Team von Spezialisten bereitgestellt werden, die idealerweise an Data-Science- Kompetenzzentren kooperieren. In der Hochschulausbildung sollte Data Science sowohl auf Bachelor- auch als auf Masterebene stark ausgeweitet werden. Data Science beinhaltet Methoden zur Erfolgreiche Data-Science-Lösungen umfassenden Analyse von Daten zur erfordern somit die kombinierte Ex- Gewinnung neuer Erkenntnisse in pertise zu unterschiedlichsten Anwendungsge- bieten. Das Spektrum der Analysever- • Big-Data-Technologien wie Da- fahren ist weit gefächert und reicht tenaufberei- von einfachen Datenabfragen bis hin tung/Datenintegration und ska- zu statistischen Data-Mining- lierbare Ansätze zur parallelen Verfahren und Techniken des ma- Datenverarbeitung, schinellen Lernens. Wesentlich für die • zu Data Mining und maschinel- Aussagekraft und Qualität der Analy- lem Lernen se ist eine umfassende Aufbereitung • sowie die Anwendungsexpertise, der Daten (Datenbereinigung und - um für die spezifischen Problem- konsolidierung), die oft aus unter- stellungen adäquate Verfahren schiedlichen Quellen stammen, teil- zur Datenaufbereitung und Da- weise unstrukturiert sind und zahlrei- tenanalyse zu bestimmen. che Qualitätsmängel und Fehler be- Einzelne Personen werden in der Re- inhalten können. Die Daten sind zu- gel nur ein bis zwei dieser drei Berei- dem teilweise hoch-dynamisch (z.B. che ausreichend vertieft beherrschen, Sensordaten) und oft von sehr gro- so dass anspruchsvolle Data-Science- ßem Umfang (Big Data). Diese Aspekte Projekte in der Regel ein Team von verlangen sehr leistungsfähige, hoch- Experten benötigen. Kompetenzzen- parallele Lösungsansätze zur Daten- tren zu Data Science (bzw. Big Data verarbeitung, z.B. mit zahlreichen Pro- oder Machine Learning) können die zessoren in lokalen Clustern. unterschiedlichen Kompetenzen bün- deln und damit eine schnellere Nutz- Seite 25
barkeit von Data Science in Wissen- ersten der oben genannten Gebiete schaft und Praxis unterstützen. Dort zu berücksichtigen. Die Anwendungs- können auch die entsprechenden aspekte können im Rahmen eines Hardwareressourcen, in Kombination Ergänzungsfachs sowie durch Praktika mit geeigneter Administrations- und und in der Abschlussarbeit berück- Serviceunterstützung, bereitgehalten sichtigt werden. werden. Vorreiter solcher Zentren Fazit und Ausblick sind die beiden BMBF-geförderten Kompetenzzentren für Big Data, 1) Die Einrichtung von Kompetenz- ScaDS Dresden/Leipzig sowie BBDC. zentren zu Data Science (Big Da- Weitere Zentren sind geplant oder ta, Machine Learning) hat sich bereits an anderen Orten eingerichtet bewährt, sollte durch Bund und worden, um den hohen Bedarf an Länder jedoch wesentlich ver- Data-Science-Lösungen in Deutsch- stärkt werden, jeweils mit stand- land zu adressieren. ortspezifischen Forschungs- und Anwendungsschwerpunkten. Die Ausbildung zu Data Science sollte 2) Umfassende Mehranstrengungen an den Hochschulen auf dem Ba- sind in der Data-Science- chelor- und Masterlevel stark ausge- Ausbildung erforderlich, insbe- baut werden, um der immensen sondere zur Etablierung neuer Nachfrage nach akademisch ausge- bzw. angepasster Bachelor- und bildeten Data-Science-Spezialisten Masterstudiengänge an den Rechnung zu tragen. Dies kann in ei- Hochschulen. genständigen Studiengängen erfolgen 3) Um einem Wildwuchs solcher oder durch entsprechende neue Studiengänge entgegenzutreten, Schwerpunkte in existierenden Studi- wäre es hilfreich, wenn die GI engängen, z.B. der Informatik. Dabei Empfehlungen zur inhaltlichen sind in Informatikstudiengängen vor Ausgestaltung solcher Studien- allem die Methoden in den beiden angebote erstellen könnte. Über den Autor Prof. Dr. Erhard Rahm ist Professor für Informatik (Datenbanken) an der Universität Leipzig und einer der beiden Direktoren des BMBF-geförderten Big-Data- Kompetenzzentrums ScaDS Dresden/Leipzig. Seine Forschungsgebiete sind Big Data und Datenintegration. Er ist Autor mehrerer Bücher und von über 200 wissenschaft- lichen Publikationen. Seine Forschungsergebnisse wurden bereits mehrfach ausge- zeichnet, u.a. mit den angesehenen VLDB Ten Year Best Paper Award sowie dem ICDE Influential Paper Award. Prof. Rahm ist gewähltes Mitglied im DFG- Seite 26
Fachkollegium Informatik. In der GI ist er Sprecher des Fachbereichs Datenbanken und Informationssysteme (DBIS). Seite 27
Data Science und die Qualität von Daten Von Prof. Dr. Richard Lenz, Friedrich-Alexander-Universität Erlangen-Nürnberg Im Zeitalter von „Big Data“ wird zunehmend der „Data Scientist“ als wichtiges Be- rufsfeld identifiziert. Er analysiert große Datenmengen mit teilautomatisierten Me- thoden und leitet aus seinen Ergebnissen Handlungsempfehlungen ab. Die Beur- teilung der Datenqualität ist für den Data Scientist von zentraler Bedeutung. Dabei kann er aber nicht auf die traditionellen Methoden der Qualitätssicherung zurück- greifen, denn die Datenquellen entziehen sich in der Regel der Kontrolle der Da- tenkonsumenten. Data-Profiling-Methoden, neue Methoden der Datenqualitäts- messung und neue Methoden der Schema-Inferenz werden gebraucht. Datenqualität ist ein schwer zu fas- teilen und gegebenenfalls nachträg- sender Begriff, weil die Kriterien, nach lich bedarfsgerecht zu bereinigen und denen die Qualität von Daten beur- mit geeigneten Metadaten anzurei- teilt wird, in der Regel vom Verwen- chern. Von zentraler Bedeutung ist dungskontext abhängen. Sehr abs- dabei für den Data Scientist insbe- trakt wird Datenqualität oft als „fit- sondere die verschiedenartigen Da- ness for use“ charakterisiert. Um Da- tenquellen gut zu verstehen, um be- tenqualität zu messen und zu verbes- urteilen zu können, ob sie für den sern, gibt es heute zahlreiche Metho- Verwendungszweck auch geeignet den, die aber nur selten domänenun- sind. Falsch interpretierten Daten abhängig sind und oft nicht auf ande- sieht man nicht an, dass sie fehler- re Anwendungskontexte übertragbar haft, unscharf oder für den intendier- sind. Proaktive Methoden zur Quali- ten Verwendungszweck gänzlich un- tätssicherung, wie TDQM (Total Data geeignet sind, sie führen aber zu fal- Quality Management), sind auf Big- schen Schlüssen und damit auch fal- Data-Szenarien kaum anzuwenden, schen oder unbegründeten Hand- denn die zahlreichen Datenquellen lungsempfehlungen. entziehen sich zielgerichteten quali- Data Profiling bezeichnet ein breites tätssichernden Maßnahmen im Da- Spektrum an Methoden, die ein Data tenproduktionsprozess, wenn die Scientist anwenden kann, um Daten- Quellen nicht unter der Kontrolle der quellen besser zu verstehen. Das Datenkonsumenten stehen. reicht von der Analyse von Datenty- Ein Großteil der Aufwände des Data pen, Wertebereichen, Werteverteilun- Scientist fließt somit in Aufgaben, gen, Schlüsseleigenschaften von At- geeignete Quellen zu finden, zu beur- tributen, funktionalen Abhängigkeiten Seite 28
bis zu bedingten funktionalen Abhän- Wissen um die Bedeutung der Daten, gigkeiten und Inklusionsanalysen. das sich der Data Scientist erarbeitet Felix Naumann weist in einem vielbe- hat, ist in diesen Anfragen implizit achteten Artikel auf die besondere enthalten. Bedeutung von Data Profiling im Zu- Im OCEAN-Projekt an der FAU Erlan- sammenhang mit Data Science hin gen wird versucht das in Anfragepro- und macht auf den dringenden Be- tokollen versteckte Wissen um die darf an neuen Methoden aufmerk- Bedeutung von Datenquellen nutzbar sam, die insbesondere für das Profi- zu machen. Auf diese Weise soll ver- ling nicht-relationaler Daten geeignet sucht werden, einmal unternommene sind. Eine ähnliche Einschätzung fin- Anstrengungen für die Datenintegra- den Halevy et al., die im Zusammen- tion nicht verpuffen zu lassen, son- hang mit den Erfahrungen aus dern wiederzuverwenden, in der Googles Goods-Projekt auf die hohe Hoffnung, dass dadurch eine inkre- Bedeutung von Werkzeugen zur Ver- mentelle nutzungsorientierte Verbes- besserung des Verständnisses von serung des Datenverständnisses er- Datenquellen hinweisen. reicht werden kann. Data-Profiling-Methoden helfen bei Fazit und Ausblick unbekannten Datenquellen, sind je- doch weit davon entfernt die Bedeu- Im Zusammenhang mit der Beurtei- tung von Daten vollständig erfassen lung von Datenqualitätsfragen im und erklären zu können. Methoden Bereich Data Science ergeben sich der Schema-Inferenz würde man sich Fragestellungen in folgenden Berei- wünschen, damit automatisiert er- chen: kannt werden kann, welche Daten- quellen vergleichbar oder sinnvoll • Präzisierung und Standardisie- verknüpfbar sind. Meist lässt sich das rung elementarer Datenquali- aber nicht automatisieren, und dann tätskriterien erfordert die semantische Einordung • Standards zur systematischen von Datenquellen einen hohen kogni- Annotation von Quelldaten mit tiven Aufwand beim Data Scientist. Qualitätsmerkmalen Hat der Data Scientist die Quellen • Neue Methoden zum Data Profi- einmal verstanden, kann er sie in ling für nicht-relationale Daten- geeigneten Anfragen zielgerichtet quellen weiterverwenden oder sinnvoll mit • Neue Methoden der Schema- anderen Quellen verknüpfen. Das Inferenz Seite 29
Über den Autor Prof. Dr. Richard Lenz ist Professor für Datenmanagement an der Universität Erlan- gen-Nürnberg. Er beschäftigt sich in seiner Forschung u.a. mit dem Thema Evoluti- onäre Informationssysteme. In diesem Zusammenhang ist auch das Thema Daten- qualität von zentraler Bedeutung. Er ist Sprecher des Fachbereichs Informatik in den Lebenswissenschaften in der GI. Seite 30
Data Science im angloamerikanischen Kontext: Status quo eines modernen Studien- und Berufsbilds Von Dr. Tarek R. Besold, Lecturer in Data Science an der City, University of London Im internationalen Kontext zählt die junge Disziplin Data Science zu den momentan sowohl bei Arbeitgebern als auch bei (gegenwärtigen oder zukünftigen) Berufsein- steigerinnen und -einsteigern gefragtesten Berufsfeldern. Die Data Scientist ist hierbei eine mit solider theoretischer Fundierung ausgebildete Allrounderin, die alle wichtigen Schritte des „Data Lifecycle“ durchführen, ihre jeweilige Tätigkeit, wie auch erzielte Resultate, kritisch reflektieren und anschließend sowohl den Prozess als auch die erreichten Ergebnisse kommunizieren kann. Data-Science-Studiengänge erfreuen eine Betonung anwendungsnaher sich im angloamerikanischen Raum und/oder anwendungsrelevanter großer Beliebtheit. Kleine und größe- Ausbildungsinhalte festzustellen. Ein re Unternehmen aus allen Wirt- zweiter genereller Trend kann in der schaftszweigen, von digitalen Ser- gleichzeitigen, wenn auch etwas ge- viceprovidern zu klassischer fertigen- ringer gewichteten Fokussierung auf der Industrie, erhoffen sich Wettbe- solide theoretische Grundlagen – vor werbsvorteile durch datenunterstütz- allem in Masterstudiengängen, aber te Entscheidungsfindung sowie durch auch in grundständigen Studiengän- (teilweise oder vollständig) datenge- gen mit dezidierter Schwerpunktle- triebene Produkte. Studierende und gung auf Data Science als eigenstän- Young Professionals, aber auch Ar- diger Disziplin – gefunden werden. beitnehmerinnen und Arbeitnehmer Konzeptuell dienen die theoretischen in vormals datenfernen Berufszwei- Lehreinheiten (wie z.B. Module zu gen versprechen sich persönliche statistischen Grundlagen, zu maschi- Karrierevorteile, aber auch nachhalti- nellem Lernen oder zu Datenbank- gere Karriereverläufe aus dem Erwerb technologien im Kontext von Big Da- der Fähigkeiten der Data Science. ta) als Grundlage der angewandten Die genaue Interpretation von Data Inhalte (z.B. Datenvisualisierung, Pa- Science und die Schwerpunktlegung rallel Computing mit Schwerpunkt auf innerhalb eines Data-Science- maschinellem Lernen, oder Verarbei- Curriculums unterscheiden sich hier- tung großer Datenmengen). Zugleich bei je nach Profillinie der jeweiligen stellt die theoretische Ausbildung die anbietenden Institution. Generell ist Nachhaltigkeit der erworbenen Seite 31
Sie können auch lesen