Curriculum Data Scientist Training
←
→
Transkription von Seiteninhalten
Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten
Seite 2 von 8
Data Scientist Training Trainingsumgebung
Der Beruf des Data Scientist ist einer der gefragtesten des aktuellen Praxisnahe Lernumgebung:
Jahrhunderts. Mit dem berufsbegleitenden Online-Training von StackFuel
Die Teilnehmenden lernen mit Hilfe aktueller Technologien und neuster
lernen Teilnehmende unüberwachtes und überwachtes maschinelles
Python-Bibliotheken.
Lernen, unterschiedliche Datenvisualisierungsmethoden und das Data-
Storytelling kennen, um nach dem Training die Rolle des Data Scientist
Moderner Technologie Stack:
einnehmen zu können. Anschließend können sie das erworbene Wissen
in ihrer Abteilung einbringen und selbstständig Machine-Learning-Algorith- Im Training werden reale Datensets sowie Business Cases aus der Indust-
men implementieren. Während des Trainings arbeiten die Teilnehmenden rie verwendet, um praxisnahe Lernszenarien zu ermöglichen.
in unserer browserbasierten, interaktiven Lernumgebung, dem Data Lab.
Dabei handelt es sich um eine vollwertige Programmierumgebung in der Browserbasiert:
die selbst programmierten Codes ausgeführt werden können.
Den Teilnehmenden werden alle für das Training benötigten Rechenleis-
tungen zur Verfügung gestellt.
Innovatives Data Lab:
Das Training findet im Browser statt, so dass keine weiteren Software-
Installationen benötigt werden.
Lernziel Zielgruppe
Mit Abschluss des Trainings können Teilnehmende Performance- Das Training eignet sich für alle, die Daten analysieren und auf Grund-
Metriken und Annahmen von Modellen des überwachten und unüber- lage dieser Vorhersagen erstellen möchten, um datengetriebene Ent-
wachten Lernens mit sklearn anwenden. Darüber hinaus sollen Grund- scheidungen treffen zu können. Darüber hinaus solltest Du Interesse an
lagen des Data-Storytelling sowie Best Practices der informativen maschinellem Lernen mitbringen. Für das Data Scientist Training werden
Gestaltung von Visualisierungen mit bokeh Algorithmen des überwachten gute Kenntnisse in Python und gängigen Modulen (pandas, matplotlib)
und unüberwachten Lernens, wie Entscheidungsbäume und Random vorausgesetzt.
Forests erlangt werden.Seite 3 von 8
Inhalt
Modul 0: Optional preparation 4
• Kapitel 1: Data analytics with Python (optional) 4
• Kapitel 2: Linear algebra (optional) 4
• Kapitel 3: Probability distributions (optional) 4
Modul 1: Machine learning basics 5
• Kapitel 1: Supervised learning: regression 5
• Kapitel 2: Supervised learning: classification 5
• Kapitel 3: Unsupervised learning: clustering 5
• Kapitel 4: Unsupervised learning: dimensionality reduction 5
• Kapitel 5: Outlier detection 5
Modul 2: Supervised learning 6
• Kapitel 1: Data gathering 6
• Kapitel 2: Logistic regression 6
• Kapitel 3: Decision trees and random forests 6
• Kapitel 4: Support vector machines 6
• Kapitel 5: Neural networks 6
Modul 3: Advanced topics in Data Science 7
• Kapitel 1: Visualisation 7
• Kapitel 2: Spark 7
• Kapitel 3: Exercise Project 7
• Kapitel 4 & 5: Final Project 7Seite 4 von 8
Modul 0: Optional preparation
Kapitel 1: Data analytics with Python (optional)
In diesem Kapitel lernen die Teilnehmenden den Umgang mit der interaktiven
Programmierumgebung Data Lab, welche Jupyter-Funktionalitäten unterstützt.
Außerdem werden die wichtigsten Python und Programmiergrundlagen zur Daten-
verarbeitung mit pandas und Datenvisualisierung mit matplotlib und seaborn
aufgefrischt. Das Einlesen von Daten mit sqlalchemy (relationale Datenbanken)
wird ebenfalls kurz wiederholt.
• Eigenheiten von Python: List comprehension und built-in functions
• Daten strukturieren/Umgang mit fehlenden Daten
• Datenvisualisierung mit Matplotlib
• SQL Datenbanken über sqlachemy ansteuern
Kapitel 2: Linear algebra (optional)
Dieses Kapitel richtet sich an Teilnehmende, die den mathematischen Hintergrund
von Data Science Algorithmen besser verstehen möchten, deren eigener Mathema-
tikunterricht aber schon weit zurückliegt. In diesem Kapitel lernen die Teilnehmenden
die Basisfertigkeiten von linearer Algebra: das Rechnen mit Vektoren und Matrizen
und deren Umsetzung mit Numpy
• Grundlagen der Linearen Algebra: Umgang mit Vektoren und Matrizen
• Umgang mit numpy Arrays und Broadcasting
• Umsetzung statistischer Funktionen wie mean, median, quantile
Kapitel 3: Probability distributions (optional)
Dieses Kapitel richtet sich an Teilnehmende, die den statistischen Hintergrund von
Data Science Algorithmen besser verstehen möchten, deren eigener Statistikunter-
richt aber schon weit zurückliegt. In diesem Kapitel erlernen die Teilnehmenden die
Basisfertigkeiten von Wahrscheinlichkeitstheorie inklusive der Interpretation. Dauer: ca. 12-18 Stunden
• Statistische Konzepte verstehen: • 2,5 % Video
Gesetz der großen Zahlen und zentraler Grenzwertsatz • 2,5 % Quiz
• Zufallsverteilungen kennen lernen: diskrete und kontinuierliche • 95 % Programmierübung im Data Lab
Verteilungen • Wöchentliches WebinarSeite 5 von 8
Modul 1: Machine learning basics
Kapitel 1: Supervised learning: regression Kapitel 4: Unsupervised learning: dimensionality reduction
In diesem Kapitel lernen die Teilnehmenden, wann und wie man lineare Regres- In diesem Kapitel lernen die Teilnehmenden, wie man mithilfe von Principal Compo-
sionen anwendet. Dazu werden sie in das Pythonmodul sklearn ein geführt. Ein nent Analysis (PCA) die Dimension der Daten verringern kann. Die Teilnehmenden
besonderes Augenmerk liegt auf den Annahmen des Regressionsmodells. In diesem nutzen die PCA, um unkorrelierte Features aus den Ursprungsdaten zu erzeugen.
Zuge wird auch der Bias-Variance Trade-Off und Konzepte wie Regularisierung ver- In diesem Zusammenhang wird das Thema Feature Engineering näher betrachtet.
deutlicht. Außerdem werden verschiedene Maße der Modellgüte beigebracht. Hierbei werden aus den alten Features Neue erzeugt.
• Lineare Modelle mit Scikit learn • Feature Engineering unter anderem mit PolynomialFeatures
• Overfitting durch Regularisierungen minimieren: Lasso, Ridge, Scaler • Dimension der Datensätze reduzieren mit PCA
• Scikit-learn Methoden wie fit, transform und predict kennenlernen • Laufzeitanalyse von ML Algorithmen mit timeit
• Identifikation optimaler error/ loss-Funktionen und Modellevaluationen
Kapitel 5: Outlier detection
Kapitel 2: Supervised learning: classification In diesem Kapitel werden verschiedene Ansätze, um Ausreißer zu identifizieren,
In diesem Kapitel werden die Teilnehmenden in Klassifizierungsalgorithmen anhand beigebracht. Der Umgang mit diesen ungewöhnlichen Datenpunkten wird diskutiert.
des k-nearest neighbors Algorithmus eingeführt. Die Teilnehmenden lernen, den Dazu wird den Teilnehmenden der RANSAC-Algorithmus nähergebracht.
Algorithmus zu evaluieren, sowie die Klassifizierungsperformance vielfältig einzu-
• Ausreißer über Histogramme, Abstand zum Mittelwert und RANSAC erkennen
schätzen.
• Ursachen für das Entstehen von Ausreißern verstehen
• k-nearest neighbors Algorithmus verstehen und anwenden • Robuste Maße einsetzen: Median, Median Absolute Deviation
• Evaluierung von Klassifikationsalgorithmen
(Accuracy, Confusion Matrix, Precision, Recall und f1-Score)
• Optimierung von ML-Algorithmen:
Hyperparametertuning mit GridSearchCV
• ML Pipelines konstruieren
Kapitel 3: Unsupervised learning: clustering
In diesem Kapitel lernen die Teilnehmenden den k-means Algorithmus als Beispiel
eines Algorithmus des unüberwachten Lernens kennen. Die Annahmen und Per-
formancemetriken des Algorithmus werden kritisch beleuchtet. Außerdem wird ein
kurzer Ausblick auf eine Alternative zum k-means-clustering geworfen: DBSCAN. Dauer: ca. 20-30 Stunden
• k-means verstehen und anwenden • 2,5 % Video
• Algorithmen optimieren mit Elbow-Method • 2,5 % Quiz
• Evaluation von Clustering mit Silhouette-Coefficients • 95 % Programmierübung im Data Lab
• Sphärische und nicht sphärische Cluster: DBSCAN • Wöchentliches WebinarSeite 6 von 8
Modul 2: Supervised learning
Kapitel 1: Data gathering Kapitel 4: Support Vector Machines
In diesem Kapitel lernen die Teilnehmenden wie sie selbst Daten sammeln können, In diesem Kapitel lernen die Teilnehmenden einen weiteren Klassifizierungsalgorith-
indem sie Webseiten auslesen. Mit Hilfe von regular expressions strukturieren sie die mus kennen: Support Vector Machines (SVM). Das Verhalten verschiedener Kernel
gesammelten Textdaten so, dass sie diese mit den kennengelernten Algorithmen ver- für die SVM wird beleuchtet. Außerdem erlernen die Teilnehmenden typische Schritte
wenden können. Dieses Wissen wird anschließend auf PDF-Dokumente übertragen. des Natural Language Processing (NLP) und bearbeiten ein NLP-Szenario unter Ver-
wendung von bag-of-words-Modellen.
• Externe Datenquellen: Webscraping und -Crawling
• PDF‘s auslesen und Daten aufbereiten • Support-Vektoren und Support-Vektor-Maschinen verstehen und anwenden
• Strukturierte, semistrukturierte und unstrukturierte Daten • Natural Language Processing mit Spacy, nltk
• Textaufbereitung mit regular expressions • Vektorisierung in NLP: CountVectorizer und TfidfVectorizer
• Kernels der SVM und Kerneltrick
Kapitel 2: Logistic regression
In diesem Kapitel lernen die Teilnehmenden einen zweiten Klassifizierungsalgo- Kapitel 5: Neural networks
rithmus kennen: logistische Regression. Zuvor gelernte Performance-Indikatoren In diesem Kapitel werden künstliche neuronale Netze eingeführt und der Begriff
werden genutzt, um die Stärken und Schwächen der verschiedenen Klassifizierungs- Deep Learning nähergebracht. Dabei wird die Brücke zu bekannten Algorithmen ge-
algorithmen zu verdeutlichen. Außerdem lernen die Teilnehmenden, wie man durch schlagen. Die Teilnehmenden nutzen das Modul keras, um ein künstliches neuro-
label encoding und one-hot encoding („Dummy-Variablen“) auch kategorische Variab- nales Netz mit mehreren Schichten zu erzeugen und zu trainieren. Die üblichsten
len zur Vorhersage nutzen kann. Aktivierungsfunktionen für künstliche Neuronen werden erläutert. Weiterhin werden
Möglichkeiten zur Regularisierung künstlicher neuronaler Netze aufgezeigt.
• Klassifizierung mit der Logistischen Regression verstehen und anwenden
• Arten von Klassifizierungsfehlern kategorisieren • Neural Networks: Neurons, Shallow und Deep Networks
• Receiver-Operator-Characteristic (ROC) und Area-Under-Curve (AUC) • Einfluss von Activation Functions: Sigmoid und ReLU
zur Evaluation nutzen • Erstellen, kompilieren und trainieren von Netzwerken mit Keras
• Anwendbarkeit des Algorithmus: Korrelationsanalyse von Features
Kapitel 3: Decision trees and random forests
In diesem Kapitel lernen die Teilnehmenden weitere Klassifizierungsansätze kennen:
Entscheidungsbäume und random forests. Die Unterschiede zu den vorigen Algo-
rithmen werden hervorgehoben. Wie man machine learning Algorithmen mithilfe von
ensembling kombiniert, wird in diesem Zusammenhang beleuchtet. Darüber hinaus
erlernen die Teilnehmenden die Methoden Over- und Undersampling kennen, die sie Dauer: ca. 20-30 Stunden
nutzen, um mit unausgeglichenen Zielkategorien („class imbalance“) umzugehen.
• 2,5 % Video
• Entscheidungsbäume und random forests verstehen und anwenden • 2,5 % Quiz
• Kombination von Modellen durch ensembling • 95 % Programmierübung im Data Lab
• Behandlung unausgeglichener Zielkategorien und sampling • Wöchentliches WebinarSeite 7 von 8
Modul 3: Advanced topics in Data Science
Kapitel 1: Visualisation and model interpretation Kapitel 4 & 5: Final Project
In diesem Kapitel erlernen die Teilnehmenden wichtige Methoden zur Interpretation In diesem Kapitel erhalten die Teilnehmenden ein weiteres größeres Datenset, wel-
und Visualisierung von Machine Learning Modellen. Zur Interpretation der Modelle ches sie selbstständig analysieren und ein Prädiktionsproblem lösen. Im Vergleich
lernen die Teilnehmenden sowohl modelspezifische als auch modelagnostische zum Übungsprojekt gibt es weniger Hilfestellungen. Nach der Bearbeitung findet eine
Methoden kennen. Für die Visualisierung werden beliebte statistische Darstellungs- individuelle Projektbesprechung mit den Data-Science-Mentoren von StackFuel statt.
formen, wie Strip-, Box- und Violinplots eingeführt als auch Methoden zur interakti- Die Teilnehmenden erläutern dabei ihr Vorgehen und erhalten dazu Feedback.
ven Visualisierungen in Python.
• Komplexes Datenprojekt mit Business Szenario
• Interpretation von baumbasierten Modellen: Gini- und Feature Importance • Vertiefung der erlernten Kenntnisse
• Permutation Feature Importance, partial dependence und ICE plots • Personalisiertes Feedback und Zertifikat
• Visualisierungen: Strip-, Box- und Violin-Plots
• Interaktive Visualisierungen mit bokeh
Kapitel 2: Spark
In diesem Kapitel erfahren die Teilnehmenden, weshalb die Arbeit mit verteilten
Speichersystem relevant ist. Mit dem Pythonmodul pyspark erlernen sie verteilte
Datenbanken auszulesen, Big-Data-Analysen durchzuführen und bekannte Machine-
Learning-Algorithmen auf verteilten Systemen zu nutzen.
• Spark Ökosysteme und DataFrames
• Spark mit Python: PySpark
• Eigene Funktionen in PySpark umsetzen
Kapitel 3: Exercise Project
In diesem Kapitel bearbeiten die Teilnehmenden ein Prädiktionsproblem mit Hilfe
eines größeren Datensets. Die Teilnehmenden setzen ihre Data Science Fähigkeiten
von der Reinigung des Datensets bis zur Interpretation des Modells eigenständig Dauer: ca. 30-40 Stunden
ein. In einer individuellen Projektbesprechung mit den Data-Science-Mentoren von
• 2,5 % Video
StackFuel erhalten die Teilnehmenden Feedback zu ihrem Lösungsansatz.
• 2,5 % Quiz
• Eigenständiges Datenprojekt mit Business Szenario • 95 % Programmierübung im Data Lab
• Anwendung der erlernten Kenntnisse • 2x individuelles Mentorenfeedback
• Personalisiertes Feedback für jeden Teilnehmenden zu den eigenständigen Projekten
• Wöchentliches WebinarKontakt
Skalierbare Datenkompetenz für Ihr Unternehmen
Wir sind Ihr starker Partner, wenn es um berufsbegleitende Online-Trainings zur Fachkräfteentwicklung in
Datentechnologien geht. Ob Verstärkung der dezentralen Fachabteilungen oder unternehmensweiter Ausbau
von Datenkompetenzen, wir finden gemeinsam eine spezifische Lösung. Sprechen Sie uns einfach an.
Legen Sie jetzt los und machen Sie Ihr Unternehmen
fit für die Daten-Skills von morgen!
Kostenlose Beratung anfordern!
Webseite: www.stackfuel.com
E-Mail: info@stackfuel.com
Telefonnummer: +49 (0) 30 6800 9505
Stand: Februar 2021 Die Inhalte des Curriculums sind zum Stand Februar 2021 aktuell,
Herausgeber: StackFuel GmbH Änderungen und Abweichungen sind vorbehalten.
www.stackfuel.com © 2021 StackFuel GmbH. Alle Rechte und Änderungen sind vorbehalten.Sie können auch lesen