Curriculum Data Scientist Training
←
→
Transkription von Seiteninhalten
Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten
Seite 2 von 8 Data Scientist Training Trainingsumgebung Der Beruf des Data Scientist ist einer der gefragtesten des aktuellen Praxisnahe Lernumgebung: Jahrhunderts. Mit dem berufsbegleitenden Online-Training von StackFuel Die Teilnehmenden lernen mit Hilfe aktueller Technologien und neuster lernen Teilnehmende unüberwachtes und überwachtes maschinelles Python-Bibliotheken. Lernen, unterschiedliche Datenvisualisierungsmethoden und das Data- Storytelling kennen, um nach dem Training die Rolle des Data Scientist Moderner Technologie Stack: einnehmen zu können. Anschließend können sie das erworbene Wissen in ihrer Abteilung einbringen und selbstständig Machine-Learning-Algorith- Im Training werden reale Datensets sowie Business Cases aus der Indust- men implementieren. Während des Trainings arbeiten die Teilnehmenden rie verwendet, um praxisnahe Lernszenarien zu ermöglichen. in unserer browserbasierten, interaktiven Lernumgebung, dem Data Lab. Dabei handelt es sich um eine vollwertige Programmierumgebung in der Browserbasiert: die selbst programmierten Codes ausgeführt werden können. Den Teilnehmenden werden alle für das Training benötigten Rechenleis- tungen zur Verfügung gestellt. Innovatives Data Lab: Das Training findet im Browser statt, so dass keine weiteren Software- Installationen benötigt werden. Lernziel Zielgruppe Mit Abschluss des Trainings können Teilnehmende Performance- Das Training eignet sich für alle, die Daten analysieren und auf Grund- Metriken und Annahmen von Modellen des überwachten und unüber- lage dieser Vorhersagen erstellen möchten, um datengetriebene Ent- wachten Lernens mit sklearn anwenden. Darüber hinaus sollen Grund- scheidungen treffen zu können. Darüber hinaus solltest Du Interesse an lagen des Data-Storytelling sowie Best Practices der informativen maschinellem Lernen mitbringen. Für das Data Scientist Training werden Gestaltung von Visualisierungen mit bokeh Algorithmen des überwachten gute Kenntnisse in Python und gängigen Modulen (pandas, matplotlib) und unüberwachten Lernens, wie Entscheidungsbäume und Random vorausgesetzt. Forests erlangt werden.
Seite 3 von 8 Inhalt Modul 0: Optional preparation 4 • Kapitel 1: Data analytics with Python (optional) 4 • Kapitel 2: Linear algebra (optional) 4 • Kapitel 3: Probability distributions (optional) 4 Modul 1: Machine learning basics 5 • Kapitel 1: Supervised learning: regression 5 • Kapitel 2: Supervised learning: classification 5 • Kapitel 3: Unsupervised learning: clustering 5 • Kapitel 4: Unsupervised learning: dimensionality reduction 5 • Kapitel 5: Outlier detection 5 Modul 2: Supervised learning 6 • Kapitel 1: Data gathering 6 • Kapitel 2: Logistic regression 6 • Kapitel 3: Decision trees and random forests 6 • Kapitel 4: Support vector machines 6 • Kapitel 5: Neural networks 6 Modul 3: Advanced topics in Data Science 7 • Kapitel 1: Visualisation 7 • Kapitel 2: Spark 7 • Kapitel 3: Exercise Project 7 • Kapitel 4 & 5: Final Project 7
Seite 4 von 8 Modul 0: Optional preparation Kapitel 1: Data analytics with Python (optional) In diesem Kapitel lernen die Teilnehmenden den Umgang mit der interaktiven Programmierumgebung Data Lab, welche Jupyter-Funktionalitäten unterstützt. Außerdem werden die wichtigsten Python und Programmiergrundlagen zur Daten- verarbeitung mit pandas und Datenvisualisierung mit matplotlib und seaborn aufgefrischt. Das Einlesen von Daten mit sqlalchemy (relationale Datenbanken) wird ebenfalls kurz wiederholt. • Eigenheiten von Python: List comprehension und built-in functions • Daten strukturieren/Umgang mit fehlenden Daten • Datenvisualisierung mit Matplotlib • SQL Datenbanken über sqlachemy ansteuern Kapitel 2: Linear algebra (optional) Dieses Kapitel richtet sich an Teilnehmende, die den mathematischen Hintergrund von Data Science Algorithmen besser verstehen möchten, deren eigener Mathema- tikunterricht aber schon weit zurückliegt. In diesem Kapitel lernen die Teilnehmenden die Basisfertigkeiten von linearer Algebra: das Rechnen mit Vektoren und Matrizen und deren Umsetzung mit Numpy • Grundlagen der Linearen Algebra: Umgang mit Vektoren und Matrizen • Umgang mit numpy Arrays und Broadcasting • Umsetzung statistischer Funktionen wie mean, median, quantile Kapitel 3: Probability distributions (optional) Dieses Kapitel richtet sich an Teilnehmende, die den statistischen Hintergrund von Data Science Algorithmen besser verstehen möchten, deren eigener Statistikunter- richt aber schon weit zurückliegt. In diesem Kapitel erlernen die Teilnehmenden die Basisfertigkeiten von Wahrscheinlichkeitstheorie inklusive der Interpretation. Dauer: ca. 12-18 Stunden • Statistische Konzepte verstehen: • 2,5 % Video Gesetz der großen Zahlen und zentraler Grenzwertsatz • 2,5 % Quiz • Zufallsverteilungen kennen lernen: diskrete und kontinuierliche • 95 % Programmierübung im Data Lab Verteilungen • Wöchentliches Webinar
Seite 5 von 8 Modul 1: Machine learning basics Kapitel 1: Supervised learning: regression Kapitel 4: Unsupervised learning: dimensionality reduction In diesem Kapitel lernen die Teilnehmenden, wann und wie man lineare Regres- In diesem Kapitel lernen die Teilnehmenden, wie man mithilfe von Principal Compo- sionen anwendet. Dazu werden sie in das Pythonmodul sklearn ein geführt. Ein nent Analysis (PCA) die Dimension der Daten verringern kann. Die Teilnehmenden besonderes Augenmerk liegt auf den Annahmen des Regressionsmodells. In diesem nutzen die PCA, um unkorrelierte Features aus den Ursprungsdaten zu erzeugen. Zuge wird auch der Bias-Variance Trade-Off und Konzepte wie Regularisierung ver- In diesem Zusammenhang wird das Thema Feature Engineering näher betrachtet. deutlicht. Außerdem werden verschiedene Maße der Modellgüte beigebracht. Hierbei werden aus den alten Features Neue erzeugt. • Lineare Modelle mit Scikit learn • Feature Engineering unter anderem mit PolynomialFeatures • Overfitting durch Regularisierungen minimieren: Lasso, Ridge, Scaler • Dimension der Datensätze reduzieren mit PCA • Scikit-learn Methoden wie fit, transform und predict kennenlernen • Laufzeitanalyse von ML Algorithmen mit timeit • Identifikation optimaler error/ loss-Funktionen und Modellevaluationen Kapitel 5: Outlier detection Kapitel 2: Supervised learning: classification In diesem Kapitel werden verschiedene Ansätze, um Ausreißer zu identifizieren, In diesem Kapitel werden die Teilnehmenden in Klassifizierungsalgorithmen anhand beigebracht. Der Umgang mit diesen ungewöhnlichen Datenpunkten wird diskutiert. des k-nearest neighbors Algorithmus eingeführt. Die Teilnehmenden lernen, den Dazu wird den Teilnehmenden der RANSAC-Algorithmus nähergebracht. Algorithmus zu evaluieren, sowie die Klassifizierungsperformance vielfältig einzu- • Ausreißer über Histogramme, Abstand zum Mittelwert und RANSAC erkennen schätzen. • Ursachen für das Entstehen von Ausreißern verstehen • k-nearest neighbors Algorithmus verstehen und anwenden • Robuste Maße einsetzen: Median, Median Absolute Deviation • Evaluierung von Klassifikationsalgorithmen (Accuracy, Confusion Matrix, Precision, Recall und f1-Score) • Optimierung von ML-Algorithmen: Hyperparametertuning mit GridSearchCV • ML Pipelines konstruieren Kapitel 3: Unsupervised learning: clustering In diesem Kapitel lernen die Teilnehmenden den k-means Algorithmus als Beispiel eines Algorithmus des unüberwachten Lernens kennen. Die Annahmen und Per- formancemetriken des Algorithmus werden kritisch beleuchtet. Außerdem wird ein kurzer Ausblick auf eine Alternative zum k-means-clustering geworfen: DBSCAN. Dauer: ca. 20-30 Stunden • k-means verstehen und anwenden • 2,5 % Video • Algorithmen optimieren mit Elbow-Method • 2,5 % Quiz • Evaluation von Clustering mit Silhouette-Coefficients • 95 % Programmierübung im Data Lab • Sphärische und nicht sphärische Cluster: DBSCAN • Wöchentliches Webinar
Seite 6 von 8 Modul 2: Supervised learning Kapitel 1: Data gathering Kapitel 4: Support Vector Machines In diesem Kapitel lernen die Teilnehmenden wie sie selbst Daten sammeln können, In diesem Kapitel lernen die Teilnehmenden einen weiteren Klassifizierungsalgorith- indem sie Webseiten auslesen. Mit Hilfe von regular expressions strukturieren sie die mus kennen: Support Vector Machines (SVM). Das Verhalten verschiedener Kernel gesammelten Textdaten so, dass sie diese mit den kennengelernten Algorithmen ver- für die SVM wird beleuchtet. Außerdem erlernen die Teilnehmenden typische Schritte wenden können. Dieses Wissen wird anschließend auf PDF-Dokumente übertragen. des Natural Language Processing (NLP) und bearbeiten ein NLP-Szenario unter Ver- wendung von bag-of-words-Modellen. • Externe Datenquellen: Webscraping und -Crawling • PDF‘s auslesen und Daten aufbereiten • Support-Vektoren und Support-Vektor-Maschinen verstehen und anwenden • Strukturierte, semistrukturierte und unstrukturierte Daten • Natural Language Processing mit Spacy, nltk • Textaufbereitung mit regular expressions • Vektorisierung in NLP: CountVectorizer und TfidfVectorizer • Kernels der SVM und Kerneltrick Kapitel 2: Logistic regression In diesem Kapitel lernen die Teilnehmenden einen zweiten Klassifizierungsalgo- Kapitel 5: Neural networks rithmus kennen: logistische Regression. Zuvor gelernte Performance-Indikatoren In diesem Kapitel werden künstliche neuronale Netze eingeführt und der Begriff werden genutzt, um die Stärken und Schwächen der verschiedenen Klassifizierungs- Deep Learning nähergebracht. Dabei wird die Brücke zu bekannten Algorithmen ge- algorithmen zu verdeutlichen. Außerdem lernen die Teilnehmenden, wie man durch schlagen. Die Teilnehmenden nutzen das Modul keras, um ein künstliches neuro- label encoding und one-hot encoding („Dummy-Variablen“) auch kategorische Variab- nales Netz mit mehreren Schichten zu erzeugen und zu trainieren. Die üblichsten len zur Vorhersage nutzen kann. Aktivierungsfunktionen für künstliche Neuronen werden erläutert. Weiterhin werden Möglichkeiten zur Regularisierung künstlicher neuronaler Netze aufgezeigt. • Klassifizierung mit der Logistischen Regression verstehen und anwenden • Arten von Klassifizierungsfehlern kategorisieren • Neural Networks: Neurons, Shallow und Deep Networks • Receiver-Operator-Characteristic (ROC) und Area-Under-Curve (AUC) • Einfluss von Activation Functions: Sigmoid und ReLU zur Evaluation nutzen • Erstellen, kompilieren und trainieren von Netzwerken mit Keras • Anwendbarkeit des Algorithmus: Korrelationsanalyse von Features Kapitel 3: Decision trees and random forests In diesem Kapitel lernen die Teilnehmenden weitere Klassifizierungsansätze kennen: Entscheidungsbäume und random forests. Die Unterschiede zu den vorigen Algo- rithmen werden hervorgehoben. Wie man machine learning Algorithmen mithilfe von ensembling kombiniert, wird in diesem Zusammenhang beleuchtet. Darüber hinaus erlernen die Teilnehmenden die Methoden Over- und Undersampling kennen, die sie Dauer: ca. 20-30 Stunden nutzen, um mit unausgeglichenen Zielkategorien („class imbalance“) umzugehen. • 2,5 % Video • Entscheidungsbäume und random forests verstehen und anwenden • 2,5 % Quiz • Kombination von Modellen durch ensembling • 95 % Programmierübung im Data Lab • Behandlung unausgeglichener Zielkategorien und sampling • Wöchentliches Webinar
Seite 7 von 8 Modul 3: Advanced topics in Data Science Kapitel 1: Visualisation and model interpretation Kapitel 4 & 5: Final Project In diesem Kapitel erlernen die Teilnehmenden wichtige Methoden zur Interpretation In diesem Kapitel erhalten die Teilnehmenden ein weiteres größeres Datenset, wel- und Visualisierung von Machine Learning Modellen. Zur Interpretation der Modelle ches sie selbstständig analysieren und ein Prädiktionsproblem lösen. Im Vergleich lernen die Teilnehmenden sowohl modelspezifische als auch modelagnostische zum Übungsprojekt gibt es weniger Hilfestellungen. Nach der Bearbeitung findet eine Methoden kennen. Für die Visualisierung werden beliebte statistische Darstellungs- individuelle Projektbesprechung mit den Data-Science-Mentoren von StackFuel statt. formen, wie Strip-, Box- und Violinplots eingeführt als auch Methoden zur interakti- Die Teilnehmenden erläutern dabei ihr Vorgehen und erhalten dazu Feedback. ven Visualisierungen in Python. • Komplexes Datenprojekt mit Business Szenario • Interpretation von baumbasierten Modellen: Gini- und Feature Importance • Vertiefung der erlernten Kenntnisse • Permutation Feature Importance, partial dependence und ICE plots • Personalisiertes Feedback und Zertifikat • Visualisierungen: Strip-, Box- und Violin-Plots • Interaktive Visualisierungen mit bokeh Kapitel 2: Spark In diesem Kapitel erfahren die Teilnehmenden, weshalb die Arbeit mit verteilten Speichersystem relevant ist. Mit dem Pythonmodul pyspark erlernen sie verteilte Datenbanken auszulesen, Big-Data-Analysen durchzuführen und bekannte Machine- Learning-Algorithmen auf verteilten Systemen zu nutzen. • Spark Ökosysteme und DataFrames • Spark mit Python: PySpark • Eigene Funktionen in PySpark umsetzen Kapitel 3: Exercise Project In diesem Kapitel bearbeiten die Teilnehmenden ein Prädiktionsproblem mit Hilfe eines größeren Datensets. Die Teilnehmenden setzen ihre Data Science Fähigkeiten von der Reinigung des Datensets bis zur Interpretation des Modells eigenständig Dauer: ca. 30-40 Stunden ein. In einer individuellen Projektbesprechung mit den Data-Science-Mentoren von • 2,5 % Video StackFuel erhalten die Teilnehmenden Feedback zu ihrem Lösungsansatz. • 2,5 % Quiz • Eigenständiges Datenprojekt mit Business Szenario • 95 % Programmierübung im Data Lab • Anwendung der erlernten Kenntnisse • 2x individuelles Mentorenfeedback • Personalisiertes Feedback für jeden Teilnehmenden zu den eigenständigen Projekten • Wöchentliches Webinar
Kontakt Skalierbare Datenkompetenz für Ihr Unternehmen Wir sind Ihr starker Partner, wenn es um berufsbegleitende Online-Trainings zur Fachkräfteentwicklung in Datentechnologien geht. Ob Verstärkung der dezentralen Fachabteilungen oder unternehmensweiter Ausbau von Datenkompetenzen, wir finden gemeinsam eine spezifische Lösung. Sprechen Sie uns einfach an. Legen Sie jetzt los und machen Sie Ihr Unternehmen fit für die Daten-Skills von morgen! Kostenlose Beratung anfordern! Webseite: www.stackfuel.com E-Mail: info@stackfuel.com Telefonnummer: +49 (0) 30 6800 9505 Stand: Februar 2021 Die Inhalte des Curriculums sind zum Stand Februar 2021 aktuell, Herausgeber: StackFuel GmbH Änderungen und Abweichungen sind vorbehalten. www.stackfuel.com © 2021 StackFuel GmbH. Alle Rechte und Änderungen sind vorbehalten.
Sie können auch lesen