Curriculum Data Scientist Training

Die Seite wird erstellt Yves-Leander Sauer
 
WEITER LESEN
Curriculum Data Scientist Training
Curriculum
Data Scientist Training

                          Data Training
                          for Professionals
Curriculum Data Scientist Training
Seite 2 von 8

Data Scientist Training                                                          Trainingsumgebung

    Der Beruf des Data Scientist ist einer der gefragtesten des aktuellen            Praxisnahe Lernumgebung:
    Jahrhunderts. Mit dem berufsbegleitenden Online-Training von StackFuel
                                                                                     Die Teilnehmenden lernen mit Hilfe aktueller Technologien und neuster
    lernen Teilnehmende unüberwachtes und überwachtes maschinelles
                                                                                     Python-Bibliotheken.
    Lernen, unterschiedliche Datenvisualisierungsmethoden und das Data-
    Storytelling kennen, um nach dem Training die Rolle des Data Scientist
                                                                                     Moderner Technologie Stack:
    einnehmen zu können. Anschließend können sie das erworbene Wissen
    in ihrer Abteilung einbringen und selbstständig Machine-Learning-Algorith-       Im Training werden reale Datensets sowie Business Cases aus der Indust-
    men implementieren. Während des Trainings arbeiten die Teilnehmenden             rie verwendet, um praxisnahe Lernszenarien zu ermöglichen.
    in unserer browserbasierten, interaktiven Lernumgebung, dem Data Lab.
    Dabei handelt es sich um eine vollwertige Programmierumgebung in der             Browserbasiert:
    die selbst programmierten Codes ausgeführt werden können.
                                                                                     Den Teilnehmenden werden alle für das Training benötigten Rechenleis-
                                                                                     tungen zur Verfügung gestellt.

                                                                                     Innovatives Data Lab:
                                                                                     Das Training findet im Browser statt, so dass keine weiteren Software-
                                                                                     Installationen benötigt werden.

Lernziel                                                                         Zielgruppe

    Mit Abschluss des Trainings können Teilnehmende Performance-                    Das Training eignet sich für alle, die Daten analysieren und auf Grund-
    Metriken und Annahmen von Modellen des überwachten und unüber-                  lage dieser Vorhersagen erstellen möchten, um datengetriebene Ent-
    wachten Lernens mit sklearn anwenden. Darüber hinaus sollen Grund-              scheidungen treffen zu können. Darüber hinaus solltest Du Interesse an
    lagen des Data-Storytelling sowie Best Practices der informativen               maschinellem Lernen mitbringen. Für das Data Scientist Training werden
    Gestaltung von Visualisierungen mit bokeh Algorithmen des überwachten           gute Kenntnisse in Python und gängigen Modulen (pandas, matplotlib)
    und unüberwachten Lernens, wie Entscheidungsbäume und Random                    vorausgesetzt.
    Forests erlangt werden.
Curriculum Data Scientist Training
Seite 3 von 8

Inhalt

         Modul 0: Optional preparation                                        4
             •   Kapitel 1: Data analytics with Python (optional)             4
             •   Kapitel 2: Linear algebra (optional)                         4
             •   Kapitel 3: Probability distributions (optional)              4

         Modul 1: Machine learning basics                                     5
             •   Kapitel 1: Supervised learning: regression                   5
             •   Kapitel 2: Supervised learning: classification               5
             •   Kapitel 3: Unsupervised learning: clustering                 5
             •   Kapitel 4: Unsupervised learning: dimensionality reduction   5
             •   Kapitel 5: Outlier detection                                 5

         Modul 2: Supervised learning                                         6
             •   Kapitel 1: Data gathering                                    6
             •   Kapitel 2: Logistic regression                               6
             •   Kapitel 3: Decision trees and random forests                 6
             •   Kapitel 4: Support vector machines                           6
             •   Kapitel 5: Neural networks                                   6

         Modul 3: Advanced topics in Data Science                             7
             •   Kapitel 1: Visualisation                                     7
             •   Kapitel 2: Spark                                             7
             •   Kapitel 3: Exercise Project                                  7
             •   Kapitel 4 & 5: Final Project                                 7
Seite 4 von 8

Modul 0: Optional preparation

    Kapitel 1: Data analytics with Python (optional)
    In diesem Kapitel lernen die Teilnehmenden den Umgang mit der interaktiven
    Programmierumgebung Data Lab, welche Jupyter-Funktionalitäten unterstützt.
    Außerdem werden die wichtigsten Python und Programmiergrundlagen zur Daten-
    verarbeitung mit pandas und Datenvisualisierung mit matplotlib und seaborn
    aufgefrischt. Das Einlesen von Daten mit sqlalchemy (relationale Datenbanken)
    wird ebenfalls kurz wiederholt.

    •   Eigenheiten von Python: List comprehension und built-in functions
    •   Daten strukturieren/Umgang mit fehlenden Daten
    •   Datenvisualisierung mit Matplotlib
    •   SQL Datenbanken über sqlachemy ansteuern

    Kapitel 2: Linear algebra (optional)
    Dieses Kapitel richtet sich an Teilnehmende, die den mathematischen Hintergrund
    von Data Science Algorithmen besser verstehen möchten, deren eigener Mathema-
    tikunterricht aber schon weit zurückliegt. In diesem Kapitel lernen die Teilnehmenden
    die Basisfertigkeiten von linearer Algebra: das Rechnen mit Vektoren und Matrizen
    und deren Umsetzung mit Numpy

    •   Grundlagen der Linearen Algebra: Umgang mit Vektoren und Matrizen
    •   Umgang mit numpy Arrays und Broadcasting
    •   Umsetzung statistischer Funktionen wie mean, median, quantile

    Kapitel 3: Probability distributions (optional)
    Dieses Kapitel richtet sich an Teilnehmende, die den statistischen Hintergrund von
    Data Science Algorithmen besser verstehen möchten, deren eigener Statistikunter-
    richt aber schon weit zurückliegt. In diesem Kapitel erlernen die Teilnehmenden die
    Basisfertigkeiten von Wahrscheinlichkeitstheorie inklusive der Interpretation.          Dauer: ca. 12-18 Stunden

    •   Statistische Konzepte verstehen:                                                    •   2,5 % Video
        Gesetz der großen Zahlen und zentraler Grenzwertsatz                                •   2,5 % Quiz
    •   Zufallsverteilungen kennen lernen: diskrete und kontinuierliche                     •   95 % Programmierübung im Data Lab
        Verteilungen                                                                        •   Wöchentliches Webinar
Seite 5 von 8

Modul 1: Machine learning basics

    Kapitel 1: Supervised learning: regression                                           Kapitel 4: Unsupervised learning: dimensionality reduction
    In diesem Kapitel lernen die Teilnehmenden, wann und wie man lineare Regres-         In diesem Kapitel lernen die Teilnehmenden, wie man mithilfe von Principal Compo-
    sionen anwendet. Dazu werden sie in das Pythonmodul sklearn ein geführt. Ein         nent Analysis (PCA) die Dimension der Daten verringern kann. Die Teilnehmenden
    besonderes Augenmerk liegt auf den Annahmen des Regressionsmodells. In diesem        nutzen die PCA, um unkorrelierte Features aus den Ursprungsdaten zu erzeugen.
    Zuge wird auch der Bias-Variance Trade-Off und Konzepte wie Regularisierung ver-     In diesem Zusammenhang wird das Thema Feature Engineering näher betrachtet.
    deutlicht. Außerdem werden verschiedene Maße der Modellgüte beigebracht.             Hierbei werden aus den alten Features Neue erzeugt.

    •   Lineare Modelle mit Scikit learn                                                 •   Feature Engineering unter anderem mit PolynomialFeatures
    •   Overfitting durch Regularisierungen minimieren: Lasso, Ridge, Scaler             •   Dimension der Datensätze reduzieren mit PCA
    •   Scikit-learn Methoden wie fit, transform und predict kennenlernen                •   Laufzeitanalyse von ML Algorithmen mit timeit
    •   Identifikation optimaler error/ loss-Funktionen und Modellevaluationen
                                                                                         Kapitel 5: Outlier detection
    Kapitel 2: Supervised learning: classification                                       In diesem Kapitel werden verschiedene Ansätze, um Ausreißer zu identifizieren,
    In diesem Kapitel werden die Teilnehmenden in Klassifizierungsalgorithmen anhand     beigebracht. Der Umgang mit diesen ungewöhnlichen Datenpunkten wird diskutiert.
    des k-nearest neighbors Algorithmus eingeführt. Die Teilnehmenden lernen, den        Dazu wird den Teilnehmenden der RANSAC-Algorithmus nähergebracht.
    Algorithmus zu evaluieren, sowie die Klassifizierungsperformance vielfältig einzu-
                                                                                         •   Ausreißer über Histogramme, Abstand zum Mittelwert und RANSAC erkennen
    schätzen.
                                                                                         •   Ursachen für das Entstehen von Ausreißern verstehen
    •   k-nearest neighbors Algorithmus verstehen und anwenden                           •   Robuste Maße einsetzen: Median, Median Absolute Deviation
    •   Evaluierung von Klassifikationsalgorithmen
        (Accuracy, Confusion Matrix, Precision, Recall und f1-Score)
    •   Optimierung von ML-Algorithmen:
        Hyperparametertuning mit GridSearchCV
    •   ML Pipelines konstruieren

    Kapitel 3: Unsupervised learning: clustering
    In diesem Kapitel lernen die Teilnehmenden den k-means Algorithmus als Beispiel
    eines Algorithmus des unüberwachten Lernens kennen. Die Annahmen und Per-
    formancemetriken des Algorithmus werden kritisch beleuchtet. Außerdem wird ein
    kurzer Ausblick auf eine Alternative zum k-means-clustering geworfen: DBSCAN.                                         Dauer: ca. 20-30 Stunden

    •   k-means verstehen und anwenden                                                                                    •   2,5 % Video
    •   Algorithmen optimieren mit Elbow-Method                                                                           •   2,5 % Quiz
    •   Evaluation von Clustering mit Silhouette-Coefficients                                                             •   95 % Programmierübung im Data Lab
    •   Sphärische und nicht sphärische Cluster: DBSCAN                                                                   •   Wöchentliches Webinar
Seite 6 von 8

Modul 2: Supervised learning

    Kapitel 1: Data gathering                                                               Kapitel 4: Support Vector Machines
    In diesem Kapitel lernen die Teilnehmenden wie sie selbst Daten sammeln können,         In diesem Kapitel lernen die Teilnehmenden einen weiteren Klassifizierungsalgorith-
    indem sie Webseiten auslesen. Mit Hilfe von regular expressions strukturieren sie die   mus kennen: Support Vector Machines (SVM). Das Verhalten verschiedener Kernel
    gesammelten Textdaten so, dass sie diese mit den kennengelernten Algorithmen ver-       für die SVM wird beleuchtet. Außerdem erlernen die Teilnehmenden typische Schritte
    wenden können. Dieses Wissen wird anschließend auf PDF-Dokumente übertragen.            des Natural Language Processing (NLP) und bearbeiten ein NLP-Szenario unter Ver-
                                                                                            wendung von bag-of-words-Modellen.
    •   Externe Datenquellen: Webscraping und -Crawling
    •   PDF‘s auslesen und Daten aufbereiten                                                •   Support-Vektoren und Support-Vektor-Maschinen verstehen und anwenden
    •   Strukturierte, semistrukturierte und unstrukturierte Daten                          •   Natural Language Processing mit Spacy, nltk
    •   Textaufbereitung mit regular expressions                                            •   Vektorisierung in NLP: CountVectorizer und TfidfVectorizer
                                                                                            •   Kernels der SVM und Kerneltrick
    Kapitel 2: Logistic regression
    In diesem Kapitel lernen die Teilnehmenden einen zweiten Klassifizierungsalgo-          Kapitel 5: Neural networks
    rithmus kennen: logistische Regression. Zuvor gelernte Performance-Indikatoren          In diesem Kapitel werden künstliche neuronale Netze eingeführt und der Begriff
    werden genutzt, um die Stärken und Schwächen der verschiedenen Klassifizierungs-        Deep Learning nähergebracht. Dabei wird die Brücke zu bekannten Algorithmen ge-
    algorithmen zu verdeutlichen. Außerdem lernen die Teilnehmenden, wie man durch          schlagen. Die Teilnehmenden nutzen das Modul keras, um ein künstliches neuro-
    label encoding und one-hot encoding („Dummy-Variablen“) auch kategorische Variab-       nales Netz mit mehreren Schichten zu erzeugen und zu trainieren. Die üblichsten
    len zur Vorhersage nutzen kann.                                                         Aktivierungsfunktionen für künstliche Neuronen werden erläutert. Weiterhin werden
                                                                                            Möglichkeiten zur Regularisierung künstlicher neuronaler Netze aufgezeigt.
    •   Klassifizierung mit der Logistischen Regression verstehen und anwenden
    •   Arten von Klassifizierungsfehlern kategorisieren                                    •   Neural Networks: Neurons, Shallow und Deep Networks
    •   Receiver-Operator-Characteristic (ROC) und Area-Under-Curve (AUC)                   •   Einfluss von Activation Functions: Sigmoid und ReLU
        zur Evaluation nutzen                                                               •   Erstellen, kompilieren und trainieren von Netzwerken mit Keras
    •   Anwendbarkeit des Algorithmus: Korrelationsanalyse von Features

    Kapitel 3: Decision trees and random forests
    In diesem Kapitel lernen die Teilnehmenden weitere Klassifizierungsansätze kennen:
    Entscheidungsbäume und random forests. Die Unterschiede zu den vorigen Algo-
    rithmen werden hervorgehoben. Wie man machine learning Algorithmen mithilfe von
    ensembling kombiniert, wird in diesem Zusammenhang beleuchtet. Darüber hinaus
    erlernen die Teilnehmenden die Methoden Over- und Undersampling kennen, die sie                                          Dauer: ca. 20-30 Stunden
    nutzen, um mit unausgeglichenen Zielkategorien („class imbalance“) umzugehen.
                                                                                                                             •   2,5 % Video
    •   Entscheidungsbäume und random forests verstehen und anwenden                                                         •   2,5 % Quiz
    •   Kombination von Modellen durch ensembling                                                                            •   95 % Programmierübung im Data Lab
    •   Behandlung unausgeglichener Zielkategorien und sampling                                                              •   Wöchentliches Webinar
Seite 7 von 8

Modul 3: Advanced topics in Data Science

    Kapitel 1: Visualisation and model interpretation                                      Kapitel 4 & 5: Final Project
    In diesem Kapitel erlernen die Teilnehmenden wichtige Methoden zur Interpretation      In diesem Kapitel erhalten die Teilnehmenden ein weiteres größeres Datenset, wel-
    und Visualisierung von Machine Learning Modellen. Zur Interpretation der Modelle       ches sie selbstständig analysieren und ein Prädiktionsproblem lösen. Im Vergleich
    lernen die Teilnehmenden sowohl modelspezifische als auch modelagnostische             zum Übungsprojekt gibt es weniger Hilfestellungen. Nach der Bearbeitung findet eine
    Methoden kennen. Für die Visualisierung werden beliebte statistische Darstellungs-     individuelle Projektbesprechung mit den Data-Science-Mentoren von StackFuel statt.
    formen, wie Strip-, Box- und Violinplots eingeführt als auch Methoden zur interakti-   Die Teilnehmenden erläutern dabei ihr Vorgehen und erhalten dazu Feedback.
    ven Visualisierungen in Python.
                                                                                           •   Komplexes Datenprojekt mit Business Szenario
    •   Interpretation von baumbasierten Modellen: Gini- und Feature Importance            •   Vertiefung der erlernten Kenntnisse
    •   Permutation Feature Importance, partial dependence und ICE plots                   •   Personalisiertes Feedback und Zertifikat
    •   Visualisierungen: Strip-, Box- und Violin-Plots
    •   Interaktive Visualisierungen mit bokeh

    Kapitel 2: Spark
    In diesem Kapitel erfahren die Teilnehmenden, weshalb die Arbeit mit verteilten
    Speichersystem relevant ist. Mit dem Pythonmodul pyspark erlernen sie verteilte
    Datenbanken auszulesen, Big-Data-Analysen durchzuführen und bekannte Machine-
    Learning-Algorithmen auf verteilten Systemen zu nutzen.

    •   Spark Ökosysteme und DataFrames
    •   Spark mit Python: PySpark
    •   Eigene Funktionen in PySpark umsetzen

    Kapitel 3: Exercise Project
    In diesem Kapitel bearbeiten die Teilnehmenden ein Prädiktionsproblem mit Hilfe
    eines größeren Datensets. Die Teilnehmenden setzen ihre Data Science Fähigkeiten
    von der Reinigung des Datensets bis zur Interpretation des Modells eigenständig                                         Dauer: ca. 30-40 Stunden
    ein. In einer individuellen Projektbesprechung mit den Data-Science-Mentoren von
                                                                                                                            • 2,5 % Video
    StackFuel erhalten die Teilnehmenden Feedback zu ihrem Lösungsansatz.
                                                                                                                            • 2,5 % Quiz
    •   Eigenständiges Datenprojekt mit Business Szenario                                                                   • 95 % Programmierübung im Data Lab
    •   Anwendung der erlernten Kenntnisse                                                                                  • 2x individuelles Mentorenfeedback
    •   Personalisiertes Feedback für jeden Teilnehmenden                                                                     zu den eigenständigen Projekten
                                                                                                                            • Wöchentliches Webinar
Kontakt
   Skalierbare Datenkompetenz für Ihr Unternehmen

                                        Wir sind Ihr starker Partner, wenn es um berufsbegleitende Online-Trainings zur Fachkräfteentwicklung in
                                        Datentechnologien geht. Ob Verstärkung der dezentralen Fachabteilungen oder unternehmensweiter Ausbau
                                        von Datenkompetenzen, wir finden gemeinsam eine spezifische Lösung. Sprechen Sie uns einfach an.

                                        Legen Sie jetzt los und machen Sie Ihr Unternehmen
                                        fit für die Daten-Skills von morgen!

                                          Kostenlose Beratung anfordern!

                                        Webseite: www.stackfuel.com
                                        E-Mail: info@stackfuel.com
                                        Telefonnummer: +49 (0) 30 6800 9505

                                        Stand: Februar 2021                  Die Inhalte des Curriculums sind zum Stand Februar 2021 aktuell,
                                        Herausgeber: StackFuel GmbH          Änderungen und Abweichungen sind vorbehalten.

                                        www.stackfuel.com                    © 2021 StackFuel GmbH. Alle Rechte und Änderungen sind vorbehalten.
Sie können auch lesen