DATA SCIENTIST - FOKUS PYTHON - Qualifizierung für die Jobrolle als Data Scientist

Die Seite wird erstellt Devid Weidner
 
WEITER LESEN
DATA SCIENTIST - FOKUS PYTHON - Qualifizierung für die Jobrolle als Data Scientist
Data Training for Professionals | Online-Training

DATA SCIENTIST –
FOKUS PYTHON
Qualifizierung für die Jobrolle als Data Scientist

                                                        In Kooperation mit

                                         www.uebzo.de
DATA SCIENTIST – ÜBERSICHT

  BESCHREIBUNG                                               LERNORT
  Mit dem berufsbegleitenden Online-Training                  Praxisnahe Lernumgebung:
  lernen Teilnehmende unüberwachtes und                       Die Teilnehmenden lernen mit
  überwachtes maschinelles Lernen, unterschiedliche           Hilfe aktueller Technologien und
  Datenvisualisierungsmethoden und das Data-                  neuester Python-Bibliotheken.
  Storytelling kennen, um danach die Rolle des Data
  Scientist einnehmen zu können. Während des                  Moderner Technologie Stack:
  Trainings arbeiten die Teilnehmenden in unserer             Im Training werden reale
  browserbasierten, interaktiven Lernumgebung, dem            Datensets sowie Business Cases
  Data Lab. Dabei handelt es sich um eine vollwertige         aus der Industrie verwendet, um
  Programmierumgebung in der die selbst programmierten        praxisnahe Lernszenarien zu
  Codes ausgeführt werden können.                             ermöglichen.

  LERNZIEL                                                    Browserbasiert:
                                                              Den Teilnehmenden werden
  Anwendung von Performance-Metriken und Annahmen             alle für das Training benötigten
  von Modellen des überwachten und unüberwachten              Rechenleistungen zur Verfügung
  Lernens mit Sklearn. Grundlagen des Data-Storytelling       gestellt.
  sowie Best Practices der informativen Gestaltung von
  Visualisierungen mit Bokeh Algorithmen des überwachten      Innovatives Data Lab:
  und unüberwachten Lernens, wie Entscheidungsbäume und       Das Training findet im Browser
  Random Forests werden erlangt.                              statt, so dass keine weiteren
                                                              Software-Installationen benötigt
  ZIELGRUPPE                                                  werden.
  Das Training eignet sich für alle, die Daten analysieren
  und Vorhersagen erstellen, um datengetriebene
  Entscheidungen zu treffen. Gute Kenntnisse in Python
  und gängigen Modulen (Pandas, Matplotlib) werden
  vorausgesetzt.

  INHALTE
    Optional Preparation
    Machine Learning Basics
    Supervised Learning
    Advanced Topics in Data Science
INHALTE
MODUL 0: OPTIONAL PREPARATION

Kapitel 1: Data analytics with Python (optional)
                                                                         Aufteilung:
     Eigenheiten von Python: List comprehension und built-in
     functions                                                               2,5% Video
     Daten strukturieren/Umgang mit fehlenden Daten                          2,5% Quiz
     Datenvisualisierung mit Matplotlib                                      95% Programmierübung im Data Lab
                                                                             Wöchentliches Webinar
     SQL Datenbanken über sqlachemy ansteuern
                                                                         Modul-Dauer: ca. 12-18 Stunden

Kapitel 2: Linear algebra (optional)
     Grundlagen der Linearen Algebra: Umgang mit Vektoren und Matrizen
     Umgang mit numpy Arrays und Broadcasting
     Umsetzung statistischer Funktionen wie mean, median, quantile

Kapitel 3: Probability distributions (optional)
     Statistische Konzepte verstehen: Gesetz der großen Zahlen und zentraler Grenzwertsatz
     Zufallsverteilungen kennen lernen: diskrete und kontinuierliche Verteilungen

                                                                                                     MODUL 1
INHALTE
MODUL 1: MACHINE LEARNING BASICS

Kapitel 1: Supervised learning: regression
                                                                           Aufteilung:
     Lineare Modelle mit Scikit learn
                                                                              2,5% Video
     Overfitting durch Regularisierungen minimieren
                                                                              2,5% Quiz
     Scikit-learn Methoden wie fit, transform und predict
     kennenlernen                                                             95% Programmierübung im Data Lab
                                                                              Wöchentliches Webinar
     Identifikation optimaler error/ loss-Funktionen und
     Modellevaluationen                                                    Modul-Dauer: ca. 20-30 Stunden

Kapitel 2: Supervised learning: classification
     Verstehen und Anwendung von k-nearest neighbors Algorithmus
     Evaluierung von Klassifikationsalgorithmen (Accuracy, Confusion Matrix, Precision, Recall und f1-Score)
     Optimierung von ML-Algorithmen: Hyperparametertuning mit GridSearchCV
     ML Pipelines konstruieren

Kapitel 3: Probability distributions (optional)
     Verstehen und Anwendenung von k-means
     Algorithmen optimieren mit Elbow-Method
     Evaluation von Clustering mit Silhouette-Coefficients
     Sphärische und nicht sphärische Cluster: DBSCAN

Kapitel 4: Unsupervised learning: dimensionality reduction
     Feature Engineering unter anderem mit PolynomialFeatures
     Dimension der Datensätze reduzieren mit PCA
     Laufzeitanalyse von ML Algorithmen mit timeit

Kapitel 5: Outlier detection
     Ausreißer über Histogramme, Abstand zum Mittelwert und RANSAC erkennen
                                                                                                        MODUL 2
     Ursachen für das Entstehen von Ausreißern verstehen
     Robuste Maße einsetzen: Median, Median Absolute Deviation
INHALTE
MODUL 2: SUPERVISED LEARNING

Kapitel 1: Data gathering
                                                                      Aufteilung:
     Externe Datenquellen: Webscraping und -Crawling
                                                                         2,5% Video
     PDF‘s auslesen und Daten aufbereiten
                                                                         2,5% Quiz
     Strukturierte, semistrukturierte und unstrukturierte Daten
                                                                         95% Programmierübung im Data Lab
     Textaufbereitung mit regular expressions
                                                                         Wöchentliches Webinar

Kapitel 2: Logistic regression                                        Modul-Dauer: ca. 20-30 Stunden

     Klassifizierung mit der Logistischen Regression verstehen
     und anwenden
     Arten von Klassifizierungsfehlern kategorisieren
     Receiver-Operator-Characteristic (ROC) und Area-Under-
     Curve (AUC) zur Evaluation nutzen
     Anwendbarkeit des Algorithmus: Korrelationsanalyse von
     Features

Kapitel 3: Decision trees and random forests
     Entscheidungsbäume und random forests verstehen und anwenden
     Kombination von Modellen durch ensembling
     Behandlung unausgeglichener Zielkategorien und sampling

Kapitel 4: Support Vector Machines
     Support-Vektoren und Support-Vektor-Maschinen verstehen und anwenden
     Natural Language Processing mit Spacy, nltk
     Vektorisierung in NLP: CountVectorizer und TfidfVectorizer
     Kernels der SVM und Kerneltrick

Kapitel 5: Neural networks
     Neural Networks: Neurons, Shallow und Deep Networks
     Einfluss von Activation Functions: Sigmoid und ReLU                                         MODUL 3
     Erstellen, kompilieren und trainieren von Netzwerken mit Keras
INHALTE
MODUL 3: ADVANCED TOPICS IN DATA SCIENCE

Kapitel 1: Visualisation and model interpretation
                                                                       Aufteilung:
     Interpretation von baumbasierten Modellen: Gini- und
     Feature Importance                                                   2,5% Video
     Permutation Feature Importance, partial dependence und               2,5% Quiz
     ICE plots                                                            95% Programmierübung im Data Lab
     Visualisierungen: Strip-, Box- und Violin-Plots                      Wöchentliches Webinar
     Interaktive Visualisierungen mit bokeh                            Modul-Dauer: ca. 20-30 Stunden

Kapitel 2: Spark
     Spark Ökosysteme und DataFrames
     Spark mit Python: PySpark
     Eigene Funktionen in PySpark umsetzen
     Anwendbarkeit des Algorithmus: Korrelationsanalyse von Features

Kapitel 3: Exercise Project
     Eigenständiges Datenprojekt mit Business Szenario
     Anwendung der erlernten Kenntnisse
     Personalisiertes Feedback für jeden Teilnehmenden

Kapitel 4 & 5: Final Project
     Komplexes Datenprojekt mit Business Szenario
     Vertiefung der erlernten Kenntnisse
     Personalisiertes Feedback und Zertifikat
     Kernels der SVM und Kerneltrick
TERMINE
 07.03. - 21.08.2022              zur Anmeldung
                                                           ÜBERBLICK
 18.04. - 02.10.2022              zur Anmeldung
                                                              Seminargebühr:
 30.05. - 13.11.2022              zur Anmeldung               3.990,- Euro (zzgl. MwSt.)
 11.07. - 25.12.2022              zur Anmeldung
                                                              Seminardauer:
22.08.2022 - 05.02.2023           zur Anmeldung               108 Stunden in 18 Wochen
03.10.2022 - 19.03.2023           zur Anmeldung
                                                              Dozent:
14.11.2022 - 30.04.2023           zur Anmeldung               Dr. Alexander Eckrot
12.12.2022 - 28.05.2023           zur Anmeldung
                                                              Ablauf:
                                                              Der Zugangslink zur Veranstaltung
                                                              wird in einer separaten E-Mail nach
                                                              der Anmeldung zugeschickt.

                                       WEITERE KURSE
           AI Driven Management                   Data Driven Management
           AI Literacy                            Data Storytelling
           Data Analyst                           Deep Learning
           Data Awareness                         Python
Legen Sie jetzt los und machen Sie Ihre Mitarbeitenden und Ihr
          Unternehmen fit für die Daten-Skills von morgen!

          Wir unterstützen Sie gerne! Sprechen Sie uns an.

               KONTAKT

Überbetriebliches Bildungszentrum in Ostbayern                      In Kooperation mit
Paul-Engel-Straße 1
92729 Weiherhammer
E-Mail: info@uebzo.de
Telefon: 09605/919848

                                                 www.uebzo.de
Sie können auch lesen