VERANSTALTUNGEN DATA SCIENCE & DECISION SCIENCE UND ARTIFICIAL INTELLIGENCE IM SOSE2020

Die Seite wird erstellt Ulrich Körner
 
WEITER LESEN
VERANSTALTUNGEN DATA SCIENCE & DECISION SCIENCE UND ARTIFICIAL INTELLIGENCE IM SOSE2020
Veranstaltungen Data Science &
 Decision Science und Artificial
   Intelligence im SoSe2020
VERANSTALTUNGEN DATA SCIENCE & DECISION SCIENCE UND ARTIFICIAL INTELLIGENCE IM SOSE2020
Was Wann Wo

   Hochaktuelle Fragestellungen aus dem Bereich Data Science, Decision Science
    und Artificial Intelligence

   Neben der Bearbeitung fachlicher Inhalte steht auch die freie Rede und
    Präsentation eines Themas sowie der fachliche und persönliche Austausch mit
    Studierenden ähnlicher Interessen im Fokus

   Leistung kann im Wesentlichen auch bereits in der vorlesungsfreien Zeit erbracht
    werden

   Alternativ in Augsburg oder in Teisendorf
   Vorträge im Zweierteam

   Möglichkeit 1: 20.05-24.05.2020
      Ederhof im oberbayerischen Teisendorf
      Unterbringung in Ferienwohnungen auf dem Ederhof
      Kosten für Unterbringung mit Frühstück: 125 Euro pro Person

   Möglichkeit 2 (In Augsburg, voraussichtlich in zeitlich unmittelbarer Nähe zur
    Veranstaltung in Teisendorf (Woche davor/Woche danach)
VERANSTALTUNGEN DATA SCIENCE & DECISION SCIENCE UND ARTIFICIAL INTELLIGENCE IM SOSE2020
Impressionen
VERANSTALTUNGEN DATA SCIENCE & DECISION SCIENCE UND ARTIFICIAL INTELLIGENCE IM SOSE2020
Impressionen
VERANSTALTUNGEN DATA SCIENCE & DECISION SCIENCE UND ARTIFICIAL INTELLIGENCE IM SOSE2020
Impressionen
VERANSTALTUNGEN DATA SCIENCE & DECISION SCIENCE UND ARTIFICIAL INTELLIGENCE IM SOSE2020
Impressionen
VERANSTALTUNGEN DATA SCIENCE & DECISION SCIENCE UND ARTIFICIAL INTELLIGENCE IM SOSE2020
Impressionen
VERANSTALTUNGEN DATA SCIENCE & DECISION SCIENCE UND ARTIFICIAL INTELLIGENCE IM SOSE2020
Impressionen
VERANSTALTUNGEN DATA SCIENCE & DECISION SCIENCE UND ARTIFICIAL INTELLIGENCE IM SOSE2020
Impressionen
VERANSTALTUNGEN DATA SCIENCE & DECISION SCIENCE UND ARTIFICIAL INTELLIGENCE IM SOSE2020
Impressionen
Impressionen
Themenübersicht

1.    Prognoseverfahren für saisonale Daten und Daten mit Trend
2.    Spektrale Risikomaße: Konzeption und betriebswirtschaftliche Anwendungen
3.    Text Mining: Spam-Klassifikation von Textnachrichten
4.    Nichtlineare Regression
5.    Wenn der Schein trügt: Fantastische Klassifikationsgüte … oder doch nicht?
6.    Spannung, Spiel und … – Vom Öffnen der Black Box mit LIME und SHAP
7.    Regularisierung und Resampling Methoden im Machine Learning
8.    Der Bullwhip Effekt
9.    Naturanaloge Verfahren zur Lösung ökonomischer Problemstellungen
10.   Spieltheoretische Lösungskonzepte zur fairen Ressourcenaufteilung in
      Entscheidungsproblemen
11.   Künstliche Intelligenz: Eine exemplarische Vorstellung anhand strategischer Spiele
12.   Aufdeckung von Bilanzbetrug: Das Benford Gesetz
13.   Zur ökonomischen Bedeutung von Wirtschaftskriminalität: Methoden und Techniken der
      forensischen Ermittlung
14.   Data Analysis mit PCA
15.   Machine Learning mit LASSO
16.   Scheinkorrelation und –regression
17.   Analyse- und Prognosemethoden im linearen Regressionsmodell – Anwendung unter
      Verwendung von Investorenstimmungen
18.   Datenvisualisierung in Python
Einbringbarkeiten (Master)

   BWL und EPP (PO 2017): Major/Minor Finance & Information, Major/Minor Operations &
    Information sowie General Management & Economics
   GBM (PO 2011): Methoden
   DFM (PO 2011): Cluster Finance & Information Management und Cluster Operations &
    Information Management
   ReWi: SP: Bank, Kapitalmarkt und Finanzmanagement
   Informatik & Informationswirtschaft: Finance & Information
   WIN (PO 2017): Major/Minor: Operations, Finanz- und Informationsmanagement
   WING (PO 2014): Modulgruppe B: Major Management and Sustainability
   WIMA (PO 2013): Modulgruppe C1 (Finance & Information Management bzw.
    Modulgruppe C3 (Operations & Information Management)
   Master Mathe, Gruppe E-W: Nebenfach WiWi
Bewerbungsverfahren

   Bewerbung ab sofort bis spätestens 29.02.2020 möglich
   Die Auswahl und Themenvergabe erfolgt nach Leistungskriterien: Jede
    Bewerberin/Jeder Bewerber muss daher neben seiner Online-Bewerbung
    während der Bewerbungsfrist einen aktuellen, vollständigen Studis-Auszug per
    Mail an karin.wuensch@wiwi.uni-augsburg.de schicken.
   Excel-Vorlage zur Bewerbung auf der Website des Lehrstuhl Okhrin
    (diese wird ab Beginn der Reading-Week verfügbar sein)
      Hierbei muss jedes Team eine Präferenzordnung von bis zu 5 Themen angeben
      Somit werden wir versuchen, den Nutzen zu maximieren: Teams, welche
         ausgewählt wurden und nicht ihre Erstpräferenz bekommen, werden möglichst
         ihre nächste Präferenz(en) angeboten bekommen, falls sie ausgewählt wurden.
   Bewerbungen als Zweierteam werden präferiert behandelt: Hierbei sind als Team
    nur Gruppenzusammensetzungen Bachelor+Bachelor bzw. Master + Master möglich
   Jedes Thema wird pro Ort (Teisendorf/Augsburg) höchstens einmal vergeben
   Die Themen 2, 12, 13 werden nur für Teisendorf vergeben
   Themen- und Ortzusage bereits Anfang März 2019
   Ab Anfang März 2020 kann (aber muß nicht!) bereits mit der Themenbearbeitung
    begonnen werden und ein Großteil des Arbeitsaufwandes kann somit bereits in
    der Vorlesungsfreien Zeit erbracht werden und entlastet das Semester
Hinweise zur Prüfungsleistung

Die Prüfungsleistung besteht ausschließlich aus einem Vortrag im Zweier-Team, gestützt auf eine
Präsentation

Zu den Vorträgen:

   Vorträge im Zweierteam, frei gehalten
   Zieldauer 60 Minuten (gleichmäßig auf beide Seminaristen aufgeteilt), anschließend Diskussion
   Beamer und 2 Notebooks vorhanden: eigene Notebooks mitbringen ist nicht notwendig.
   Kein Overheadprojektor, Flipchart o. Ä.
   Für das gesamte Publikum, nicht nur die Dozenten
   Handouts nicht erforderlich
   Die Präsentation ist als wissenschaftliche Leistung in Präsentationsform zu betrachten!
   Teilnahme an der Diskussion;
   Abgabe der Präsentation ausschließlich in digitaler Form bis (inklusive) 11.05.2020, 12:00 Uhr
   Gehalten werden die Vorträge mit den am 11.05.2019 abgegebenen Präsentationen.
1. Prognoseverfahren für saisonale Daten und
           Daten mit Trend

Viele Daten zeigen bestimmte saisonale Muster. Zum Beispiel ist die Nachfrage nach neuen PKWs
im Frühjahr höher als im Herbst; Immobilien werden häufiger im Sommer und Kosmetikprodukte vor
Weihnachten gekauft. Diese Informationen können Unternehmen für eine bessere Planung effizient
nutzen, indem sie die Nachfrage mit statistischen Methoden präzise vorhersagen. Im Rahmen des
Themas sollen auf der exponentiellen Glättung basierende Verfahren vorgestellt und auf reelle Daten
angewendet werden. Zu den Verfahren gehören EWMA, Holt und Holt-Winters Methoden.

Aufgabenstellung
• Erläuterung der typischen Muster bei Zeitreihen
• Einführung und Erläuterung in das exponentielle Glätten
• Einführung und Erläuterung der Holt und Holt-Winters Methoden für Prognosebildung bei Zeitreihen mit
   einem Trend und mit einem saisonalen Muster
• Anwendung der vorgestellten Verfahren

Ausgangsliteratur
  John E. Hanke, Dean W. Wichern, 2009, Business Forecasting, Pearson Spyros Makridakis, Steven C.
   Wheelwright, Rob. J. Hyndman, 1998, Forecasting: methods and applications, Wiley
  Rob J. Hyndman & George Athanasopoulos, Forecasting: Principles and Practice,
   https://otexts.com/fpp3/
  Eigene Recherche

Betreuer: Yarema Okhrin
2. Spektrale Risikomaße: Konzeption und
           betriebswirtschaftliche Anwendungen

Zur Regulierung des Bankensektors sind Maßzahlen erforderlich, die eine risikoadjustierte
Quantifizierung der vorzuhaltenden Eigenmittel ermöglichen. Durch sinnvolle Forderungen
(Axiome) wurden „kohärente“ Risikomaße definiert. Der bekannte Conditional Value-at-Risk
gehört zu dieser Klasse von Risikomaßen. Er wird von wissenschaftlicher Seite dem in der Praxis
benutztem (nichtkohärenten) Value-at-Risk vorgezogen. Eine wichtige Subklasse der kohärenten
Risikomaße bilden die spektralen Risikomaße.

Aufgabenstellung
• Darstellung und ausführliche Begründung der operationellen Vorteile der spektralen Risikomaße
• Betrachtung und Darstellung der Vor- und Nachteile der spektralen Risikomaße in Standard-
   Problemstellungen
• Diskussion der Eignung der Risikomaße in den Bereichen wie Portfoliobildung und Rückversicherung
• Darstellung und Vergleich der verschiedenen Risikomaße durch selbst gewählte Zahlenbeispiele und
   durch selbst gewählte Daten (mit Excel oder R möglich).

Ausgangsliteratur
  Brandtner, M. (2016), Spektrale Risikomaße: Konzeption, betriebswirtschaftliche Anwendungen und
   Fallstricke, Management Review Quarterly 66, S. 75-115.
  Eigene Recherche

Betreuer: Günter Bamberg (Autor des Statistik-Buches Bamberg/Baur/Krapp der Statistik-Vorlesungen)
Hinweis: Dieses Thema wird nur für den Vortragsort Teisendorf angeboten
3. Text Mining: Spam-Klassifikation von
         Textnachrichten

Spam-Nachrichten können einen erheblichen Schaden verursachen. Dieser entsteht durch den
zusätzlichen Aufwand für die Identifikation und Bearbeitung von Spam-Nachrichten, sowie durch
mögliche Schadsoftware, die über diesen Weg verbreitet werden kann. Sogenannte „Spam-Filter“
sollen Spam-Nachrichten automatisch identifizieren und deren Zustellung verhindern oder sie
entsprechend markieren. Grundlage dieser Verfahren sind statistische Methoden, wie zum
Beispiel das logistische Regressionsmodell.

Aufgabenstellung
• Stellen Sie Text-Mining Verfahren vor, mit denen Textdaten numerisch repräsentiert werden können.
• Präsentieren Sie das logistische Regressionsmodell, ein Machine Learning Verfahren zur Klassifikation
   von Daten.
• Klassifizieren Sie SMS-Nachrichten in Spam und Nicht-Spam und evaluieren Sie die Ergebnisse. Der
   Datensatz wird bereitgestellt.

Ausgangsliteratur
  Aggarwal, C. C., & Zhai, C. (Eds.). (2012). Mining text data. Springer Science & Business Media.
  Fahrmeir, L., Kneib, T., Lang, S., & Marx, B. (2007). Regression. Springer-Verlag Berlin Heidelberg.
  Salton, G., & McGill, M. J. (1983). Introduction to modern information retrieval. McGraw-Hill.
  Eigene Recherche.

Betreuerin: Ellena Nachbar

Hinweis: Dieses Thema wird nur für Bachelor-Studierende angeboten.
4. Nichtlineare Regression

Die nichtlineare Modellierung von Daten zählt zu einer der Standardaufgaben im Bereich Data
Science, denn nur selten variiert eine untersuchte Größe linear mit den Einflussgrößen. Dies
erfordert Methoden, die nichtlineare Zusammenhänge in Datensätzen erkennen und modellieren
können. Manchmal reichen einfache Transformationen der Daten aus, um im Rahmen einer
Regressionsanalyse die nichtlinearen Zusammenhänge zu modellieren. Eine weitaus flexiblere
Methoden stellt aber die nichtparametrische Regression dar, die eine Schätzung des funktionalen
Zusammenhangs anhand von Daten ermöglicht. Ein simples aber effektives Verfahren in diesem
Zusammenhang beruht auf dem Nadaraya-Watson-Schätzer.

Aufgabenstellung
• Illustrieren Sie Situationen, in denen die lineare Regression zu unbefriedigenden Ergebnissen führt.
• Stellen Sie verschiedene Möglichkeiten vor, wie nichtlineare Zusammenhänge im Regressionskontext
   modelliert werden können.
• Führen Sie den Nadaraya-Watson-Schätzer aus der nichtparametrischen Regression ein und gehen Sie
   auf verschiedene Probleme, wie die Wahl der optimalen Bandweite h, die Wahl des optimalen Kerns oder
   den „boundary effect“ ein.
• Veranschaulichen Sie die Anwendung der nichtlinearen Regressionsmethoden mithilfe einer
   Datenanalyse.

Ausgangsliteratur
  Härdle, W.K., Müller, M., Sperlich, S., Werwatz, A. 2004. Nonparametric and Semiparametric Models.
   Springer Series in Statistics.
  Dette H. 1992. On the Boundary Behaviour of Nonparametric Regression Estimators. Biometrical Journal
   34 (2):153-164.
  Eigene Recherche.

Betreuerin: Ellena Nachbar
5. Wenn der Schein trügt: Fantastische
         Klassifikationsgüte … oder doch nicht?

Sie arbeiten an einer Datenanalyse. Sie erstellen ein binäres Klassifikationsmodell und erhalten
eine Klassifikationsgüte von 90%. "Fantastisch", denken Sie. Dann tauchen Sie ein wenig tiefer
ein und stellen fest, dass 90% der Beobachtungen zu einer Klasse gehören. Verdammt! – Was
nun?

Aufgabenstellung
• Ein binäres Klassifikationsmodell (z.B. CART, o.a.) soll für verschiedene unausgewogene Datensätze
   gefittet werden.
• Welchen Effekt zeigen unterschiedliche Verfahren (u.a. Downsampling, Upsampling, SMOTE, …) im
   Umgang mit unausgewogenen Gruppengrößen.
• Die Umsetzung erfolgt mit R.

Ausgangsliteratur
  SMOTE: https://www.jair.org/index.php/jair/article/download/10302/24590
  https://machinelearningmastery.com/what-is-imbalanced-classification/ (Blog Jason Brownlee, mit
   Literaturverweisen)
  https://machinelearningmastery.com/tactics-to-combat-imbalanced-classes-in-your-machine-learning-
   dataset/ (Blog Jason Brownlee)
  Eigene Recherche.

Betreuerin: Anett Wins

Hinweis: Dieses Thema wird nur für Bachelor-Studierende angeboten.
6. Spannung, Spiel und … – Vom Öffnen der Black
         Box mit LIME und SHAP

Ein präzise prognostizierendes ML-Modell ist nützlich. Eines, das erklärt, warum es die
Vorhersage trifft, ist nützlicher. Heutzutage ist die Kompromissbereitschaft zwischen Genauigkeit
und Interpretierbarkeit von Vorhersagemodellen überflüssig. Es gibt inzwischen Ansätze, um
präzise ML-Prognosen zu erstellen und gleichzeitig um menschliches Verständnis und Vertrauen
in diese komplexen Systeme zu ermöglichen.

Aufgabenstellung
• Angepasst werden soll ein ML Modell, z.B. Random Forests.
• Die Modellprognosen sollen vergleichend mit LIME und SHAP interpretierbar gemacht werden.
• Die Umsetzung erfolgt mit R.

Ausgangsliteratur
  Christoph Molnar, “Interpretable Machine Learning: A Guide for making black box models explainable":
   https://christophm.github.io/interpretable-ml-book/
  Marco Tulio Ribeiro, Sameer Singh, Carlos Guestrin, “Why Should I Trust You?: Explaining the
   Predictions of Any Classifier”, arXiv:1602.04938 [cs.LG]
  Shapley, Lloyd S. “A value for n-person games.” Contributions to the Theory of Games 2.28 (1953): 307-
   317
  Eigene Recherche.

Betreuerin: Anett Wins

Hinweis: Dieses Thema wird für Master-Studierende angeboten.
7. Regularisierung und Resampling Methoden im
         Machine Learning

Im Machine-Learning (ML) bezeichnet der Bias-Variance Trade-off (deutsch: Verzerrung – Varianz
Dilemma) das Phänomen, dass sich Verzerrung und Empfindlichkeit gegenüber Rauschen in den
Trainingsdaten in einem Trade-off Verhältnis befinden, wenn es zur Minimierung dieser
Fehlerquellen kommt. Während unflexible ML Modelle oftmals zu hohen Bias aber geringer
Varianz neigen, ist bei komplexen ML Modellen das Gegenteil der Fall. Hier kann es zu einer
Überanpassung an die Trainingsdaten kommen, was allgemein als „Overfitting“ bzw. „Model
Overfit“ bezeichnet wird. Um dies zu verhindern, stehen dem ML Anwender verschiedene
bewährte Methoden zur Verfügung.
Aufgabenstellung
• Anschauliche Darlegung der Probleme, welche sich aus Overfitting und dem Bias-Variance Trade-off
   ergeben.
• Einführung in die Regularisierung und Vorstellung von Resampling Methoden
• Beispielhafte Anwendung dieser Methoden in R oder Python

Ausgangsliteratur
  Gareth James, Daniela Witten, Trevor Hastie, and Robert Tibshirani. 2014. An Introduction to Statistical
   Learning: with Applications in R. Springer Publishing Company, Incorporated.
  Eigene Recherche.

Betreuer: Jonathan Pfahler

Hinweis: Dieses Thema wird für Master-Studierende angeboten.
8. Der Bullwhip Effekt

Der sogenannte Bullwhip Effekt ist ein zentrales Problem in Lieferketten. Der Effekt beschreibt
den Umstand, dass Nachfrageschwankungen immer größer werden, je weiter man sich in der
Lieferkette aufwärts, d. h. zur Quelle der Produkterzeugung, bewegt. Treten marginale
Veränderungen in der Nachfrage des Kunden auf, so kann dies gravierende Schwankungen auf
Seiten des Herstellers zur Folge haben. Der Effekt wurde zwar in den letzten Jahrzehnten
intensiv erforscht, weshalb auch die Hauptursachen für das Auftreten des Effekts bekannt sind, er
stellt jedoch ungeachtet dessen immer noch ein zentrales Problem für das Management der
Lieferketten dar.

Aufgabenstellung
 Einführung und Erläuterung des Bullwhip Effekts.
 Vorstellung der Hauptursachen für das Auftreten des Effekts.
 Vorstellung und Erläuterung adäquater Strategien zur Abschwächung des Bullwhip Effekts anhand
    eines exemplarischen Beispiels.

Ausgangsliteratur
 Lee et al. (1997) The bullwhip effect in supply chains, Sloan management review 38: 93-102
 Eigene Recherche (nach Absprache mit dem Betreuer)

Betreuer: Deniz Preil
9. Naturanaloge Verfahren zur Lösung
        ökonomischer Problemstellungen

Naturanaloge Verfahren sind i. d. R. Heuristiken, die in der Natur beobachtbare Phänomene als
Optimierungsprozesse auffassen und deren Grundprinzipien zur Lösung mathematischer
Planungsprobleme adaptieren. Ein sehr populäres Verfahren ist der sogenannte
Ameisenalgorithmus, welcher sich am Verhalten von Ameisen in der Natur orientiert und mit
dessen Hilfe es möglich ist, eine Vielzahl von ökonomischen Problemstellungen (heuristisch) zu
lösen wie zum Beispiel kürzeste Wegeprobleme oder das populäre Traveling Salesman Problem.
Darüber hinaus existieren zahlreiche weitere naturanaloge Verfahren, wie zum Beispiel
Genetische Algorithmen, welche sich am Evolutionsprozess der Natur orientieren und eine
bedeutende Rolle im Kontext vom Planungsproblemen einnehmen.

Aufgabenstellung
 Überblick über naturanaloge Verfahren zur Lösung ökonomischer Problemstellungen.
 Vorstellung und Erläuterung eines ausgewählten naturanalogen Verfahrens.
 Anwendung des Verfahrens auf ein ausgewähltes Beispiel.

Ausgangsliteratur
 Eigene Recherche (nach Absprache mit dem Betreuer)

Betreuer: Deniz Preil
Hinweis: Dieses Thema richtet sich insbeondere an Bachelorstudierende,
         kann aber auch von Masterstudierenden bearbeitet werden.
10. Spieltheoretische Lösungskonzepte zur fairen
         Ressourcenaufteilung in
         Entscheidungsproblemen

Die Qualität einer adäquaten Planung in einem Entscheidungsproblem ist i.d.R. nicht nur von
einem (planenden) Akteur abhängig, sondern wird vielmehr durch das Zusammenspiel mehrerer
(planender) Akteure beeinflusst. Eine für alle Akteure zufriedenstellende (oftmals optimale)
Lösung lässt sich in vielen Fällen insbesondere durch Kooperation erreichen. In diesem Kontext
stellt sich jedoch die Frage: Wie sollen beispielsweise Kosten oder Gewinne fair aufgeteilt
werden? Ist die die Bildung einer Koalition zur Koordination stabil oder existieren Anreize zum
Abweichen?

Aufgabenstellung
 Einführung in die spieltheoretische Problemstellung.
 Vorstellung und Erläuterung relevanter spieltheoretischer Lösungskonzepte.
 Anwendung auf ausgewählte Beispiele:
      Im Bachelor: Einstufige Planungsprobleme (bzw. einstufige Spiele).
      Im Master: Mehrstufige Planungsprobleme (bzw. mehrstufige Spiele).

Ausgangsliteratur
 Holler, Gerhard (2009): Einführung in die Spieltheorie, Springer
 Eigene Recherche

Betreuer: Deniz Preil
11. Künstliche Intelligenz: Eine exemplarische
         Vorstellung anhand strategischer Spiele

Der Begriff Künstliche Intelligenz (KI) umfasst ein breites Forschungsfeld, dessen Ziel es unter anderem
ist, intelligentes menschliches Verhalten durch Algorithmen abzubilden oder ggfs. sogar zu verbessern.
Eine allgemeingültige Definition des Begriffs scheitert jedoch bereits an der fehlenden Definition des
Begriffs „Intelligenz“ bzw. „intelligentes menschliches Verhalten“. Unabhängig davon ist KI ein weit
verbreiteter Begriff in den Medien, der in Zukunft gemäß zahlreichen Berichten fast alle Lebensbereiche
durchdringen wird. Die durch Algorithmen abgebildete „Intelligenz“ zu erfassen, gestaltet sich dabei in
der Regel als sehr schwierig, weshalb häufig strategische Spiele wie z.B. Schach oder Go als
Anwendungsbeispiele herangezogen werden. Bei diesen Spielen handelt es sich um sogenannte
Zweipersonen-Nullsummenspiele, in welchen ein KI-gesteuertes Programmgegen einen Menschen
antritt, um eine etwaige Überlegenheit der KI zu demonstrieren

Aufgabenstellung
   Vorstellung geeigneter Verfahren z.B.:
         Alpha Beta Pruning
         Monte Carlo Tree Search
   Erläuterung und Vergleich der Verfahren.
   Für Masterstudierende: Implementierung der Verfahren anhand eines ausgewählten Beispiels.
   Gewähren eines Überblicks über die Anwendungsbereiche der vorgestellten Verfahren.

Ausgangsliteratur
  Russell, Norvig (2016) Artificial intelligence: a modern approach. Pearson Education Limited
  Browne et al. (2012) A survey of monte carlo tree search methods. IEEE Transactions on Computational
   Intelligence and AI in games 4.1: 1-43
  Eigene Recherche

Betreuer: Deniz Preil
12. Aufdeckung von Bilanzbetrug:
         Das Benford Gesetz

Das Benford Gesetz ist eine Gesetzmäßigkeit, welche das vermehrte Auftreten von niedrigen
Anfangsziffern in Zahlen insbesondere in großen Datensätzen beschreibt. Beispielsweise ist die
Wahrscheinlichkeit für das Auftreten der Anfangsziffer "1" über sechs mal höher als das Auftreten
der Anfangsziffer "9". Die Gesetzmäßigkeit findet sich in zahlreichen Bereichen wie zum Beispiel
Naturkonstanten, Bevölkerungszahlen oder willkürlichen Datensätzen wie den numerischen
Werten aus einer Zeitung wieder. Von großem Nutzen ist das Gesetz insbesondere bei der
Aufdeckung von Bilanzbetrug.

Aufgabenstellung
 Vorstellung des Benford Gesetzes und Herleitung der zugrunde liegenden Benford-Verteilung.
 Gewähren eines Überblicks über die Anwendungen zur Betrugsaufdeckung.
 Vorstellung der wichtigsten statistischen Verfahren zur Überprüfung von Datensätzen auf die
    Benford-Verteilung.
 Anwendung dieser Verfahren auf selbstgewähltes (Betrugs-)Beispiel.

Ausgangsliteratur
 Benford (1938): The Law of Anomalous Numbers, Proceedings of the American Philosophical
   Society 78: 551—572
 Krämer (2011): Denkste!: Trugschlüsse aus der Welt der Zahlen und des Zufalls, Piper
 Eigene Recherche

Betreuer: Deniz Preil
Hinweis: Dieses Thema richtet sich ausschließlich an Bachelor-Studierende und
         wird nur am Vortragsort Teisendorf angeboten.
13. Zur ökonomischen Bedeutung von
         Wirtschaftskriminalität: Methoden und Techniken
         der forensischen Ermittlung

Die jährlich aus Wirtschaftskriminalität resultierenden Schäden betragen nach Angaben des
Bundeskriminalamts mehr als die Hälfte des in Deutschland erfassten Gesamtschadens.
Demgegenüber beläuft sich die Anzahl doloser Handlungen lediglich auf ein Prozent der jährlich
begangenen Straftaten. Die Aufdeckung derartiger Betrugsfälle ähnelt demnach häufig der Suche
nach der „Nadel im Heuhaufen“. Zur Bekämpfung bedienen sich die Ermittler neben Methoden
der Ziffernanalyse (Benford-Gesetz) insbesondere sogenannten „Lern-Verfahren“, welche
basierend auf Daten selbst in der Lage sind, kriminelle Handlungen zu identifizieren. Ziel dieser
Arbeit ist es, einen Überblick über etablierte Formen von wirtschaftskriminellen Handlungen
auszuarbeiten und diese ferner anhand ausgewählter quantitativer Methoden und einem
ausgewählten Beispiel (z. B. Kreditkartenbetrug) zu untersuchen.

Aufgabenstellung
 Einführung und Erläuterung von ausgewählten Lern-Verfahren (überwachtes Lernen)
    insbesondere der Klassifikation zur Unterscheidung – Betrug/ kein Betrug.
 Anwendung dieser Verfahren auf selbstgewähltes (Betrugs-)Beispiel (z. B. Kreditkartenbetrug)

Ausgangsliteratur
 Bhattacharyya et al. "Data mining for credit card fraud: A comparative study." Decision Support
   Systems 50.3 (2011): 602-613
 Eigene Recherche

Betreuer: Deniz Preil
Hinweis: Dieses Thema wird nur am Vortragsort Teisendorf angeboten.
14. Data Analysis mit PCA

Hauptkomponentenanalyse (engl. Principal Component Analysis) ist eine der am meisten
verwendete und bekannte Methode in Data Analysis sowie auch Unsupervised Machine Learning.
Im Grunde genommen ist PCA ein Ansatz zur Dimensionsreduktion, wodurch Probleme mit einer
großen Anzahl an potentieller Regressoren sich auf deutlich zugängliche Modellierungen
reduzieren lassen.

Aufgabenstellung
 Definition von PCA, insb. Der Zusammenhang mit Varianz- und Faktorenanalyse.
 Wann ist die Anwendung sinnvoll, was sind Vor- und Nachteile?
 Untersuchung und Vergleich Modelle mit verschiedener Anzahl der Komponenten mittels einer Anwendung
  in R.
 Datengrundlage ist ein beliebiger Datensatz (z.B. von Kaggle).

Ausgangsliteratur
 Trevor Hastie, Robert Tibshirani, Jerome Friedman, "The Elements of Statistical Learning: Data Mining,
  Inference, and Prediction", Second Edition, Springer-Verlag, 2001.
 Ian Jolliffe, „Principal Component Analysis“, Second Edition, Springer-Verlag, 2002.
 Eigene Recherche

Betreuer: Eugen Ivanov
15. Machine Learning mit LASSO

Parameterschätzungen von OLS Regressionsmodellen sind zwar oftmals erwartungstreu, aber
auch sehr ungenau. Zudem ist vor allem bei großen Datensätzen die Anzahl an zu schätzenden
Parametern problematisch und oft ist eine Einschränkung der Anzahl von Regressoren
wünschenswert. Es existieren verschiedene Methoden der Regression, die diese Nachteile
beheben, unter ihnen den „Least Absolute Shrinkage and Selection Operator“ (LASSO).

Aufgabenstellung
 Was ist LASSO, wie ist der Zusammenhang mit anderen Machine Learning Methoden, insb. Ridge
  Regression?
 Wann ist die Anwendung sinnvoll, was sind Vor- und Nachteile?
 Untersuchung und Vergleich der verschiedenen Methoden mittels einer Anwendung in R.
 Datengrundlage ist ein beliebiger Datensatz (z.B. von Kaggle).

Ausgangsliteratur
 Robert Tibshirani, 2011. "Regression shrinkage and selection via the lasso: a retrospective", Journal Of
  The Royal Statistical Society Series B, Royal Statistical Society, vol. 73(3), pages 273-282, 06.
 Trevor Hastie, Robert Tibshirani, Jerome Friedman, "The Elements of Statistical Learning: Data Mining,
  Inference, and Prediction", Second Edition, Springer-Verlag, 2001.
 Hui Zou & Trevor Hastie, 2005. "Regularization and variable selection via the elastic net", Journal Of The
  Royal Statistical Society Series B, Royal Statistical Society, vol. 67(2), pages 301-320.
 Eigene Recherche

Betreuer: Eugen Ivanov
16. Scheinkorrelation und –regression

Eine starke Korrelation zwischen zwei Variablen impliziert nicht notwendigerweise auch eine Kausalität.
Dieses als Scheinkorrelation bekannte Phänomen tritt z. B. bei den Variablen „Geburtenrate“ und
„Anzahl der Störche“ auf. (Für weitere Beispiele siehe https://www.tylervigen.com/spurious-correlations)
Weiterhin werden Regressionen verwendet, um Zusammenhänge in Zeitreihen zu erklären und
Prognosen zu bilden: so galt beispielsweise die Dividendenrendite lange Zeit als hervorragende
Prognosevariable für zukünftige Aktienrenditen. Der Artikel von Granger und Newbold (1974)
erschütterte die Ökonometrie damit, dass er Anlass zu der Vermutung gab, dass die „Signifikanz“ von
zahlreichen Prognosevariablen lediglich auf Scheinregressionen zurückzuführen war.

Aufgabenstellung
     • Der Begriff “Scheinkorrelation” soll erklärt und anhand verschiedener Beispiele illiustriert warden.
     • Das Problem der Scheinregression bei Zeitreihen soll erläutert werden, wobei insbesondere auf die
        Problematik bei hoher Autokorrelation der Prognosevariable eingegangen werden soll .
     • Mögliche Lösungen für das Scheinregressionsproblem sollen diskutiert werden.
     • Auf Basis eines Datensatzes und/oder einer Simulation mit R (ähnlich zu jener von Granger und
        Newbold) soll eine eigene Analyse durchgeführt werden.

Ausgangsliteratur
• Granger, C.W.J., Newbold P. (1974), Spurious Regressions in Econometrics, Journal of Econometrics
• Matthews, Robert. "Storks deliver babies (p= 0.008)." Teaching Statistics 22.2 (2000): 36-38.
• Eigene Recherche.

Betreuer: Dominik Schneller
17. Analyse- und Prognosemethoden im
           linearen Regressionsmodell – Anwendung
           unter Verwendung von Investorenstimmungen
Ob die Stimmung von Investoren (“investor sentiment”) einen Einfluss auf zukünftige Renditen
besitzt, ist eine aktuelle Forschungsfrage der Finance. Dieser Frage kann mittels eines
Regressionsmodells zunächst im Rahmen einer In-Sample-Analyse unter Verwendung des
Bestimmtheitsmaßes R2 oder der Informationskriterien AIC und BIC nachgegangen werden.
Weiterhin werden zur Beurteilung der Signifikanz der verwendeten Variablen der t-Test sowie der
F-Test verwendet.
Darüber hinaus können In-Sample gefittete Modelle zur Beurteilung der Out-of-Sample
Prognosekraft verwendet werden und anhand der Prognosefehler und darauf aufbauender Tests
verglichen werden.

Aufgabenstellung
   Es ist empirisch zu untersuchen, ob Investor Sentiment einen Einfluss auf zukünftige Renditen
    bestitzt. Dazu sollen zunächst in einer IS-Analyse anhand der beschriebenen Kriterien die
    „besten“ Modelle ausgewählt werden.
   Diese werden im OOS-Vergleich der Prognosekraft mittels geeigneter Kennzahlen und
    statistischer Tests verglichen.
   Die nötigen Berechnungen und Tests müssen mittels der freien Statistik-Software „R“ durchgeführt
    werden.

Ausgangsliteratur
   Schmeling, Maik. (2007) "Institutional and individual sentiment: Smart money and noise trader
    risk?." International Journal of Forecasting 23.1: 127-145.
   Weitere selbst recherchierte Literatur

Betreuer: Dominik Schneller
18. Datenvisualisierung in Python

In der Aufbereitung und Auswertung von Daten ist es grundlegend wichtig sich ein Bild von dem
zugrundeliegenden Datensatz und den späteren Resultaten zu machen. So kann u.a. die Struktur
der Daten erkannt werden und auf mögliche Muster eingegangen werden. Je nach Bedarf gibt es
unterschiedliche Visualisierungsmethoden (Histogramme, Boxplotts, Streudiagramme,…), deren
einfache Implementierung mit den Python Libraries Seaborn und Matplotlib möglich ist..

Aufgabenstellung
• Verwenden sie den Boston House Prices Datensatz zur Erstellung geeigneter Seaborn / Matplotlib Plots.
• Erklären Sie die verwendete Methode, vergleichen Sie diese mit anderen Methoden und illustrieren sie
   den individuellen Vorteil der Methode.
• Erklären Sie, welche Erkenntnisse sich aus den von Ihnen gewählten Plots für den Boston House Prices
   Datensatz ziehen lassen.
• Der Boston House Prices Datensatz lässt sich mithilfe der Scikit-Learn Library laden
   (sklearn.datasets.load_boston, siehe Dokumentation).

Ausgangsliteratur
  Waskom, M. (2012) Seaborn: Statistical Data Visualisation. Abgerufen 22.01.2020.
   https://seaborn.pydata.org
  Hunter, J., Dale, D., Firing, E., Droettboom M. (2012). Matplotlib. Abgerufen 22.01.2020.
   https://matplotlib.org
  Eigene Recherche.

Betreuer: Jonathan Pfahler

Hinweis: Dieses Thema wird nur für Bachelor-Studierende angeboten.
Sie können auch lesen