VERANSTALTUNGEN DATA SCIENCE & DECISION SCIENCE UND ARTIFICIAL INTELLIGENCE IM SOSE2020
←
→
Transkription von Seiteninhalten
Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten
Was Wann Wo Hochaktuelle Fragestellungen aus dem Bereich Data Science, Decision Science und Artificial Intelligence Neben der Bearbeitung fachlicher Inhalte steht auch die freie Rede und Präsentation eines Themas sowie der fachliche und persönliche Austausch mit Studierenden ähnlicher Interessen im Fokus Leistung kann im Wesentlichen auch bereits in der vorlesungsfreien Zeit erbracht werden Alternativ in Augsburg oder in Teisendorf Vorträge im Zweierteam Möglichkeit 1: 20.05-24.05.2020 Ederhof im oberbayerischen Teisendorf Unterbringung in Ferienwohnungen auf dem Ederhof Kosten für Unterbringung mit Frühstück: 125 Euro pro Person Möglichkeit 2 (In Augsburg, voraussichtlich in zeitlich unmittelbarer Nähe zur Veranstaltung in Teisendorf (Woche davor/Woche danach)
Impressionen
Themenübersicht 1. Prognoseverfahren für saisonale Daten und Daten mit Trend 2. Spektrale Risikomaße: Konzeption und betriebswirtschaftliche Anwendungen 3. Text Mining: Spam-Klassifikation von Textnachrichten 4. Nichtlineare Regression 5. Wenn der Schein trügt: Fantastische Klassifikationsgüte … oder doch nicht? 6. Spannung, Spiel und … – Vom Öffnen der Black Box mit LIME und SHAP 7. Regularisierung und Resampling Methoden im Machine Learning 8. Der Bullwhip Effekt 9. Naturanaloge Verfahren zur Lösung ökonomischer Problemstellungen 10. Spieltheoretische Lösungskonzepte zur fairen Ressourcenaufteilung in Entscheidungsproblemen 11. Künstliche Intelligenz: Eine exemplarische Vorstellung anhand strategischer Spiele 12. Aufdeckung von Bilanzbetrug: Das Benford Gesetz 13. Zur ökonomischen Bedeutung von Wirtschaftskriminalität: Methoden und Techniken der forensischen Ermittlung 14. Data Analysis mit PCA 15. Machine Learning mit LASSO 16. Scheinkorrelation und –regression 17. Analyse- und Prognosemethoden im linearen Regressionsmodell – Anwendung unter Verwendung von Investorenstimmungen 18. Datenvisualisierung in Python
Einbringbarkeiten (Master) BWL und EPP (PO 2017): Major/Minor Finance & Information, Major/Minor Operations & Information sowie General Management & Economics GBM (PO 2011): Methoden DFM (PO 2011): Cluster Finance & Information Management und Cluster Operations & Information Management ReWi: SP: Bank, Kapitalmarkt und Finanzmanagement Informatik & Informationswirtschaft: Finance & Information WIN (PO 2017): Major/Minor: Operations, Finanz- und Informationsmanagement WING (PO 2014): Modulgruppe B: Major Management and Sustainability WIMA (PO 2013): Modulgruppe C1 (Finance & Information Management bzw. Modulgruppe C3 (Operations & Information Management) Master Mathe, Gruppe E-W: Nebenfach WiWi
Bewerbungsverfahren Bewerbung ab sofort bis spätestens 29.02.2020 möglich Die Auswahl und Themenvergabe erfolgt nach Leistungskriterien: Jede Bewerberin/Jeder Bewerber muss daher neben seiner Online-Bewerbung während der Bewerbungsfrist einen aktuellen, vollständigen Studis-Auszug per Mail an karin.wuensch@wiwi.uni-augsburg.de schicken. Excel-Vorlage zur Bewerbung auf der Website des Lehrstuhl Okhrin (diese wird ab Beginn der Reading-Week verfügbar sein) Hierbei muss jedes Team eine Präferenzordnung von bis zu 5 Themen angeben Somit werden wir versuchen, den Nutzen zu maximieren: Teams, welche ausgewählt wurden und nicht ihre Erstpräferenz bekommen, werden möglichst ihre nächste Präferenz(en) angeboten bekommen, falls sie ausgewählt wurden. Bewerbungen als Zweierteam werden präferiert behandelt: Hierbei sind als Team nur Gruppenzusammensetzungen Bachelor+Bachelor bzw. Master + Master möglich Jedes Thema wird pro Ort (Teisendorf/Augsburg) höchstens einmal vergeben Die Themen 2, 12, 13 werden nur für Teisendorf vergeben Themen- und Ortzusage bereits Anfang März 2019 Ab Anfang März 2020 kann (aber muß nicht!) bereits mit der Themenbearbeitung begonnen werden und ein Großteil des Arbeitsaufwandes kann somit bereits in der Vorlesungsfreien Zeit erbracht werden und entlastet das Semester
Hinweise zur Prüfungsleistung Die Prüfungsleistung besteht ausschließlich aus einem Vortrag im Zweier-Team, gestützt auf eine Präsentation Zu den Vorträgen: Vorträge im Zweierteam, frei gehalten Zieldauer 60 Minuten (gleichmäßig auf beide Seminaristen aufgeteilt), anschließend Diskussion Beamer und 2 Notebooks vorhanden: eigene Notebooks mitbringen ist nicht notwendig. Kein Overheadprojektor, Flipchart o. Ä. Für das gesamte Publikum, nicht nur die Dozenten Handouts nicht erforderlich Die Präsentation ist als wissenschaftliche Leistung in Präsentationsform zu betrachten! Teilnahme an der Diskussion; Abgabe der Präsentation ausschließlich in digitaler Form bis (inklusive) 11.05.2020, 12:00 Uhr Gehalten werden die Vorträge mit den am 11.05.2019 abgegebenen Präsentationen.
1. Prognoseverfahren für saisonale Daten und Daten mit Trend Viele Daten zeigen bestimmte saisonale Muster. Zum Beispiel ist die Nachfrage nach neuen PKWs im Frühjahr höher als im Herbst; Immobilien werden häufiger im Sommer und Kosmetikprodukte vor Weihnachten gekauft. Diese Informationen können Unternehmen für eine bessere Planung effizient nutzen, indem sie die Nachfrage mit statistischen Methoden präzise vorhersagen. Im Rahmen des Themas sollen auf der exponentiellen Glättung basierende Verfahren vorgestellt und auf reelle Daten angewendet werden. Zu den Verfahren gehören EWMA, Holt und Holt-Winters Methoden. Aufgabenstellung • Erläuterung der typischen Muster bei Zeitreihen • Einführung und Erläuterung in das exponentielle Glätten • Einführung und Erläuterung der Holt und Holt-Winters Methoden für Prognosebildung bei Zeitreihen mit einem Trend und mit einem saisonalen Muster • Anwendung der vorgestellten Verfahren Ausgangsliteratur John E. Hanke, Dean W. Wichern, 2009, Business Forecasting, Pearson Spyros Makridakis, Steven C. Wheelwright, Rob. J. Hyndman, 1998, Forecasting: methods and applications, Wiley Rob J. Hyndman & George Athanasopoulos, Forecasting: Principles and Practice, https://otexts.com/fpp3/ Eigene Recherche Betreuer: Yarema Okhrin
2. Spektrale Risikomaße: Konzeption und betriebswirtschaftliche Anwendungen Zur Regulierung des Bankensektors sind Maßzahlen erforderlich, die eine risikoadjustierte Quantifizierung der vorzuhaltenden Eigenmittel ermöglichen. Durch sinnvolle Forderungen (Axiome) wurden „kohärente“ Risikomaße definiert. Der bekannte Conditional Value-at-Risk gehört zu dieser Klasse von Risikomaßen. Er wird von wissenschaftlicher Seite dem in der Praxis benutztem (nichtkohärenten) Value-at-Risk vorgezogen. Eine wichtige Subklasse der kohärenten Risikomaße bilden die spektralen Risikomaße. Aufgabenstellung • Darstellung und ausführliche Begründung der operationellen Vorteile der spektralen Risikomaße • Betrachtung und Darstellung der Vor- und Nachteile der spektralen Risikomaße in Standard- Problemstellungen • Diskussion der Eignung der Risikomaße in den Bereichen wie Portfoliobildung und Rückversicherung • Darstellung und Vergleich der verschiedenen Risikomaße durch selbst gewählte Zahlenbeispiele und durch selbst gewählte Daten (mit Excel oder R möglich). Ausgangsliteratur Brandtner, M. (2016), Spektrale Risikomaße: Konzeption, betriebswirtschaftliche Anwendungen und Fallstricke, Management Review Quarterly 66, S. 75-115. Eigene Recherche Betreuer: Günter Bamberg (Autor des Statistik-Buches Bamberg/Baur/Krapp der Statistik-Vorlesungen) Hinweis: Dieses Thema wird nur für den Vortragsort Teisendorf angeboten
3. Text Mining: Spam-Klassifikation von Textnachrichten Spam-Nachrichten können einen erheblichen Schaden verursachen. Dieser entsteht durch den zusätzlichen Aufwand für die Identifikation und Bearbeitung von Spam-Nachrichten, sowie durch mögliche Schadsoftware, die über diesen Weg verbreitet werden kann. Sogenannte „Spam-Filter“ sollen Spam-Nachrichten automatisch identifizieren und deren Zustellung verhindern oder sie entsprechend markieren. Grundlage dieser Verfahren sind statistische Methoden, wie zum Beispiel das logistische Regressionsmodell. Aufgabenstellung • Stellen Sie Text-Mining Verfahren vor, mit denen Textdaten numerisch repräsentiert werden können. • Präsentieren Sie das logistische Regressionsmodell, ein Machine Learning Verfahren zur Klassifikation von Daten. • Klassifizieren Sie SMS-Nachrichten in Spam und Nicht-Spam und evaluieren Sie die Ergebnisse. Der Datensatz wird bereitgestellt. Ausgangsliteratur Aggarwal, C. C., & Zhai, C. (Eds.). (2012). Mining text data. Springer Science & Business Media. Fahrmeir, L., Kneib, T., Lang, S., & Marx, B. (2007). Regression. Springer-Verlag Berlin Heidelberg. Salton, G., & McGill, M. J. (1983). Introduction to modern information retrieval. McGraw-Hill. Eigene Recherche. Betreuerin: Ellena Nachbar Hinweis: Dieses Thema wird nur für Bachelor-Studierende angeboten.
4. Nichtlineare Regression Die nichtlineare Modellierung von Daten zählt zu einer der Standardaufgaben im Bereich Data Science, denn nur selten variiert eine untersuchte Größe linear mit den Einflussgrößen. Dies erfordert Methoden, die nichtlineare Zusammenhänge in Datensätzen erkennen und modellieren können. Manchmal reichen einfache Transformationen der Daten aus, um im Rahmen einer Regressionsanalyse die nichtlinearen Zusammenhänge zu modellieren. Eine weitaus flexiblere Methoden stellt aber die nichtparametrische Regression dar, die eine Schätzung des funktionalen Zusammenhangs anhand von Daten ermöglicht. Ein simples aber effektives Verfahren in diesem Zusammenhang beruht auf dem Nadaraya-Watson-Schätzer. Aufgabenstellung • Illustrieren Sie Situationen, in denen die lineare Regression zu unbefriedigenden Ergebnissen führt. • Stellen Sie verschiedene Möglichkeiten vor, wie nichtlineare Zusammenhänge im Regressionskontext modelliert werden können. • Führen Sie den Nadaraya-Watson-Schätzer aus der nichtparametrischen Regression ein und gehen Sie auf verschiedene Probleme, wie die Wahl der optimalen Bandweite h, die Wahl des optimalen Kerns oder den „boundary effect“ ein. • Veranschaulichen Sie die Anwendung der nichtlinearen Regressionsmethoden mithilfe einer Datenanalyse. Ausgangsliteratur Härdle, W.K., Müller, M., Sperlich, S., Werwatz, A. 2004. Nonparametric and Semiparametric Models. Springer Series in Statistics. Dette H. 1992. On the Boundary Behaviour of Nonparametric Regression Estimators. Biometrical Journal 34 (2):153-164. Eigene Recherche. Betreuerin: Ellena Nachbar
5. Wenn der Schein trügt: Fantastische Klassifikationsgüte … oder doch nicht? Sie arbeiten an einer Datenanalyse. Sie erstellen ein binäres Klassifikationsmodell und erhalten eine Klassifikationsgüte von 90%. "Fantastisch", denken Sie. Dann tauchen Sie ein wenig tiefer ein und stellen fest, dass 90% der Beobachtungen zu einer Klasse gehören. Verdammt! – Was nun? Aufgabenstellung • Ein binäres Klassifikationsmodell (z.B. CART, o.a.) soll für verschiedene unausgewogene Datensätze gefittet werden. • Welchen Effekt zeigen unterschiedliche Verfahren (u.a. Downsampling, Upsampling, SMOTE, …) im Umgang mit unausgewogenen Gruppengrößen. • Die Umsetzung erfolgt mit R. Ausgangsliteratur SMOTE: https://www.jair.org/index.php/jair/article/download/10302/24590 https://machinelearningmastery.com/what-is-imbalanced-classification/ (Blog Jason Brownlee, mit Literaturverweisen) https://machinelearningmastery.com/tactics-to-combat-imbalanced-classes-in-your-machine-learning- dataset/ (Blog Jason Brownlee) Eigene Recherche. Betreuerin: Anett Wins Hinweis: Dieses Thema wird nur für Bachelor-Studierende angeboten.
6. Spannung, Spiel und … – Vom Öffnen der Black Box mit LIME und SHAP Ein präzise prognostizierendes ML-Modell ist nützlich. Eines, das erklärt, warum es die Vorhersage trifft, ist nützlicher. Heutzutage ist die Kompromissbereitschaft zwischen Genauigkeit und Interpretierbarkeit von Vorhersagemodellen überflüssig. Es gibt inzwischen Ansätze, um präzise ML-Prognosen zu erstellen und gleichzeitig um menschliches Verständnis und Vertrauen in diese komplexen Systeme zu ermöglichen. Aufgabenstellung • Angepasst werden soll ein ML Modell, z.B. Random Forests. • Die Modellprognosen sollen vergleichend mit LIME und SHAP interpretierbar gemacht werden. • Die Umsetzung erfolgt mit R. Ausgangsliteratur Christoph Molnar, “Interpretable Machine Learning: A Guide for making black box models explainable": https://christophm.github.io/interpretable-ml-book/ Marco Tulio Ribeiro, Sameer Singh, Carlos Guestrin, “Why Should I Trust You?: Explaining the Predictions of Any Classifier”, arXiv:1602.04938 [cs.LG] Shapley, Lloyd S. “A value for n-person games.” Contributions to the Theory of Games 2.28 (1953): 307- 317 Eigene Recherche. Betreuerin: Anett Wins Hinweis: Dieses Thema wird für Master-Studierende angeboten.
7. Regularisierung und Resampling Methoden im Machine Learning Im Machine-Learning (ML) bezeichnet der Bias-Variance Trade-off (deutsch: Verzerrung – Varianz Dilemma) das Phänomen, dass sich Verzerrung und Empfindlichkeit gegenüber Rauschen in den Trainingsdaten in einem Trade-off Verhältnis befinden, wenn es zur Minimierung dieser Fehlerquellen kommt. Während unflexible ML Modelle oftmals zu hohen Bias aber geringer Varianz neigen, ist bei komplexen ML Modellen das Gegenteil der Fall. Hier kann es zu einer Überanpassung an die Trainingsdaten kommen, was allgemein als „Overfitting“ bzw. „Model Overfit“ bezeichnet wird. Um dies zu verhindern, stehen dem ML Anwender verschiedene bewährte Methoden zur Verfügung. Aufgabenstellung • Anschauliche Darlegung der Probleme, welche sich aus Overfitting und dem Bias-Variance Trade-off ergeben. • Einführung in die Regularisierung und Vorstellung von Resampling Methoden • Beispielhafte Anwendung dieser Methoden in R oder Python Ausgangsliteratur Gareth James, Daniela Witten, Trevor Hastie, and Robert Tibshirani. 2014. An Introduction to Statistical Learning: with Applications in R. Springer Publishing Company, Incorporated. Eigene Recherche. Betreuer: Jonathan Pfahler Hinweis: Dieses Thema wird für Master-Studierende angeboten.
8. Der Bullwhip Effekt Der sogenannte Bullwhip Effekt ist ein zentrales Problem in Lieferketten. Der Effekt beschreibt den Umstand, dass Nachfrageschwankungen immer größer werden, je weiter man sich in der Lieferkette aufwärts, d. h. zur Quelle der Produkterzeugung, bewegt. Treten marginale Veränderungen in der Nachfrage des Kunden auf, so kann dies gravierende Schwankungen auf Seiten des Herstellers zur Folge haben. Der Effekt wurde zwar in den letzten Jahrzehnten intensiv erforscht, weshalb auch die Hauptursachen für das Auftreten des Effekts bekannt sind, er stellt jedoch ungeachtet dessen immer noch ein zentrales Problem für das Management der Lieferketten dar. Aufgabenstellung Einführung und Erläuterung des Bullwhip Effekts. Vorstellung der Hauptursachen für das Auftreten des Effekts. Vorstellung und Erläuterung adäquater Strategien zur Abschwächung des Bullwhip Effekts anhand eines exemplarischen Beispiels. Ausgangsliteratur Lee et al. (1997) The bullwhip effect in supply chains, Sloan management review 38: 93-102 Eigene Recherche (nach Absprache mit dem Betreuer) Betreuer: Deniz Preil
9. Naturanaloge Verfahren zur Lösung ökonomischer Problemstellungen Naturanaloge Verfahren sind i. d. R. Heuristiken, die in der Natur beobachtbare Phänomene als Optimierungsprozesse auffassen und deren Grundprinzipien zur Lösung mathematischer Planungsprobleme adaptieren. Ein sehr populäres Verfahren ist der sogenannte Ameisenalgorithmus, welcher sich am Verhalten von Ameisen in der Natur orientiert und mit dessen Hilfe es möglich ist, eine Vielzahl von ökonomischen Problemstellungen (heuristisch) zu lösen wie zum Beispiel kürzeste Wegeprobleme oder das populäre Traveling Salesman Problem. Darüber hinaus existieren zahlreiche weitere naturanaloge Verfahren, wie zum Beispiel Genetische Algorithmen, welche sich am Evolutionsprozess der Natur orientieren und eine bedeutende Rolle im Kontext vom Planungsproblemen einnehmen. Aufgabenstellung Überblick über naturanaloge Verfahren zur Lösung ökonomischer Problemstellungen. Vorstellung und Erläuterung eines ausgewählten naturanalogen Verfahrens. Anwendung des Verfahrens auf ein ausgewähltes Beispiel. Ausgangsliteratur Eigene Recherche (nach Absprache mit dem Betreuer) Betreuer: Deniz Preil Hinweis: Dieses Thema richtet sich insbeondere an Bachelorstudierende, kann aber auch von Masterstudierenden bearbeitet werden.
10. Spieltheoretische Lösungskonzepte zur fairen Ressourcenaufteilung in Entscheidungsproblemen Die Qualität einer adäquaten Planung in einem Entscheidungsproblem ist i.d.R. nicht nur von einem (planenden) Akteur abhängig, sondern wird vielmehr durch das Zusammenspiel mehrerer (planender) Akteure beeinflusst. Eine für alle Akteure zufriedenstellende (oftmals optimale) Lösung lässt sich in vielen Fällen insbesondere durch Kooperation erreichen. In diesem Kontext stellt sich jedoch die Frage: Wie sollen beispielsweise Kosten oder Gewinne fair aufgeteilt werden? Ist die die Bildung einer Koalition zur Koordination stabil oder existieren Anreize zum Abweichen? Aufgabenstellung Einführung in die spieltheoretische Problemstellung. Vorstellung und Erläuterung relevanter spieltheoretischer Lösungskonzepte. Anwendung auf ausgewählte Beispiele: Im Bachelor: Einstufige Planungsprobleme (bzw. einstufige Spiele). Im Master: Mehrstufige Planungsprobleme (bzw. mehrstufige Spiele). Ausgangsliteratur Holler, Gerhard (2009): Einführung in die Spieltheorie, Springer Eigene Recherche Betreuer: Deniz Preil
11. Künstliche Intelligenz: Eine exemplarische Vorstellung anhand strategischer Spiele Der Begriff Künstliche Intelligenz (KI) umfasst ein breites Forschungsfeld, dessen Ziel es unter anderem ist, intelligentes menschliches Verhalten durch Algorithmen abzubilden oder ggfs. sogar zu verbessern. Eine allgemeingültige Definition des Begriffs scheitert jedoch bereits an der fehlenden Definition des Begriffs „Intelligenz“ bzw. „intelligentes menschliches Verhalten“. Unabhängig davon ist KI ein weit verbreiteter Begriff in den Medien, der in Zukunft gemäß zahlreichen Berichten fast alle Lebensbereiche durchdringen wird. Die durch Algorithmen abgebildete „Intelligenz“ zu erfassen, gestaltet sich dabei in der Regel als sehr schwierig, weshalb häufig strategische Spiele wie z.B. Schach oder Go als Anwendungsbeispiele herangezogen werden. Bei diesen Spielen handelt es sich um sogenannte Zweipersonen-Nullsummenspiele, in welchen ein KI-gesteuertes Programmgegen einen Menschen antritt, um eine etwaige Überlegenheit der KI zu demonstrieren Aufgabenstellung Vorstellung geeigneter Verfahren z.B.: Alpha Beta Pruning Monte Carlo Tree Search Erläuterung und Vergleich der Verfahren. Für Masterstudierende: Implementierung der Verfahren anhand eines ausgewählten Beispiels. Gewähren eines Überblicks über die Anwendungsbereiche der vorgestellten Verfahren. Ausgangsliteratur Russell, Norvig (2016) Artificial intelligence: a modern approach. Pearson Education Limited Browne et al. (2012) A survey of monte carlo tree search methods. IEEE Transactions on Computational Intelligence and AI in games 4.1: 1-43 Eigene Recherche Betreuer: Deniz Preil
12. Aufdeckung von Bilanzbetrug: Das Benford Gesetz Das Benford Gesetz ist eine Gesetzmäßigkeit, welche das vermehrte Auftreten von niedrigen Anfangsziffern in Zahlen insbesondere in großen Datensätzen beschreibt. Beispielsweise ist die Wahrscheinlichkeit für das Auftreten der Anfangsziffer "1" über sechs mal höher als das Auftreten der Anfangsziffer "9". Die Gesetzmäßigkeit findet sich in zahlreichen Bereichen wie zum Beispiel Naturkonstanten, Bevölkerungszahlen oder willkürlichen Datensätzen wie den numerischen Werten aus einer Zeitung wieder. Von großem Nutzen ist das Gesetz insbesondere bei der Aufdeckung von Bilanzbetrug. Aufgabenstellung Vorstellung des Benford Gesetzes und Herleitung der zugrunde liegenden Benford-Verteilung. Gewähren eines Überblicks über die Anwendungen zur Betrugsaufdeckung. Vorstellung der wichtigsten statistischen Verfahren zur Überprüfung von Datensätzen auf die Benford-Verteilung. Anwendung dieser Verfahren auf selbstgewähltes (Betrugs-)Beispiel. Ausgangsliteratur Benford (1938): The Law of Anomalous Numbers, Proceedings of the American Philosophical Society 78: 551—572 Krämer (2011): Denkste!: Trugschlüsse aus der Welt der Zahlen und des Zufalls, Piper Eigene Recherche Betreuer: Deniz Preil Hinweis: Dieses Thema richtet sich ausschließlich an Bachelor-Studierende und wird nur am Vortragsort Teisendorf angeboten.
13. Zur ökonomischen Bedeutung von Wirtschaftskriminalität: Methoden und Techniken der forensischen Ermittlung Die jährlich aus Wirtschaftskriminalität resultierenden Schäden betragen nach Angaben des Bundeskriminalamts mehr als die Hälfte des in Deutschland erfassten Gesamtschadens. Demgegenüber beläuft sich die Anzahl doloser Handlungen lediglich auf ein Prozent der jährlich begangenen Straftaten. Die Aufdeckung derartiger Betrugsfälle ähnelt demnach häufig der Suche nach der „Nadel im Heuhaufen“. Zur Bekämpfung bedienen sich die Ermittler neben Methoden der Ziffernanalyse (Benford-Gesetz) insbesondere sogenannten „Lern-Verfahren“, welche basierend auf Daten selbst in der Lage sind, kriminelle Handlungen zu identifizieren. Ziel dieser Arbeit ist es, einen Überblick über etablierte Formen von wirtschaftskriminellen Handlungen auszuarbeiten und diese ferner anhand ausgewählter quantitativer Methoden und einem ausgewählten Beispiel (z. B. Kreditkartenbetrug) zu untersuchen. Aufgabenstellung Einführung und Erläuterung von ausgewählten Lern-Verfahren (überwachtes Lernen) insbesondere der Klassifikation zur Unterscheidung – Betrug/ kein Betrug. Anwendung dieser Verfahren auf selbstgewähltes (Betrugs-)Beispiel (z. B. Kreditkartenbetrug) Ausgangsliteratur Bhattacharyya et al. "Data mining for credit card fraud: A comparative study." Decision Support Systems 50.3 (2011): 602-613 Eigene Recherche Betreuer: Deniz Preil Hinweis: Dieses Thema wird nur am Vortragsort Teisendorf angeboten.
14. Data Analysis mit PCA Hauptkomponentenanalyse (engl. Principal Component Analysis) ist eine der am meisten verwendete und bekannte Methode in Data Analysis sowie auch Unsupervised Machine Learning. Im Grunde genommen ist PCA ein Ansatz zur Dimensionsreduktion, wodurch Probleme mit einer großen Anzahl an potentieller Regressoren sich auf deutlich zugängliche Modellierungen reduzieren lassen. Aufgabenstellung Definition von PCA, insb. Der Zusammenhang mit Varianz- und Faktorenanalyse. Wann ist die Anwendung sinnvoll, was sind Vor- und Nachteile? Untersuchung und Vergleich Modelle mit verschiedener Anzahl der Komponenten mittels einer Anwendung in R. Datengrundlage ist ein beliebiger Datensatz (z.B. von Kaggle). Ausgangsliteratur Trevor Hastie, Robert Tibshirani, Jerome Friedman, "The Elements of Statistical Learning: Data Mining, Inference, and Prediction", Second Edition, Springer-Verlag, 2001. Ian Jolliffe, „Principal Component Analysis“, Second Edition, Springer-Verlag, 2002. Eigene Recherche Betreuer: Eugen Ivanov
15. Machine Learning mit LASSO Parameterschätzungen von OLS Regressionsmodellen sind zwar oftmals erwartungstreu, aber auch sehr ungenau. Zudem ist vor allem bei großen Datensätzen die Anzahl an zu schätzenden Parametern problematisch und oft ist eine Einschränkung der Anzahl von Regressoren wünschenswert. Es existieren verschiedene Methoden der Regression, die diese Nachteile beheben, unter ihnen den „Least Absolute Shrinkage and Selection Operator“ (LASSO). Aufgabenstellung Was ist LASSO, wie ist der Zusammenhang mit anderen Machine Learning Methoden, insb. Ridge Regression? Wann ist die Anwendung sinnvoll, was sind Vor- und Nachteile? Untersuchung und Vergleich der verschiedenen Methoden mittels einer Anwendung in R. Datengrundlage ist ein beliebiger Datensatz (z.B. von Kaggle). Ausgangsliteratur Robert Tibshirani, 2011. "Regression shrinkage and selection via the lasso: a retrospective", Journal Of The Royal Statistical Society Series B, Royal Statistical Society, vol. 73(3), pages 273-282, 06. Trevor Hastie, Robert Tibshirani, Jerome Friedman, "The Elements of Statistical Learning: Data Mining, Inference, and Prediction", Second Edition, Springer-Verlag, 2001. Hui Zou & Trevor Hastie, 2005. "Regularization and variable selection via the elastic net", Journal Of The Royal Statistical Society Series B, Royal Statistical Society, vol. 67(2), pages 301-320. Eigene Recherche Betreuer: Eugen Ivanov
16. Scheinkorrelation und –regression Eine starke Korrelation zwischen zwei Variablen impliziert nicht notwendigerweise auch eine Kausalität. Dieses als Scheinkorrelation bekannte Phänomen tritt z. B. bei den Variablen „Geburtenrate“ und „Anzahl der Störche“ auf. (Für weitere Beispiele siehe https://www.tylervigen.com/spurious-correlations) Weiterhin werden Regressionen verwendet, um Zusammenhänge in Zeitreihen zu erklären und Prognosen zu bilden: so galt beispielsweise die Dividendenrendite lange Zeit als hervorragende Prognosevariable für zukünftige Aktienrenditen. Der Artikel von Granger und Newbold (1974) erschütterte die Ökonometrie damit, dass er Anlass zu der Vermutung gab, dass die „Signifikanz“ von zahlreichen Prognosevariablen lediglich auf Scheinregressionen zurückzuführen war. Aufgabenstellung • Der Begriff “Scheinkorrelation” soll erklärt und anhand verschiedener Beispiele illiustriert warden. • Das Problem der Scheinregression bei Zeitreihen soll erläutert werden, wobei insbesondere auf die Problematik bei hoher Autokorrelation der Prognosevariable eingegangen werden soll . • Mögliche Lösungen für das Scheinregressionsproblem sollen diskutiert werden. • Auf Basis eines Datensatzes und/oder einer Simulation mit R (ähnlich zu jener von Granger und Newbold) soll eine eigene Analyse durchgeführt werden. Ausgangsliteratur • Granger, C.W.J., Newbold P. (1974), Spurious Regressions in Econometrics, Journal of Econometrics • Matthews, Robert. "Storks deliver babies (p= 0.008)." Teaching Statistics 22.2 (2000): 36-38. • Eigene Recherche. Betreuer: Dominik Schneller
17. Analyse- und Prognosemethoden im linearen Regressionsmodell – Anwendung unter Verwendung von Investorenstimmungen Ob die Stimmung von Investoren (“investor sentiment”) einen Einfluss auf zukünftige Renditen besitzt, ist eine aktuelle Forschungsfrage der Finance. Dieser Frage kann mittels eines Regressionsmodells zunächst im Rahmen einer In-Sample-Analyse unter Verwendung des Bestimmtheitsmaßes R2 oder der Informationskriterien AIC und BIC nachgegangen werden. Weiterhin werden zur Beurteilung der Signifikanz der verwendeten Variablen der t-Test sowie der F-Test verwendet. Darüber hinaus können In-Sample gefittete Modelle zur Beurteilung der Out-of-Sample Prognosekraft verwendet werden und anhand der Prognosefehler und darauf aufbauender Tests verglichen werden. Aufgabenstellung Es ist empirisch zu untersuchen, ob Investor Sentiment einen Einfluss auf zukünftige Renditen bestitzt. Dazu sollen zunächst in einer IS-Analyse anhand der beschriebenen Kriterien die „besten“ Modelle ausgewählt werden. Diese werden im OOS-Vergleich der Prognosekraft mittels geeigneter Kennzahlen und statistischer Tests verglichen. Die nötigen Berechnungen und Tests müssen mittels der freien Statistik-Software „R“ durchgeführt werden. Ausgangsliteratur Schmeling, Maik. (2007) "Institutional and individual sentiment: Smart money and noise trader risk?." International Journal of Forecasting 23.1: 127-145. Weitere selbst recherchierte Literatur Betreuer: Dominik Schneller
18. Datenvisualisierung in Python In der Aufbereitung und Auswertung von Daten ist es grundlegend wichtig sich ein Bild von dem zugrundeliegenden Datensatz und den späteren Resultaten zu machen. So kann u.a. die Struktur der Daten erkannt werden und auf mögliche Muster eingegangen werden. Je nach Bedarf gibt es unterschiedliche Visualisierungsmethoden (Histogramme, Boxplotts, Streudiagramme,…), deren einfache Implementierung mit den Python Libraries Seaborn und Matplotlib möglich ist.. Aufgabenstellung • Verwenden sie den Boston House Prices Datensatz zur Erstellung geeigneter Seaborn / Matplotlib Plots. • Erklären Sie die verwendete Methode, vergleichen Sie diese mit anderen Methoden und illustrieren sie den individuellen Vorteil der Methode. • Erklären Sie, welche Erkenntnisse sich aus den von Ihnen gewählten Plots für den Boston House Prices Datensatz ziehen lassen. • Der Boston House Prices Datensatz lässt sich mithilfe der Scikit-Learn Library laden (sklearn.datasets.load_boston, siehe Dokumentation). Ausgangsliteratur Waskom, M. (2012) Seaborn: Statistical Data Visualisation. Abgerufen 22.01.2020. https://seaborn.pydata.org Hunter, J., Dale, D., Firing, E., Droettboom M. (2012). Matplotlib. Abgerufen 22.01.2020. https://matplotlib.org Eigene Recherche. Betreuer: Jonathan Pfahler Hinweis: Dieses Thema wird nur für Bachelor-Studierende angeboten.
Sie können auch lesen