Datenexploration für Kryptowährungen - Lukas Sontheimer, Ralph Kölle und Thomas Mandl* - De Gruyter
←
→
Transkription von Seiteninhalten
Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten
Information. Wissenschaft & Praxis 2020; 71(2–3): 107–114 Nutzerforschung Lukas Sontheimer, Ralph Kölle und Thomas Mandl* Datenexploration für Kryptowährungen Prototypische Entwicklung eines Dashboards mit Open Source Technologie https://doi.org/10.1515/iwp-2020-2076 Descriptors: Visualization, Data, Twitter, Crypto currency, Eingereicht am 12. Januar 2020; Angenommen am 23. Januar 2020 ElasticSearch Zusammenfassung: Kryptowährungen gewinnen zuneh- Exploration de données pour les monnaies cryptées mend an Bedeutung und ihr Handel unterliegt großen Développement d'un prototype de tableau de bord avec Wertschwankungen. Erfolgreiche Händler müssen sich une technologie open source aus zahlreichen Quellen informieren und Daten analysie- Résumé: Les monnaies cryptographiques prennent de ren. Wir präsentieren ein prototypisches System, das aus plus en plus d’importance et leur commerce est soumis à Twitter die Nachrichten zu Kryptowährungen filtert und de grandes fluctuations de valeur. Les commerçants qui anschließend in einer graphischen und interaktiven Ober- réussissent doivent obtenir des informations et analyser fläche darstellt. Der Beitrag zeigt beispielhaft, wie mit der des données provenant de nombreuses sources. Nous pré- offenen ElasticSearch Technologie eine Datenvisualisie- sentons un système prototype qui filtre les messages sur rung entwickelt werden kann. Zwei Interviews mit Domä- les monnaies cryptées de Twitter et les affiche ensuite nenexperten weisen auf Schwächen und Stärken des Sys- dans une interface graphique et interactive. L’article mon- tems hin. tre de manière exemplaire comment la visualisation de Deskriptoren: Visualisierung, Daten, Twitter, Kryptowäh- données peut être développée avec la technologie ouverte rung, ElasticSearch ElasticSearch. Deux entretiens avec des experts du do- maine soulignent les faiblesses et les forces du système. Data exploration for crypto currencies Descripteurs: Visualisation, Données, Twitter, Crypto Prototypical development of a dashboard with open sour- monnaie, ElasticSearch ce technology Abstract: Crypto currencies are becoming increasingly im- portant and their trading is subject to large fluctuations in value. Successful traders must obtain information and 1 Blockchain und Digitalisierung analyze data from numerous sources. We present a proto- im Finanzbereich typical system that filters messages about crypto curren- cies from Twitter and then displays them in a graphical Die Blockchain ist derzeit in aller Munde. Dabei handelt es and interactive interface. The article shows exemplarily sich um eine dezentrale Technologie, die alle Transaktio- how data visualization can be developed with the open nen eines Peer-to-Peer-Netzwerkes verifiziert und zusam- ElasticSearch technology. Two interviews with domain ex- menfasst. Diese Blöcke werden in einer Kette festgehalten, perts point out weaknesses and strengths of the system. die zusammenhängend die Blockchain bilden (Nakamoto 2008). Diese bietet Dezentralisierung, Echtzeit Peer-to- Peer Operationen, Anonymität, Transparenz sowie Un- *Kontaktperson: Apl. Prof. Dr. Thomas Mandl, Universität Hildes- heim, Institut für Informationswissenschaft und Sprachtechnologie, abänderlichkeit (Hassani et al. 2018). Ihre bisher weitrei- Universitätsplatz 1, 31141 Hildesheim, chendste Anwendung liegt in Kryptowährungen. Deren E-Mail: sontheim@uni-hildesheim.de Kern bildet jeweils ein verschlüsseltes Fundament, wel- Lukas Sontheimer, Universität Hildesheim, Institut für Informations- ches durch die Mischung von unterschiedlichen Krypto- wissenschaft und Sprachtechnologie, Universitätsplatz 1, graphie-Methoden sichere Peer-to-Peer Transaktionen er- 31141 Hildesheim, E-Mail: koelle@uni-hildesheim.de Dr. Ralph Kölle, Universität Hildesheim, Institut für Informations- möglicht (Tschorsch & Scheuermann 2016). wissenschaft und Sprachtechnologie, Universitätsplatz 1, Als erste Volkswirtschaft hat China 2019 angekündigt, 31141 Hildesheim, E-Mail: mandl@uni-hildesheim.de eine eigene Digitalwährung einzuführen. Dies zeigt, dass
108 Lukas Sontheimer, Ralph Kölle und Thomas Mandl, Datenexploration für Kryptowährungen die Digitalisierung auch die Finanzmärkte zukünftig noch gemeinen geworfen (Hassani et al. 2018: 1) und Krypto- mehr beeinflussen wird. Bereits bestehende Kryptowäh- währungen selbst als Datenquelle für Big Data betrachtet. rungen basieren auf komplexen Netzwerktechnologien. Sie kommen zu dem Schluss, dass mit Big Data Analyse Ihr Wert kann kaum von regulierenden Institutionen be- Techniken wertvolle Erkenntnisse gewonnen werden kön- einflusst werden. Somit wird Datenanalyse für den Handel nen, die einen besseren Einblick in die Kryptowährung-In- sehr wichtig. Text Mining hat sich in den letzten Jahren als dustrie gewähren (Cavalcante et al. 2016). wichtige Technologie durchgesetzt (Mandl 2013) und gera- Der Entwicklung des hier vorgestellten prototypi- de Twitter gilt häufig als eine gute Quelle für die Analyse schen Systems setzt an dieser Stelle an und kombiniert von Trends (Xing et al. 2018). diese beiden Datenquellen zu einer Datenanalyse, um Im Folgenden zeigen wir modellhaft, wie für Krypto- wertvolle Erkenntnisse und Zusammenhänge über Krypto- währungen ein Text Mining Prototyp aufgebaut wird, der währungen zu erhalten und diese in einem nutzerfreund- Twitter-Daten mit Python extrahiert und diese mit dem fle- lichen Dashboard für Trader und Investoren zu visualisie- xiblen Web-Tool Kibana visualisiert. Das System wurde ren. Der vorgestellte Prototyp legt seinen Schwerpunkt auf nach den Prinzipien der nutzerorientierten Gestaltung für Twitter-Daten, bezieht aber auch elementare Daten über die Währungen Bitcoin, Litecoin und Ripple entwickelt. Mit Kryptowährungen ein. Hilfe eines Leitfadeninterviews wurde dieses Dashboard von zwei Domänen-Experten qualitativ evaluiert. 3 Datengrundlage Twitter 2 Kryptowährungen Tweets haben sich bereits zu einer gängigen Datengrund- lage in den Sozial- und Politikwissenschaften entwickelt Kryptowährungen haben sich seit der Einführung des und bergen ein enormes Potential zur Analyse gerade ak- Grundgedanken 2008 zu einem globalen Phänomen mit tueller Ereignisse. Als Grundlage für die hier gezeigte Ana- einer Marktkapitalisierung von über 200 Mrd. US-Dollar lyse dient ein Datenset mit ca. 130 Mio. Tweets aus dem und mehr als 5000 verschiedenen Währungen entwickelt Zeitraum vom 1. bis zum 31. Dezember 2017. Dieses ist ei- (Coinmarketcap 2019). Der Markt der Kryptowährungen ist ne einfache Kollektion von Tweets im JSON Datenformat, vielseitig und zeichnet sich durch ein entscheidendes die zum Zweck der Forschung, Archivierung, Speicherung Merkmal aus – keine Währung hat eine zentrale Instanz und zu Testzwecken aus dem Twitter Stream extrahiert wie eine Zentralbank, die den Geldfluss der Währung wurden. Bereitgestellt wird dieses Datenset von der Non- steuern kann. Der Marktwert einer Kryptowährung wird Profit Organisation The Internet Archive (vgl. Internet Ar- damit nahezu ausschließlich von Angebot und Nachfrage chive 1996). Geleitet von der Mission, einen universellen bestimmt. Angebot und Nachfrage wiederum werden freien Zugang zu Wissen zu schaffen, stellt das Online-Ar- stark von der Wahrnehmung einer Kryptowährung beein- chiv Forschern unter anderem monatliche Mengen von flusst, die sich sehr gut anhand von Social-Media Plattfor- Tweets bereit. men wie Twitter beobachten lässt (Kim et al. 2017). Dem verwendeten Datenset liegt eine neutrale Hal- Twitter stellt eine ideale Quelle dar, um Textdaten tung zu Grunde. Beim Sammeln durch das Internet Archi- zum Thema Kryptowährungen zu erforschen und so un- ve wurde keine bestimmte Intention verfolgt, sodass keine entdeckte Zusammenhänge aufzudecken. In der Literatur Verzerrung vorliegt. Dadurch lässt es sich als authenti- fokussieren sich die meisten Forscher auf die Volatilität sche Datenquelle betrachten und kann nach allen beliebi- des Kryptowährungsmarktes und nutzen eine Reihe von gen Faktoren untersucht werden. Die Tweets darin sind Big Data Analyse Techniken, um bessere Prognosen und im sogenannten JSON Format abgelegt. JSON steht für Analysen zu erstellen. Im Kern ist das Ziel die Profitmaxi- JavaScript Object Notation und ist ein schlankes Datenaus- mierung und die Reduzierung eines Investment-Risikos. tauschformat, das für Menschen einfach zu lesen und zu Dabei wurden Echtzeit-Twitter-Daten über eine bestimmte schreiben ist, gleichzeitig aber auch für Maschinen ein- Kryptowährung für die Entwicklung einer vorteilhaften fach zu parsen und zu generieren. Trading-Strategie genutzt. Der Bereich der Kryptowährun- Von den ca. 130 Millionen Tweets aus dem ursprüng- gen rückt weiter in den Fokus der Forschung, aber trotz lichen Datenset wurden ca. 130.000 Tweets zum Thema alledem liegt hier noch viel Potential für zukünftige Fra- Bitcoin herausgefiltert. Das entspricht etwa 0,1 Prozent gestellungen. des ursprünglichen Datensets. Anhand dieser einfachen Hassani et al. haben einen genaueren Blick auf die Datenanalyse lassen sich bereits Zusammenhänge erken- Interaktion von Big Data und Kryptowährungen im All- nen, die als Indikatoren für eine Trenderkennung dienen
Lukas Sontheimer, Ralph Kölle und Thomas Mandl, Datenexploration für Kryptowährungen 109 Abbildung 1: Prozess zur Erstellung des Prototyps. können. Die Visualisierungen im finalen Dashboard stel- Entwicklung des Prototyps war dennoch keine tiefere len Informationen aus den Metadaten dieser Tweets dar. Kenntnis über Datenstrukturen Voraussetzung. Die Code- Wie die Daten extrahiert bzw. verarbeitet wurden und wie Pipeline des Prototyps wurde in einem iterativen Prozess der Prototyp entwickelt wurde, wird im folgenden Ab- entwickelt, der mit kleinen Datenmengen zu Testzwecken schnitt näher erläutert. Eine vollständige Erläuterung bie- begann und in den Folgeschritten mit größeren Daten- tet Sontheimer (2019). mengen weitergeführt wurde. Einen Überblick zeigt Abbil- dung 1. Die Verarbeitung erfolgt mit Python, denn es ermöglicht einen leichten Zugriff auf Programmierschnitt- stellen (APIs) und unzählige Bibliotheken. In die verwen- 4 Datenextraktion und dete Version 3.7 konnten die Bibliotheken glob, patool, in- Verarbeitung ternetarchive und elasticsearch sehr leicht importiert wer- den. Im Entwicklungsprozess wurden die Elemente der Das in diesem Abschnitt dargelegte prototypische System Code-Pipeline anfangs in einzelne Skripte geschrieben, nutzt eine selbst programmierte Code-Pipeline für die Da- wie Abbildung 1 zeigt. Der finale Code wurde aus Gründen tenanalyse und die offene ElasticSearch Technologie für der Effizienz und universellen Einsetzbarkeit in einem Ju- die Datenvisualisierung. ElasticSearch (ES) ist eine Open- pyter Notebook (vgl. Jupyter 2019) entwickelt. Source-Suchmaschine auf Basis der Java-Bibliothek Apa- Die Code-Pipeline startet mit einem zentralen Skript, che Lucene. Das Programm sucht und indexiert Dokumente in dem alle relevanten Parameter, wie das relevante verschiedener Formate, speichert die Suchergebnisse in ei- Tweet-Datenset bzw. alle Suchterme, definiert werden. nem NoSQL-Format (JSON) und gibt sie über eine RESTful- Anschließend wird das gewünschte Datenset mit Tweets Webschnittstelle aus (vgl. ElasticSearch B.V. 2019). Da- von der Webseite des Internet Archive heruntergeladen durch unterliegt der Kern der Software Open-Source-Lizen- und entpackt. Im Falle des verwendeten Datensets um- zen (Apache Lizenz 2.0) und ist vielseitig auf große, organi- fasste das vollständig entpackte Datenset im JSON-Format sierte und unstrukturierte Datenmengen anwendbar. In- eine Größe von ca. 500 GB. Die Code-Pipeline wird mit der zwischen hat sich ElasticSearch zu einem beliebten Web- eigentlichen Datenanalyse fortgesetzt, in der die Twitter- Tool entwickelt und wird unter anderem von Organisatio- Daten nach Stichwörtern untersucht und aus allen rele- nen wie Wikipedia, GitHub und Stack Overflow verwendet. vanten Tweet-Objekte die wesentlichen Attribute extra- Der Datenextraktion und Verarbeitung aus den Twit- hiert werden. Ein Tweet-Objekt beinhaltet über 150 Meta- ter-Daten ging zunächst eine Auseinandersetzung mit der Daten-Attribute, von denen nur wenige für die spätere Datenstruktur und dem Aufbau der Daten voran, für die Darstellung notwendig sind. Die relevanten Tweet-Objekte
110 Lukas Sontheimer, Ralph Kölle und Thomas Mandl, Datenexploration für Kryptowährungen Abbildung 2: Elementare Indikatoren für Kryptowährungen im oberen Teil des prototypischen Dashboards. mit den extrahierten Attributen werden zu einer finalen Im Entwicklungsprozess wurde das Datenset zur bes- JSON zusammengefasst und in den Elastic Stack übertra- seren Handhabung zunächst stückweise in die Code-Pipe- gen. In diesem Prozess wird eine Verbindung mit einem line gegeben. Mit einem Laptop (16 GB Arbeitsspeicher ElasticSearch-Cluster hergestellt, ein Index angelegt und und 2,5 GHz Prozessorleistung) wurde die Pipeline mit die Ergebnisdokumente mit den jeweiligen Feldern ge- Teilmengen durchlaufen. Im weiteren Prozess wurde die speichert und indexiert. Für den Prototyp wurde ein lokal Code-Pipeline in den zunehmend in ein Online-Notebook installiertes ElasticSearch-Cluster verwendet. in der Umgebung Google Colab (vgl. Google LLC 2019) Nach dem Einlesen in das Elastic-Stack können die transformiert. Das entstandene Jupyter Notebook steht on- Ergebnisse mit Hilfe von Kibana visuell aufbereitet und line in einem Github Repository (vgl. Sontheimer 2020) zur betrachtet werden. Durch seine benutzerfreundliche Ober- Verfügung. fläche fungiert Kibana auch als Management-Oberfläche Diese Transformation ermöglicht es, durch die Auto- für ElasticSearch. Damit kann auf den vorher erstellten In- matisierung von Daten-Download und Entpacken der Da- dex mit den relevanten Tweet-Objekten zugegriffen wer- ten, die Code-Pipeline (mit entsprechender Anpassung) den. Durch die Erstellung eines sogenannten Index-Pat- in jeder Umgebung einzusetzen. Ein Beispiel für eine sol- tern in Kibana, lassen sich eine Vielzahl von Visualisie- che Umgebung ist Amazon Web Services (vgl. Amazon. rungen kreieren. Diese lassen sich in einem Dashboard com Inc. 2019). Das Unternehmen bietet darin zahlreiche zusammenstellen und beliebig konfigurieren. Für den Anwendungen in der Cloud an, die besonders für die Prototyp wurden zusätzlich zu den Metadaten der Tweets Datenverarbeitung geeignet sind. Eine intuitivere und auch Kurs- und Handelsvolumen-Daten zum Bitcoin aus einfachere Alternative bietet Google Colab (vgl. Google CryptoCompare (vgl. CryptoCompare 2019) mit in Elas- LLC 2019). Google Colab bietet die Möglichkeit, ein aus- ticSearch importiert und in Kibana dargestellt. führbares Dokument zu erstellen, in dem Nutzer Codes
Lukas Sontheimer, Ralph Kölle und Thomas Mandl, Datenexploration für Kryptowährungen 111 Abbildung 3: Beiläufige geographische Indikatoren im unteren Teil des prototypischen Dashboards. schreiben, ausführen und teilen können. Das Dokument ticSearch und Kibana bieten eine Vielzahl von Möglichkei- ist vergleichbar mit einem Juypter Notebook (vgl. Project ten zur Datenanalysen und Visualisierung. Diese können Jupyter 2019) und ist aus Zellen zusammengesetzt, von einfach und ohne Programmierkenntnisse eingesetzt wer- denen jeder Code, Text, Bilder und mehr enthalten kann. den. Die Ergebnisse aus der oben beschriebenen Daten- Diese Umgebung eignet sich besonders für Datenver- verarbeitung wurden in Kibana visualisiert und in dem arbeitungen, die eine hohe Rechenleistung benötigen. Dashboard zusammengestellt, das in den Abbildungen 2 Sowohl in AWS als auch in Colab ließen sich mit der bis 4 dargestellt wird. Das Dashboard selbst ist in elemen- Pipeline sehr einfach auch größere Mengen an Twitter- tare und beiläufige Indikatoren unterteilt. Daten verarbeiten. Elementare Indikatoren: Der obere Teil des Dash- boards in Abbildung 2 zeigt die elementaren Indikatoren, beginnend mit dem Bitcoin-Preis in der oberen linken 5 Benutzerschnittstelle Ecke, dem Bitcoin-Handelsvolumen in der linken unteren Ecke, dem Tweet-Volumen in der oberen rechten Ecke und Die Entwickler hinter Kibana bezeichnen die browserba- zuletzt der Gesamtanzahl geposteter Tweets für den aus- sierten Open-Source-Analyseplattform als „Fenster“ auf gewählten Zeitraum unten rechts. Die Daten hinter dem die Daten (vgl. ElasticSearch B.V. 2019). Mit ihr lassen sich Bitcoin-Preis und dem Bitcoin-Handelsvolumen wurden Daten aus ES-Indizes visualisieren und suchen. Aus den von CryptoCompare entnommen; das Tweet-Volumen und Visualisierungen lässt sich ein Dashboard mit interaktiven die Gesamtanzahl geposteter Tweets entstammen den Me- Elementen erstellen. Die Open-Source-Varianten von Elas- tadaten der indexierten Tweets zum Bitcoin.
112 Lukas Sontheimer, Ralph Kölle und Thomas Mandl, Datenexploration für Kryptowährungen Abbildung 4: Beiläufige Indikatoren zu Zeitzonen und Sprachverteilung im prototypischen Dashboard. Beiläufige Indikatoren: Im unteren Teil des Dashbo- Zeitverschiebung von der UTC-Zeitzone angegeben in Se- ards folgen die beiläufigen Indikatoren, die ebenfalls den kunden. Im unteren Teil folgen die beiden Diagramme zur Metadaten der Tweets entnommen wurden. Der erste Teil Sprachverteilung der Tweets, auf der linken Seite gemes- der beiläufigen Indikatoren in Abbildung 3 fokussiert sich sen an den Tweets und auf der rechten Seite gemessen an auf die Ortsangabe der geposteten Tweets für den aus- den Nutzenden. gewählten Zeitraum. Auf der Koordinaten-Karte in der lin- ken oberen Ecke werden alle Geo-Locations angezeigt, die an Tweets angehängt worden sind. Daneben ist auf der 6 Evaluierung des Systems rechten oberen Seite das Verhältnis der Tweets, die mit einer Geo-Location versehen sind, zu denjenigen ohne In der nutzerorientierten Gestaltung ist es elementar, he- Geo-Location zu sehen. Darunter folgt das Verhältnis der rauszufinden, wie das System auf Nutzende wirkt. Ein verifizierten Twitter Nutzenden zu den nicht verifizierten. typischer Evaluationsprozess in der Mensch-Maschine- Die beiden unteren Kreisdiagramme in Abbildung 3 illus- Interaktion hat folgende Zielvorgaben (vgl. Mazza 2009: trieren die Länderverteilung und die Ortsverteilung der S. 125): Die Beurteilung der Funktionalität eines Systems, geposteten Tweets. Die Daten hinter diesen beiden Dia- die Analyse der Effekte des Systems auf Nutzende sowie grammen entstammen dem Nutzer-Objekt der Tweets und die Identifikation möglicher Probleme in der Interaktion geben an, wo der jeweilige Nutzer herkommt. mit denselben. Abbildung 4 stellt den zweiten Teil der beiläufigen In- Gewählt wurde die Methode des Experteninterviews. dikatoren dar. Die oberen beiden Diagramme fokussieren Es stellt im Gegensatz zu den forschungsokönomisch sehr sich auf die Zeitzonen-Verteilung, in der linken oberen aufwendigen Beobachtungsverfahren eine pragmatische Ecke gemessen an der Zeitzone der Nutzer hinter den ge- Alternative dar. Bogener et al. definieren Expertentum so: posteten Tweets und in der rechten oberen Ecke durch die „Experten lassen sich als Personen verstehen, die sich –
Lukas Sontheimer, Ralph Kölle und Thomas Mandl, Datenexploration für Kryptowährungen 113 ausgehend von einem spezifischen Praxis- oder Erfah- Datenpunkte die Experten als relevant erachten. Diese Er- rungswissen, das sich auf einen klar begrenzbaren Pro- kenntnisse sind bei der Gestaltung der Oberfläche von blemkreis bezieht – die Möglichkeit geschaffen haben, mit großer Bedeutung und können die Gebrauchstauglichkeit ihren Deutungen das konkrete Handlungsfeld sinnhaft eines Produkts steigern. Dies wurde z.B. durch die Darstel- und handlungsleitend für Andere zu strukturieren.“ (Bo- lung der Geo-Location der Tweets innerhalb des Dash- gener et al. 2014: S. 13). boards deutlich. Die Befragten gaben an, es sei interessant Mit der Anwendungsthematik Kryptowährungen wur- nachzuverfolgen, wo die Tweets gepostet wurden, aber de der Prototyp für die Zielgruppe Trader und Investoren die exakte Position sei zu detailliert und das Land reiche entwickelt. Aus pragmatischen Gründen wurden Personen aus. Durch die Evaluation wurde deutlich, welche der Da- fokussiert, die mindestens zwei Jahre Erfahrung im regel- tenpunkte und Indikatoren für die Experten relevant sind. mäßigen Handeln von Finanzprodukten mitbringen und Besonders hervorgestochen ist hier der Zusammenhang die diese in kurzen Zeitintervallen regelmäßig handeln. zwischen dem Handelsvolumen des Bitcoins und dem Bei den beiden ausgewählten Fachleuten handelt es sich Tweet-Volumen, zu dem einer der beiden Experten sogar um Testnutzende, die nach eigenen Angaben mehr als vorschlug, einen eigenen Indikator zu entwickeln. drei Jahre Erfahrung im Handeln von Finanz- und Anlage- In der Gesamtbetrachtung hat das Dashboard seine produkten wie Aktien, Währungen, Rohstoffen und vor al- Kernaufgabe erfüllt und relevante Daten für die Test-Nut- lem auch Kryptowährungen haben. zenden angezeigt. Der Prototyp verhalf den Experten da- Eine Vorbefragung lieferte wertvolle Einblicke in die mit trotz der erheblichen Schwächen in der Usability zu Erfahrungen und Ansichten der Experten. Es ist von Vor- hilfreichen Erkenntnissen. Schon die Einbeziehung einer teil viele relevante Informationen über die Zielgruppe kleinen Anzahl von Nutzenden hat gezeigt, wie der Pro- und deren Erwartungen früh im Interview-Prozess abzu- totyp weiter verbessert werden könnte. fragen. Den Test-Personen wurde der Prototyp mit Daten zur Kryptowährung Bitcoin vorgelegt. Deutlich wurde, dass 7 Fazit und Ausblick Kibana keine besonders hohe Nutzerfreundlichkeit auf- weist. Das schlanke und minimalistische Design verhilft Die prototypische Entwicklung eines Text-Mining-Tools zwar zu einer schnellen Übersicht, doch stößt das Pro- für Twitter-Daten gelang in dem beschriebenen Ansatz gramm bei der Betrachtung von Detail-Informationen an durch einfache Python-Skripte und dem Einlesen und Dar- Grenzen. Von beiden Befragten wurde häufig kritisiert, stellen der Daten in Elastic-Tools. Die Visualisierung der dass sich die Darstellungsweise der Graphen und Dia- Ansichten in Kibana wurden nach den Prinzipien der nut- gramme nur begrenzt verändern lässt und Aktionen wie zerorientierten Gestaltung evaluiert. Im Laufe des Imple- Zoomen oder Scrollen innerhalb der Diagramme kaum mentierungsprozesses stellt sich heraus, dass einige der möglich sind. Ein weiteres Beispiel hierfür ist die Ände- Erweiterungsmöglichkeiten aus zeitlichen Gründen nicht rung des gewünschten Zeitintervalls. Gerade die Einstel- umzusetzen waren. lung des Zeitintervalls ist eine elementare Funktion. In Ki- Die einfache Form der Analyse könnte noch weiter bana ist diese Einstellungsmöglichkeit jedoch leider nicht verbessert werden. Die Suche nach vordefinierten Termen selbsterklärend und intuitiv. Beide hatten Probleme diese im Tweet-Text hat einen gewissen Streueffekt. Bei der Su- Einstellung vorzunehmen. Denn alle Datenpunkte sind an che werden auch Tweets einbezogen, die nichts mit der einen Zeitstempel gebunden; wird das Zeitintervall ver- eigentlichen Thematik zu tun haben. Ein gutes Beispiel ändert, passen sich alle Visualisierungen im Dashboard dafür ist die Kryptowährung Ripple, denn das Verb „ripp- an diese Änderung an. Durch die automatische Anpas- le“ hat im Englischen viele weitere Bedeutungen. Richtet sung an das Zeitintervall bekommt die Oberfläche einen man die Analyse auf Hashtags aus, würden die Ergebnisse hohen Grad an Interaktivität. Wird in einem Graphen bei- vermutlich mit einer größeren semantischen Relevanz spielweise ein bestimmter Zeitpunkt ausgewählt, ver- ausfallen. ändert sich das Zeitintervall zu diesem Zeitpunkt hin und Die Entwicklung und die folgende Evaluation zeigten, alle anderen Daten im Dashboard passen sich daran an. dass sich Kibana sehr für das Prototyping eignet und da- Diese Funktion wurde von beiden Test-Personen intuitiv mit gut als Werkzeug für einen iterativen Entwicklungs- benutzt, ihnen als interaktives Element aber erst bewusst, prozess qualifiziert ist. Mit der Anpassung der Daten im als sie vom Experten darauf hingewiesen wurden. Dashboard an das gewünschte Zeitintervall beinhaltet Ki- Durch die direkte Interaktion mit dem Prototyp kann bana auch Interaktivität. So lassen sich grobe Strukturen der Interviewer gut erkennen, welche der Indikatoren und und Trends deutlich erkennen. Kibana sollte vor allem für
114 Lukas Sontheimer, Ralph Kölle und Thomas Mandl, Datenexploration für Kryptowährungen die Datenexploration verwendet werden, es eignet sich Lukas Sontheimer dagegen kaum für eine automatische Datenanalyse. Universität Hildesheim Institut für Informationswissenschaft und Sprachtechnologie Literatur Universitätsplatz 1 31141 Hildesheim Bogener, Alexander; Littig, Beate; Menz Wolfgang (2014): Interviews sontheim@uni-hildesheim.de mit Experten. Eine praxisorientierte Einführung. Wiesbaden: Springer. Cavalcante, Rodolfo, Brasileiro, Rodrigo C., Souza, Victor, Nobrega, JJarley, & Oliveira, Adriano (2016): Computational intelligence Lukas Sontheimer studiert im Masterstudiengang Internationales In- and financial markets: A survey and future directions. Expert formationsmanagement am Institut für Informationswissenschaft & Systems with Applications, 55, S. 194–211. Sprachtechnologie der Universität Hildesheim. Im Rahmen seiner Coinmarketcap (2019): Global Charts. Total Market Capitalization. Bachelorarbeit hat er ein Text-Mining Tool zur Social-Media Analyse https://coinmarketcap.com/charts/ [9.1.2020]. am Beispiel von Kryptowährungen entwickelt. Aktuell befasst er sich CryptoCompare (2019): How to use our API, https://www.cryptocom mit den Themen Künstliche Intelligenz, Text-Mining und Information pare.com/about-us/ (7. 8.2019). Retrieval. ElasticSearch B.V. (2019): Elasticsearch. The Elastic Stack, https:// www.elastic.co/de/products/elasticsearch [5.9.2020]. Dr. Ralph Kölle Google LLC (2019): Google Colaboratory. https://colab.research.goo gle.com/notebooks/welcome.ipynb (27.8.2019). Universität Hildesheim Hassani, Hossein; Huang, Xu; Silva, Emmanuel (2018): Big-Crypto: Institut für Informationswissenschaft und Big Data, Blockchain and Cryptocurrency. In: Big Data and Sprachtechnologie Cognitive Computing, 2018, Vol. 2, No. 34. Universitätsplatz 1 Jupyter (2019): Jupyter Notebook, https://jupyter.org [9.1.2020]. 31141 Hildesheim Kim, Young Bin, Lee, Jurim, Park, Nuri, Choo, Jaegul., Kim, Jong-Hyun, & Kim, Chang Hun (2017): When Bitcoin encounters information koelle@uni-hildesheim.de in an online forum: Using text mining to analyse user opinions and predict value fluctuation. PloS one, 12(5), e0177630. Mandl, Thomas (2013): Text Mining und Data Mining. In: Kuhlen, Dr. Ralph Kölle ist wissenschaftlicher Mitarbeiter am Institut für In- Rainer; Semar, Wolfgang; Strauch, Dietmar (Hrsg.): Grundlagen formationswissenschaft & Sprachtechnologie an der Universität Hil- der praktischen Information und Dokumentation: Handbuch zur desheim. Er studierte Informatik (Diplom) und war danach sechs Einführung in die Informationswissenschaft und – praxis. 6. Jahre als Softwareentwickler tätig. Seit 2000 ist er an der Universität Ausgabe – Verlag de Gruyter, Saur. S. 183–191. Hildesheim beschäftigt und wurde dort 2007 promoviert. Seine For- Mazza, Riccardo (2009): Introduction to Information Visualization. schungsschwerpunkte liegen im Bereich mobile Information, per- London: Springer. sönliches Informationsmanagement, E-Learning und Virtual Reality. Nakamoto, Satoshi (2008): Bitcoin: A Peer-to-Peer Electronic Cash System. https://bitcoin.org/bitcoin.pdf [9.1.2020]. Sontheimer, Lukas (2019): Visualisierung von Twitterdaten als Basis Apl. Prof. Dr. Thomas Mandl für die Trenderkennung mit dem Fokus auf Kryptowährungen. Bachelorarbeit, Stiftung Universität Hildesheim. Universität Hildesheim Sontheimer, Lukas (2020): GitHub Repository: https://github.com/c Institut für Informationswissenschaft und urious-luke/bachelor-thesis.git [9.1.2020]. Sprachtechnologie The Internet Archive (1996): About the Internet Archive. https://ar Universitätsplatz 1 chive.org/about/ [9.1.2020]. 31141 Hildesheim Tschorsch, Florian, & Scheuermann, Björn (2016): Bitcoin and beyond: A technical survey on decentralized digital currencies. mandl@uni-hildesheim.de IEEE Communications Surveys & Tutorials, 18(3) S. 2084–2123. Xing, Frank, Cambria, Erik, & Welsch, Roy (2018): Natural language based financial forecasting: a survey. Artificial Intelligence Prof. Dr. Thomas Mandl arbeitet am Institut für Informationswissen- Review, 50(1) S. 49–73. schaft & Sprachtechnologie an der Universität Hildesheim. Nach dem Studium der Informationswissenschaft an der Universität Regens- burg und der University of Illinois at Urbana-Champaign hat er sich 2006 habilitiert. Aktuell forscht er in den Bereichen Mensch-Maschi- ne Interaktion, Bildanalyse in den Digital Humanities und der Evalu- ierung von Hate-Speech-Erkennung.
Sie können auch lesen