Social Media Mining in der Praxis - Was twittert die Bundesregierung und was kann daraus abgeleitet werden?

Die Seite wird erstellt Dirk Möller
 
WEITER LESEN
Social Media Mining in der Praxis
Was twittert die Bundesregierung und was kann daraus abgeleitet
werden?

Durch einen einzigen Tweet erreichte der Regierungssprecher Steffen
Seibert im September 2019 circa 922.000 Follower: Unmittelbar und ungefil-
tert. In diesem Artikel werden ausgewählte Methoden des Social Media
Minings vorgestellt und damit die Tweets der Bundesregierung strukturiert
und analysiert. Auffällig ist, dass der Regierungssprecher über zahlreiche
gesellschaftsrelevante Fragestellungen twittert und zudem den Fokus sehr
stark auf die Aktivitäten der Bundeskanzlerin Angela Merkel lenkt.
                       Prof. Dr. Martin Vogt                           zu, dass Twitter ein Schlüssel für seinen Erfolg ist, da er so-
                       ist Professor für Business Intelligence, ins-   fort Millionen Menschen erreicht – unter Umgehung der
                       besondere Advanced Analytics an der Hoch-
                                                                       Medien (vgl. Kanter, 2017). Diese Aussagen verdeutlichen
                       schule Trier. Bevorzugte Forschungsgebiete:
                       Data Science, Risikomanagement.                 die Schlüsselrolle von Sozialen Medien wie Twitter für die
                                                                       Verbreitung von Informationen.
                                                                       Neben Donald Trump nutzen zahlreiche weitere Politiker
                                                                       und Unternehmen, darunter der Regierungssprecher der
                                                                       Bundesregierung der Bundesrepublik Deutschland, Twitter
                                                                       zur Übermittlung von Informationen. So wurden zum Bei-
                                                                       spiel über den Twitter Account @RegSprecher des Regie-
  Summary: The government spokesman Steffen Seibert
                                                                       rungssprechers Steffen Seibert (siehe https://twitter.com/
  reached about 922,000 followers in September 2019
                                                                       RegSprecher) bereits mehr als 11.600 Tweets abgesetzt
  through a single tweet: direct and unfiltered. In this
                                                                       (Stand 08.09.2019). Jeder neue Tweet erreicht dabei circa
  article selected methods of social media mining are
                                                                       922.000 Follower: Ohne Umwege, direkt und ungefiltert. Es
  presented and thus the tweets of the federal govern-
                                                                       lohnt sich also zu analysieren, über welche Inhalte getwit-
  ment structured and analyzed. It is noticeable that the
                                                                       tert wird und wo diese geografisch gelesen werden.
  spokesman for the government tweets about numerous
                                                                       Um die Inhalte der Tweets systematisch untersuchen zu
  socially relevant issues and also places the focus very
                                                                       können, werden besondere Verfahren benötigt. In diesem
  much on the activities of Chancellor Angela Merkel.
                                                                       Artikel werden hierzu ausgewählte Methoden des Social
  Stichwörter: Data Science, Social Media Mining,                      Media Minings vorgestellt und damit die Tweets der Bun-
  Text Mining, Twitter, Sentimentanalyse                               desregierung strukturiert und analysiert. Die Analyse zeigt,
                                                                       dass der Regierungssprecher den Fokus sehr stark auf die
                                                                       Aktivitäten der Bundeskanzlerin Angela Merkel legt. Andere
1. Einleitung                                                          Regierungsmitglieder erscheinen nicht in den Top-Platzie-
                                                                       rungen der am häufigsten genannten Begriffe. Mit Hilfe der
Am 3. November 2017 schrieb die Frankfurter Allgemeine                 vorgestellten Methoden des Social Media Minings lässt sich
Zeitung (vgl. Radunski, 2017): „Donald Trumps wichtigste               ebenfalls zeigen, dass die Kanzlerin Merkel häufig in Ver-
Waffe ist ausgefallen: Nicht das Weiße Haus, nicht das                 bindung mit einer Handlung gebracht wird. Die Auswer-
Atomwaffenarsenal, sondern sein Konto bei Twitter.“ Hin-               tung zeigt weiter, dass die Bundesregierung zu zahlreichen
tergrund war, dass sein Twitter Konto für einige Minuten               gesellschaftsrelevanten Themen twittert. Zu den Themen
durch einen Mitarbeiter von Twitter deaktiviert wurde. Ge-             mit tendenziell negativen Emotionen zählen unter anderem
genüber dem Fernsehsender Fox gab Donald Trump offen                   der Kampf gegen Terrorismus, Antisemitismus und Krimi-

                                                                                                                    WiSt Heft 2–3 · 2021   23
Wissenschaftliche Beiträge

       nalität, sowie Gewalt gegenüber Frauen und das Ende des         ter der zweiten Gattung Personal Publishing werden ähn-
       Kohlebergbaus. Bei den Themen mit positiven Emotionen           lich zu Plattformen Anbieter verstanden, die es ermög-
       wird vor allem über den Europäischen Rat und die (multila-      lichen Inhalte im Internet zu veröffentlichen. Allerdings
       terale) Zusammenarbeit geschrieben. Zudem wurde über            werden hier eher die einzelnen Autoren betont. Das bedeu-
       die Olympiade in Pyeonchang 2018 getwittert. Weiterfüh-         tendste Beispiel ist der Kurznachrichtendienst Twitter. Ne-
       rende Verfahren zur Vertiefung der gewonnenen Erkennt-          ben Twitter zählen etwa Weblogs zu dieser Gattung. Die
       nisse, wie etwa eine Analyse der Follower, werden im Aus-       dritte Gattung Instant Messaging/Chat hat zum Ziel, die
       blick vorgestellt.                                              synchrone Kommunikation zwischen Nutzern zu ermög-
       Social Media Mining hat eine hohe praktische Bedeutung          lichen. Beispiele hierfür sind etwa WhatsApp oder Snap-
       für zahlreiche betriebswirtschaftliche Fragestellungen,         chat. Schließlich werden Wikis, wie Wikipedia, zu der vier-
       denn es erlaubt Stimmungen und Meinungen in sozialen            ten Gattung gezählt.
       Netzen zu strukturieren und zu analysieren und somit            In diesem Artikel werden Twitter Daten ausgewertet. Twitter
       Trends frühzeitig zu erkennen, die u.a. für Kundenanspra-       wurde im März 2006 gegründet und ermöglicht Kurznach-
       chen, Markenpositionierungen oder die unternehmensstra-         richten bis zu 140 bzw. 280 Zeichen, sogenannte Tweets,
       tegische Entwicklung von hoher Relevanz sind.                   zu veröffentlichen. Twitter besitzt im Durchschnitt 330 Mil-
       Dieser Artikel ist wie folgt strukturiert: Zunächst werden in   lionen aktive Benutzer pro Monat (vgl. Clement, 2019) und
       Abschnitt 2 Soziale Medien, insbesondere Twitter einge-         spielt somit eine zentrale Rolle in der Verbreitung von In-
       führt und in Abschnitt 3 die theoretischen Hintergründe         formationen.
       von Social Media Mining erläutert. Darauf aufbauend wer-
       den in Abschnitt 4 die verwendeten Twitter Daten vorge-         3. Theoretische Grundlagen des Social Media Minings
       stellt und aufbereitet. Anschließend werden in den Ab-
       schnitten 5 und 6 die Inhalte der Tweets untersucht: Zu-        Social Media Daten unterscheiden sich von klassischen
       nächst in Abschnitt 5 die benutzten Emotionen und an-           Daten etwa aus Unternehmensdatenbanken: Sie sind sehr
       schließend in Abschnitt 6 Wortzusammenhänge. Abschnitt          umfangreich, Fehler behaftet, unstrukturiert, dynamisch
       7 beschäftigt sich mit der Frage, wo die Informationen ge-      (vgl. Gundecha/Liu, 2012) und liegen in verschiedenen
       lesen werden. Hierzu werden die Standorte von 500 Follo-        Formaten vor: Text, Sprache, Bilder und Videos (vgl. Inja-
       wern analysiert. In Abschnitt 8 werden Anwendungen im           dat et al., 2016). Deshalb reichen klassische statistische
       Unternehmenskontext diskutiert und schließlich werden           Methoden zur Auswertung von strukturierten Daten in (re-
       die Ergebnisse in Abschnitt 9 zusammengefasst und ein           lationalen) Datenbanken, wie etwa Regressionsanalysen,
       Ausblick gegeben.                                               häufig nicht aus um Social Media Daten zu analysieren. Je
                                                                       nach Art der Fragestellung sind weitere Methoden aus ver-
       2. Soziale Medien: Twitter, Facebook und Co                     schiedenen Feldern wie Informatik, Bildverarbeitung, Lin-
                                                                       guistik, Machine Learning oder Statistik nötig. Hierzu zäh-
       Unter Sozialen Medien wird der „Sammelbegriff für Ange-         len insbesondere Methoden um Informationen aus Texten
       bote auf Grundlage digital vernetzter Technologien, die es      (Text Mining) oder Bildern (Image Processing) zu gewin-
       Menschen ermöglichen, Informationen aller Art zugänglich        nen, der Netzwerkanalyse (etwa um Follower zu untersu-
       zu machen und davon ausgehend soziale Beziehungen zu            chen) oder zur geografischen Analyse (vgl. Chen et al.,
       knüpfen und/oder zu pflegen“ verstanden (vgl. Schmidt/          2012).
       Taddicken, 2017, Seite 8). Es gibt demnach eine Vielzahl        In diesem Artikel werden Texte – Twitter Tweets – mit Me-
       Sozialer Medien mit unterschiedlichen Funktionalitäten.         thoden des Text Mining ausgewertet. Unter Text Mining
       Um diese Fülle besser beschreiben zu können, werden die-        wird die Trennung von verborgenen und möglicherweise
       se in vier Gattungen unterteilt: Plattformen, Personal Pu-      benötigten Informationen von Textdaten verstanden (vgl.
       blishing, Instant Messaging/Chat und Wikis (vgl. Schmidt/       Ghosh et al., 2012). Da über 80 % der verfügbaren Informa-
       Taddicken, 2017). Dabei ist eine genaue Abgrenzung ein-         tionen als Texte gespeichert sind (vgl. Ghosh et al., 2012),
       zelner Dienstleister nicht immer möglich, da eventuell          kann Text Mining in zahlreichen praktischen Anwendun-
       Funktionalitäten aus mehreren Gattungen angeboten wer-          gen verwendet werden (siehe Abschnitt 8).
       den. Schmidt und Taddicken (2017) kategorisieren die vier       Da die meisten Texte jedoch nicht zu dem Zweck geschrie-
       Gattungen wie folgt: Plattformen bieten registrierten Nut-      ben wurden, um diese mit Hilfe einer Analyse auswerten zu
       zern die Infrastruktur („Plattform“) für Kommunikation          können, sind diese oft unstrukturiert und müssen zunächst
       und zum Aufbau sozialer Beziehungen. Der Marktführer            aufbereitet werden. Dazu werden etwa alle Wörter kleinge-
       unter den Plattformen ist Facebook. Andere Beispiele für        schrieben oder Wörter ohne besonderen Inhalt, wie „der“,
       Plattformen sind zum Beispiel mySpace oder LinkedIn. Un-        „die“, „das“, entfernt (siehe Abschnitt 4). Anschließend

24     WiSt Heft 2–3 · 2021
Vogt, Social Media Mining in der Praxis

können Informationen aus diesen Texten entnommen wer-             Damit die Inhalte der Tweets analysiert werden können,
den, etwa die häufigsten Wörter, Wortzusammenhänge                muss der Datensatz zunächst aufbereitet werden. In einem
oder verwendete Gefühle (siehe Abschnitte 4, 5 und 6).            ersten Schritt werden hierzu alle Wörter eines Tweets in
Neben den in diesem Artikel vorgestellten Methoden des            eine eigene Zeile und klein geschrieben sowie Satzzeichen
Text Minings, gibt es zahlreiche weitere Möglichkeiten, um        und Zahlen entfernt. Diese Transformation erleichtert die
Informationen aus Texten zu gewinnen. Einen Überblick             spätere Analyse, wie zum Beispiel das Zählen einzelner
über Techniken und Anwendungen geben Preethi und Rad-             Wörter. Auf eine Rechtschreibkorrektur und das Zusam-
ha (2017). Darüber hinaus stellen Injadat et al. (2016) die       menführen von Wörtern mit gleichem Wortstamm (z. B:
am häufigsten verwendeten Methoden des Social Media Mi-           Mensch und Menschen) wurde hier verzichtet.
nings vor und Hayat et al. (2019) gehen auf Neuronale Net-        Die Abb. 1 (links) zeigt alle Wörter, die häufiger als 300-
ze ein, welche insbesondere für die Analyse von Bild- und         mal vorkommen. Auffällig ist, dass die häufigsten Wörter
Videodateien genutzt werden können.                               entweder spezifische Internetwörter, wie „t.co“ oder
                                                                  „https“ oder sogenannte Stoppwörter: „der“, „die“, „und“
4. Die Twitter-Daten der Bundesregierung                          sind. Diese Wörter tragen nicht viel zum Inhalt bei. Deshalb
                                                                  wurden diese in Abb. 1 (rechts) ebenfalls entfernt. Damit
Twitter ermöglicht den Zugriff auf ausgewählte Inhalte über       sind die häufigsten Wörter in den Tweets ersichtlich: „Mer-
eine Datenschnittstelle. Auf diese Schnittstelle kann mit         kel“ und „Kanzlerin“, gefolgt von „Heute“ und „Deutsch-
der Software R (vgl. R Core Team, 2019) zugegriffen wer-          land“.
den. Für diese Analyse wurden zum Stichtag 08.09.2019             Neben der reinen Analyse des Inhalts über die Häufigkeit
die letzten 3.200 Tweets des Twitter Kontos @RegSprecher          von Wörtern ist für Politiker und Unternehmen häufig inte-
heruntergeladen. Der erhaltene Datensatz enthält insge-           ressant zu verstehen, welche Gefühle dabei ausgedrückt
samt 88 Variablen. Neben dem Text der Tweets sind dies            werden, etwa im Zusammenhang mit der eigenen Person,
unter anderem Informationen zur Uhrzeit und zum Ort der           dem Unternehmen oder angebotener Produkte. Dies kann
Erstellung, sowie der Re-tweeted Status.                          im Rahmen einer Sentiment Analyse geschehen.

      t.co
                                                                           merkel
    https
       der
                                                                         kanzlerin
       die
     und
                                                                            heute
  merkel
kanzlerin
                                                                      deutschland
          in
        für
                                                                             mehr
       mit
     den
                                                                               eu
       wir
        im
                                                                 bundesregierung
      das
        zu
                                                                          kabinett
         ist
      von
                                                                              g20
      des
       ein
                                                                         gespräch
     zum
       auf
                                                                        menschen
   heute
    dem
                                                                        deutschen
    eine
        es
                                                                           europa
        an
       bei
                                                                             euco
    auch
       hat
                                                                         präsident
    nach
     sich
                                                                          müssen
       sie
               0        1000            2000             3000                        0           500         1000          1500
                                 n                                                                       n
                               Abb. 1: Worthäufigkeiten mit Stoppwörtern (links) und ohne (rechts)

                                                                                                                    WiSt Heft 2–3 · 2021   25
Wissenschaftliche Beiträge

       5. Analyse der verwendeten Emotionen                             Sentiment Analysen können für Politiker und Unternehmen
                                                                        zahlreiche nützliche Informationen liefern, etwa über Emo-
       Viele Wörter sind mit Emotionen besetzt, so wird zum Bei-        tionen im Zusammenhang mit einer bestimmten Marke.
       spiel das Wort „Glück“ meistens mit positiven Gefühlen be-       Eine Analyse einzelner Worte kann dabei aber unerwünsch-
       legt. Im Folgenden soll im Rahmen einer Sentiment Analy-         te Ergebnisse liefern. So ist das Wort „Ende“ in dem ver-
       se untersucht werden, welche positiven und negativen             wendeten Lexikon SentiWS negativ belegt. Dies ist zum Bei-
       Wörter die Bundesregierung verwendet.                            spiel in Ausdrücken wie „Ende des Friedens“ oder „Ende
       Hierzu wird jedem Wort eines Tweets entweder das Attribut        des Lebens“ angemessen. Wird aber vom „Ende des Krieges“
       Positiv oder Negativ zugeordnet, sofern es sich einer dieser     gesprochen, so kann „Ende“ durchaus auch positiv belegt
       Kategorien zuordnen lässt. Zur Zuordnung wird das Lexi-          sein. Um die Inhalte besser einschätzen zu können, werden
       kon SentiWS (Sentiment Wortschatz) der positiven bzw.            deshalb im nächsten Abschnitt Wort-Zusammenhänge ana-
       negativen deutschen Wörter verwendet. SentiWS ist kosten-        lysiert.
       los verfügbar und enthält gegenwärtig ungefähr 1.650 po-
       sitive und 1.800 negative Grundformen (vgl. Remus et al.,        6. Analyse der Wort-Zusammenhänge
       2010). Wörter, die nicht in dem Lexikon enthalten sind,
       werden keiner Kategorie zugeordnet. Hierunter fallen auch        Bisher wurden Wörter einzeln betrachtet. Zahlreiche Wör-
       Namen wie das am häufigsten in einem Tweet vorkommen-            ter wie Kampf, Gewalt, Glückwunsch und Ende stehen im
       de Wort „Merkel“. Diese Analyse erfasst ausschließlich die       Kontext aber nicht alleine, sondern in einem inhaltlichen
       Emotionen positiv und negativ. Auf eine Einteilung der           Zusammenhang mit anderen Wörtern. Gegen was wird ge-
       Emotionen in „Graustufen“ und weitere Kategorien wie             kämpft? Gewalt wem gegenüber? Was ist zu Ende? Was
       „Angst“ wird verzichtet.                                         wird beglückwünscht? Um diese Fragen zu beantworten
       Abb. 2 zeigt, dass „Kampf“, „Gewalt“ und „Ende“ die häu-         werden im Folgenden die Wort-Zusammenhänge analy-
       figsten verwendeten negativen und „Zusammenarbeit“,              siert.
       „Rat“ und „Glückwunsch“ die am häufigsten verwendeten
       positiven Wörter sind.

                                         Negativ                                                         Positiv

                  kampf                                                zusammenarbeit

                 gewalt
                                                                                     rat

                   ende
                                                                           glückwunsch

                  trauer
                                                                            gemeinsam

                     tod
                                                                                wichtig

               schulden

                                                                              sicherheit
                 trauern

                                                                                    gut
       herausforderung

                                                                                    ziel
            terrorismus

                                                                                besser
             verurteilen

                 konflikt                                                         bund

                              0   20          40          60                               0       20        40        60
                                             Abb. 2: Emotionen in den Tweets der Bundesregierung

26     WiSt Heft 2–3 · 2021
Vogt, Social Media Mining in der Praxis

6.1. Analyse der Wortkorrelationen                             So kann das Wort „Gewalt“ entweder dazu verwendet wer-
                                                               den, um zur Gewalt aufzurufen („Gewalt gegen Frauen!“)
Zunächst soll untersucht werden, welche Wörter häufig ge-      oder um diese zu verhindern, etwa durch die Aussage „Kei-
meinsam in einem Tweet verwendet werden. Hierzu werden         ne Gewalt gegen Frauen!“. Auch die Aussagen „Ich liebe
die Wörter und Tweets in einer sogenannten Document-           dich“ und „Ich liebe dich nicht“ unterscheiden sich funda-
Term-Matrix (DTM) dargestellt. Die DTM enthält die 3200        mental voneinander, auch wenn die betrachteten Wortkor-
Tweets („Dokumente“) als Zeilen und alle in einem der          relationen recht hoch sein können. In diesem Fall helfen N-
Tweets vorkommenden Wörter („Terms“) als Spalten, insge-       Gramme weiter.
samt 3.200 Zeilen und 14.577 Spalten. Die Einträge der Ma-
trix geben die Häufigkeit des Vorkommens des entspre-          6.2. Analyse der Wort-Zusammenhänge mit N-Grammen
chenden Wortes in dem jeweiligen Tweet an. Kommt ein
Wort in einem Tweet vor, enthält die Matrix eine 1, ansons-    N-Gramme sind Worttupel, also Wortpaare der Länge N.
ten eine 0. Durch diese Darstellung kann die Korrelation       Der in einem der Tweets verwendete Satz „In Deutschland
der Wörter mit dem normalen Korrelationskoeffizienten          wird es immer wärmer“ enthält zum Beispiel die folgenden
berechnet werden.                                              2-Gramme: „In Deutschland“, „Deutschland wird“, „wird
Die Tab. 1 enthält die häufigsten negativen und positiven      es“, „es immer“ und „immer wärmer“. Durch diese Darstel-
Wörter sowie die zugehörigen Wörter mit den höchsten           lung kann die direkte Wortfolge zweier (oder mehrerer)
Wortkorrelationen. Der Korrelationskoeffizient ist in der      Wörter untersucht werden. Abb. 3 zeigt häufig vorkom-
Klammer angegeben. Damit können die oben aufgeworfe-           mende 2-Gramme der untersuchten Tweets. Die Richtung
nen Fragen beantwortet werden.                                 der Pfeile geht vom erstgenannten zum zweitgenannten
Bei den negativ belegten Wörtern geht es um den Kampf im       Wort. Anhand der Abbildung (vgl. Silge/Robinson, 2019,
Zusammenhang mit Terrorismus, Antisemitismus und Kri-          Kapitel 4) ist etwa zu erkennen, dass „Merkel“ häufig vor
minalität. In den Tweets mit dem Thema Gewalt wird häufig      einer Tätigkeit verwendet wird: „Merkel“ spricht, reist,
von Frauen und sexueller Gewalt gesprochen. Beim Begriff       empfängt, begrüßt, gratuliert oder besucht. Dagegen folgt
Ende ist die Zuordnung nicht so eindeutig. Zum einen wird      „Merkel“ häufig auf die Worte Angela, Chancellor und
über das Ende des Weltkriegs und zum anderen über das          Kanzlerin.
Ende des Kohlebergbaus (DankeKumpel, ProsperHaniel)            Bisher wurden Informationen aus den Inhalten der Tweets
getwittert. Je nach Perspektive kann damit das Wort „Ende“     untersucht. Für viele Politiker und Unternehmen ist häufig
als positiv oder negativ interpretiert werden. Bei den posi-   zusätzlich interessant zu wissen, wo Tweets gelesen wer-
tiven Worten wird die „Zusammenarbeit“ zusammen mit            den, also die Frage: Wo ist der Standort der Follower des
den Wörtern „multilateral“ und „vertrauensvoll“ verwendet.     Regierungssprechers?
Besonders häufig wird hierbei das Land „Italien“ genannt.
Im Zusammenhang mit „Rat“ wird über die Europäische            7. Geografische Analyse der Follower
Kommission, europäisch und Brüssel geschrieben. Schließ-
lich enthalten die Korrelationen Hinweise darauf, dass         Die verfügbaren Twitter Daten enthalten neben den Tweets
„Herzliche“ „Glückwünsche“ für einen „Sieg“ bei der Olym-      auch Informationen über den Standort. Für das Konto des
piade 2018 in Pyeongchang getwittert wurden.                   Regierungssprechers ist dies etwa der Standort Berlin.
Wort-Korrelationen dienen dazu Wörter in einen Zusam-          Twitter ermöglicht zudem den Zugriff auf die Follower
menhang zu setzen. Dadurch kann analysiert werden, wel-        eines Kontos und sogar auf den Standort dieser Follower,
che Wörter häufig zusammen in einem Tweet verwendet            sofern der Standort durch den Benutzer freigegeben wurde.
werden. Manchmal reicht dies aber nicht aus, denn bei der      Damit kann eine geographische Analyse der Follower
Berechnung der Wort-Korrelationen wird außer Acht gelas-       durchgeführt werden. Hierzu wurden die ersten 500 Follo-
sen, dass manchmal die direkte Wortfolge von Interesse ist.    wer heruntergeladen.

                                WORT                       WÖRTER MIT DER HÖCHSTEN KORRELATION
                                KAMPF                      Terrorismus (0,24), Antisemitismus (0,21), Kriminalität (0,21)
                                GEWALT                     Hilfetelefon (0,48), sexueller (0,41), Frauen (0,40)
                                ENDE                       Weltkrieg (0,30), dankekumpel (0,29), prosperhaniel (0,29)
                                ZUSAMMENARBEIT             Italien (0,21), Multilaterale (0,21), Vertrauensvolle (0,17)
                                RAT                        EUCO (0,53), europäischen (0,52), Brüssel (0,28)
Tab. 1: Wortkorrelationen der
häufigsten emotionalen Wörter
                                GLÜCKWUNSCH                Herzlichen (0,7), Pyeongchang2018 (0,38), Sieg (0,29)

                                                                                                          WiSt Heft 2–3 · 2021   27
Wissenschaftliche Beiträge

                                                                            mehr●
                                                               infos●
                                                                                                   jahren●

                                    gipfels●                                                  wurde●             europäischen●
                             g20●
                                                                vielen●                                               rat●
              gipfel●                                                        dank●
                                                                                                                                         potus●

                                                                                                                                         trump●
                                                                                                glückwunsch●
                                      spricht●
                   empfängt●                      kanzlerin●
                                                                                                  herzlichen●
                                                                                                                         französische●
                                                               begrüßt●                                                                  deutsch●
                angela●
                                           merkel●
                                                             chancellor●
                        trifft●
                                                                                                                        podcast●
                                  reist●                 besucht●
                                           gratuliert●                                                                       neuen●
                                                                                               frankreichs●

                                                                                          präsident●
                                                                        emmanuelmacron●
                                                                    Abb. 3: 2-Gramme

                                                     Abb. 4: Follower (Dunkelblau) und Bundesregierung (Mittelblau)

       Die Abb. 4 (vgl. Leek, 2011) zeigt diejenigen der ausge-                        Im Bereich Marketing und strategische Unternehmensfüh-
       wählten 500 Follower der Bundesregierung, welche den                            rung kann etwa eine regionale Analyse der Follower helfen
       Standort freigegeben haben. Aus der Abbildung ist ersicht-                      die folgenden Fragen zu beantworten: Wo erreiche ich mei-
       lich, dass der Schwerpunkt der Follower in Deutschland                          ne (potentiellen) Kunden? In welchen Regionen besitzt
       und Europa zu finden ist, es aber auch vereinzelt Follower                      mein Unternehmen wenige/viele Follower? Welche Infra-
       auf anderen Kontinenten gibt.                                                   struktur, welches Bildungsniveau und welche Bevölke-
                                                                                       rungsdichte haben die Regionen mit den meisten Follo-
       8. Anwendungen im Unternehmenskontext                                           wern? Darüber hinaus können die Follower der Follower mit
                                                                                       einbezogen werden und die Informationsverbreitung im
       Social Media Mining bietet zahlreiche Anwendungsmög-                            Netzwerk untersucht werden. Dies ist etwa für Influencer
       lichkeiten im Unternehmenskontext, etwa in den Berei-                           Marketing interessant.
       chen Marketing, strategische Unternehmensführung und                            Zusätzlich können insbesondere Verfahren des Machine
       Risikomanagement.                                                               Learning verwendet werden, um Voraussagen zu tätigen:

28     WiSt Heft 2–3 · 2021
Vogt, Social Media Mining in der Praxis

Welche Follower werden am ehesten positiv auf ein be-        Ein verantwortungsvoll durchgeführtes Social Media Mi-
stimmtes Produkt reagieren? Welche Follower retweeten am     ning bietet jedoch zahlreiche faszinierende Möglichkeiten
ehesten einen bestimmten Tweet? Welche Inhalte werden        der Informationsgewinnung für Politiker, Unternehmen
am meisten geteilt? Wie wird mein Produkt im Vergleich zur   und Wissenschaft. Gerade im Rahmen der Forschung gibt es
Konkurrenz wahrgenommen? Hierzu können neben den In-         eine Vielzahl interdisziplinärer Fragestellungen, welche
halten in den Texten auch die Inhalte in den verwendeten     Fachwissen, etwa aus den Disziplinen Data Science, Sozio-
Bildern untersucht werden, um den Markt besser zu verste-    logie, Informatik, Betriebswirtschaftslehre oder Volkswirt-
hen: Wieviele Personen sind auf den Bildern mit meinem       schaftslehre, benötigen.
Produkt im Durchschnitt zu erkennen? Wo wurden die Bil-
der aufgenommen?                                             Literatur
Social Media Mining kann zudem im Rahmen eines Reputa-
                                                             Cadwalladr, C., The Great British Brexit robbery how our democracy was hi-
tionsrisikomanagements helfen, geäußerte Kritik bis hin      jacked, Online, URL: https://www.theguardian.com/technology/2017/m
zu einem Shit-Storm schnell zu erkennen und ermöglicht       a y/ 07 / th e -g r ea t- br i t i s h-b re xit -r o bb e ry- h ija ck e d-d e m o c r a c y
somit frühzeitig Gegenmaßnahmen einzuleiten.                 (07.05.2019).
                                                             Chen, H., Chiang, R.H.L., V.C. Storey, Business Intelligence and Analytics:
                                                             From Big Data To Big Impact, 2012, Mis Q. 36, Seiten 1165–1188.
9. Zusammenfassung und Ausblick                              Clement, J., Number of monthly active Twitter users worldwide from 1st
                                                             quarter 2010 to 1st quarter 2019 (in millions), Online, URL: https://
Twitter hat jeden Monat im Durchschnitt 330 Millionen        www.statista.com/statistics/282087/number-of-monthly-active-twitter-
                                                             users/(14.08.2019).
aktive Nutzer. Einer davon ist das Twitter Konto @Reg-
                                                             Davies, H., „Ted Cruz campaign using firm that harvested data on millions
Sprecher des Regierungssprechers der Bundesregierung.        of unwitting Facebook users“, Online, URL: https://www.theguardian.
Unter diesem Konto wurden bereits mehr als 11.600            com/us-news/2015/dec/11/senator-ted-cruz-president-campaign-faceb
Tweets veröffentlicht. Um Rückschlüsse auf die verwen-       ook-user-data (11.12.2015).
                                                             Eugster, M. J. A., T. Schlesinger, osmar: OpenStreetMap and R, in The R
deten Wörter und Emotionen, aber auch über Wortzusam-
                                                             Journal Vol. 5/1, June 2013, Online, URL: https://journal.r-project.org/a
menhänge zu ziehen, können Methoden des Social Media         rchive/2013/RJ-2013-005/RJ-2013–005.pdf [2013].
Minings verwendet werden. Am Beispiel der Bundesregie-       Ghosh, S., S. Roy, S.K. Bandyopadhyay, A tutorial review on Text Mining
rung konnte gezeigt werden, dass über verschiedene The-      Algorithms, 2012, International Journal of Advanced Research in Compu-
                                                             ter and Communication Engineering, Vol. 1, Issue 4, Seiten 223–233.
men mit positiven und negativen Emotionen getwittert         Gundecha, P., H. Liu, Mining Social Media: A Brief Introduction, Informs
wurde. Hierzu zählen unter anderem die Olympiade 2018,       2012, Online, URL: http://dx.doi.org/10.1287/educ.1120.0105
das Ende des Weltkriegs, der Kampf gegen Terrorismus,        Hayat et al., „Towards Deep Learning Prospects: Insights for Social Media
Antisemitismus und Kriminalität sowie Gewalt gegenüber       Analytics,“, 2019, IEEE Access, Vol. 7, Seiten 36958–36979.
                                                             Injadad, M. A. M., Salo F., A.B. Nassif, Data Mining Techniques in Social
Frauen.                                                      Media: A Survey, 2016, Neurocomputing, Volume 214, Seiten 654–670.
Neben dem reinen Text der Tweets sind in den Twitter Daten   Kanter, O., Bing-bing-bing, Online, URL: https://www.spiegel.de/politik/
zahlreiche weitere Variablen enthalten. Diese ermöglichen    ausland/donald-trump-erklaert-seine-tweets-bing-bing-bing-a-1174096.
                                                             html (22.10.2017).
tiefergehende Analysen, etwa zur Struktur der Follower.
                                                             Leek, J., An R function to map your Twitter Followers, Online, URL:
Am Beispiel des Regierungssprechers konnte gezeigt wer-      https://simplystatistics.org/2011/12/21/an-r-function-to-map-your-twi
den, dass der Standort der meisten der untersuchten Follo-   tter-followers/(12.12.2011).
wer in Deutschland bzw. Europa liegt, es aber auch verein-   Preethi, M., P. Radha, A Survey Paper on Text Mining -Techniques, Appli-
                                                             cations And Issues, 2017, IOSR Journal of Computer Engineering, Seiten
zelt auf anderen Kontinenten weitere Follower gibt.
                                                             46–51.
Wie viele Verfahren, birgt auch das Social Media Mining,     R Core Team, R: A language and environment for statistical computing,
neben der Möglichkeit detaillierter Analysen, ein gewisses   R Foundation for Statistical Computing, Vienna, Austria, Online, URL:
Risiko zum Missbrauch, wie der Fall von Cambridge Analyti-   https://www.R-project.org/, 2019.
                                                             Radunski, M., Twitter-Mitarbeiter hat Trumps Account abgeschaltet, On-
ca eindrucksvoll gezeigt hat (vgl. etwa Davis, 2015). Denn
                                                             line, URL: https://www.faz.net/-hbi-93eh (03.11.2017).
neben einer reinen Analyse der Inhalte können die Ergeb-     Reinbold, F., T. Schnack, Ich ganz alleine habe Trump ins Amt gebracht,
nisse in einem zweiten Schritt verwendet werden, um Kam-     Online, URL: https://www.spiegel.de/netzwelt/netzpolitik/donald-trum
pagnen durchzuführen und gezielt selektive Informationen     p-und-die-daten-ingenieure-endlich-eine-erklaerung-mit-der-alles-sinn-
                                                             ergibt-a-1124439.html (06.12.2016).
zu verbreiten. Dadurch kann versucht werden, aktiv die
                                                             Remus, R., U. Quasthoff, G. Heyer, SentiWS – a Publicly Available German-
Stimmung bzw. die Meinung in einer Bevölkerung zu ver-       language Resource for Sentiment Analysis. In: Proceedings of the 7th In-
ändern. Im Rahmen des Cambridge Analytica Skandals           ternational Language Ressources and Evaluation (LREC’10), Seiten: 1168–
wurde deutlich, dass genau dies im Rahmen des Präsi-         1171, 2010.
                                                             Schmidt, J.-H., M. Taddicken, Handbuch Soziale Medien, 2017, Springer
dentschaftswahlkampfs von Donald Trump (vgl. Reinbold/
                                                             Fachmedien Wiesbaden.
Schnack, 2016), aber auch der VoteLeave Kampagne im Vor-     Silge, J., D. Robinson, Text Mining with R, Online, URL: https://www.tidyt
feld des Brexits, getan wurde (vgl. Cadwalladr, 2019).       extmining.com/ (02.09.2019).

                                                                                                                               WiSt Heft 2–3 · 2021         29
Sie können auch lesen