Social Bots in der politischen Twittersphäre - Identifikation und Relevanz - opus4.kobv.de

 
WEITER LESEN
Social Bots in der politischen Twittersphäre - Identifikation und Relevanz - opus4.kobv.de
Social Bots in der
      politischen Twittersphäre –
      Identifikation und Relevanz

Rechts- und Wirtschaftswissenschaftliche Fakultät
Fachbereich Wirtschafts- und Sozialwissenschaften

Friedrich-Alexander-Universität Erlangen-Nürnberg

                       zur
     Erlangung des Doktorgrades Dr. rer. pol.

                  vorgelegt von
              Fabian Pfaffenberger
                  aus Nürnberg
Als Dissertation genehmigt

von der Rechts- und Wirtschaftswissenschaftlichen Fakultät /
vom Fachbereich Wirtschafts- und Sozialwissenschaften
der Friedrich-Alexander-Universität Erlangen-Nürnberg

Tag der mündlichen Prüfung: 07.04.2021

Vorsitzende/r des Promotionsorgans: Prof. Dr. Klaus Henselmann

Gutachter/in:      Prof. Dr. Christina Holtz-Bacha

                   Prof. Dr. Reimar Zeh
Social Bots in der politischen Twittersphäre – Identifikation und Relevanz

Inhaltsverzeichnis

Gesamtbetrachtung von Socials Bot auf Twitter .................................................................................. 1
         1. Vom Forschungsproblem zum Forschungstrend ................................................................ 1
         2. Vorgehen ................................................................................................................................. 5
         3. Ergebnisdiskussion ................................................................................................................ 7

Aufsatz 1: What you tweet is what we get? Zum wissenschaftlichen Nutzen von
Twitter‐Daten ................................................................................................................................................. 13

Aufsatz 2: Was bin ich – und wenn ja, wie viele? Identifikation und Analyse von
Political Bots während des Bundestagswahlkampfs 2017 auf Twitter..................................... 15

Aufsatz 3: The overestimated danger? Twitter bots in the 2019 European
elections campaign ....................................................................................................................................... 17
         1. Introduction .......................................................................................................................... 18
         2. Social Bots - definitions and classifications........................................................................ 19
         3. Methodology ......................................................................................................................... 21
         4. Analysis at the account level ............................................................................................... 24
            4.1        High Performers ................................................................................................................................. 26
            4.2        Duplicators............................................................................................................................................ 27
            4.3        Comparison of both analysis clusters ........................................................................................ 28
         5. Tweet-level analysis ............................................................................................................. 31
         6. Comparison with English-language tweets ........................................................................ 34
            6.1        Account level ........................................................................................................................................ 35
            6.2        Tweet level ............................................................................................................................................ 38
         7. The overestimated danger of social bots in the political context ..................................... 39
         Bibliography ................................................................................................................................ 42
         Appendix ..................................................................................................................................... 47

Zusammenfassung ......................................................................................................................................... III

Literaturverzeichnis ..................................................................................................................................... IV

                                                                                         I
Social Bots in der politischen Twittersphäre – Identifikation und Relevanz

                    Gesamtbetrachtung von Socials Bot auf Twitter
                                              von Fabian Pfaffenberger

1. Vom Forschungsproblem zum Forschungstrend

Seit seinem Start im Jahr 2006 hat der Kurznachrichtendienst Twitter schnell an weltweiter Popularität
gewonnen. Mittlerweile gibt es 192 Millionen täglich aktive Nutzer1 (Twitter Inc., 2021b), die Webseite
von Twitter verzeichnete im August 2020 rund 6,12 Milliarden Aufrufe (SimilarWeb, 2021). Twitter ist
dabei längst nicht nur eine reine Plattform für den Austausch kurzer Status-Updates und der Pflege
sozialer Kontakte, sondern dient inzwischen häufig auch als Verbreitungskanal von Pressemeldungen,
als Kommunikations- und Koordinationsplattform während politischer Unruhen oder Unglücken, als
Werbekanal und auch als Wahlkampfplattform. Spätestens mit der „Twitter-Politik“ während Donald
Trumps Präsidentschaft erhält die politische Twittersphäre2 auch eine hohe Medienresonanz. Die
Debatten um die Beeinflussung des Brexit-Votums und der US-Präsidentschaftswahl im Jahr 2016
führten auch zu einer intensiveren wissenschaftlichen Betrachtung von Twitter – vor allem im
Zusammenhang mit der Verbreitung von Falschnachrichten. Abbildung 1 zeigt den Anstieg an Twitter-
bezogener Berichterstattung und wissenschaftlicher Studien im Zeitverlauf.

    Als Brennglas politischer und gesellschaftlicher Debatten und mit seiner immens hohen, täglich
generierten und größtenteils frei verfügbaren Datenmenge ist Twitter eine populäre und – auf den ersten
Blick – ideale Datenquelle für wissenschaftliche Analysen. Aufgrund ihrer Struktur, Verfügbarkeit und
Aktualität eigenen sich Twitter-Daten für vielerlei Untersuchungsmethoden:                                Inhalts- und
Themenanalysen über Netzwerkanalysen über Semantischen Analysen bis hin zu Zeitreihenstudien.
Dennoch stellt sich die Frage nach der Zuverlässigkeit von Twitter-Daten, deren Repräsentativität,
Echtheit und Aussagekraft. Dabei rückten in letzter Zeit zunehmend auch (Social) Bots in den Fokus
wissenschaftlicher, politischer und medialer Debatten. Social Bots sind „Computerprogramme, die

1Bis zum ersten Quartal 2019 veröffentlichte Twitter die Zahl der mindestens einmal im Monat aktiven Nutzer (Monthly Active
  Users – MAU). Der Wert lag bei etwa 330 Millionen Benutzern. Seit Mitte 2019 gibt Twitter nur noch die Anzahl
  monetarisierbarer täglich aktiver Nutzer an (mDAU), also derer, denen Werbung angezeigt werden kann. Zum Vergleich:
  Diese lag im ersten Quartal 2019 bei 134 Millionen.
2 Unter der politischen Twittersphäre (engl. twittersphere) versteht man im Allgemeinen die Gesamtheit politischer und

  politisch aktiver Twitter-Accounts und Tweets.

                                                              1
Social Bots in der politischen Twittersphäre – Identifikation und Relevanz

darauf ausgerichtet sind, in sozialen Netzwerken, beispielsweise auf Facebook oder Twitter, maschinell
erstellte Beiträge wie Kommentare, Antworten oder Meinungsäußerungen zu generieren, um Diskurse
zu beeinflussen bzw. zu manipulieren“ (Kind, Jetzke, Weide, Ehrenberg-Silies & Bovenschulte, 2017,
S. 9). 2014 berichtete Twitter, dass etwa 8,5 Prozent aller Plattform-Accounts Bots seien (Twitter Inc.,
2014, S. 3). Weitere Studien zeigten sogar Anteile von 15 (Varol, Ferrara, Davis, Menczer & Flammini,
2017) und 16 Prozent (Zhang & Paxson, 2011, S. 102). Im Jahr 2015 veranstaltete die Defense Advanced
Research Projects Agency (DARPA), eine Behörde des Verteidigungsministeriums der Vereinigten
Staaten, eigens einen vierwöchigen Wettbewerb zu Twitter-Bots, bei dem zahlreiche Teams von
Programmierern und Wissenschaftlern Ansätze zur Bot-Identifikation präsentierten (Subrahmanian et
al., 2016).

Abbildung 1: Auf Medien- und Forschungsdatenbanken erfasste Twitter-bezogene Berichterstattung
und Studien

   Im Jahr 2016 befasste sich nach Berichten über den vielfachen Einsatz von Social Bots während des
Brexit-Votums und der damaligen US-Präsidentschaftswahl auch eine Expertenkommission für den
Deutschen Bundestag mit der „Untersuchung von Gefahren durch eine mögliche Manipulation

                                                       2
Social Bots in der politischen Twittersphäre – Identifikation und Relevanz

politischer Diskussionen und Trends in sozialen Netzwerken“ (Kind et al., 2017, S. 7). Diese kam unter
anderem zum Ergebnis, dass Social Bots unter bestimmten Voraussetzungen, beispielsweise bei
knappen Wahlentscheidungen, politische Entscheidungsprozesse beeinflussen können, wenngleich die
Relevanz von Bots auf Twitter von Experten unterschiedlich eingeschätzt wird (Kind et al., 2017, S. 40).
Dennoch erhält das Thema vor allem im Kontext politischer Ereignisse und Krisen, wie der
Bundestagswahl 2017 (Schrader, 2016), der Europawahl 2019 (Bendiek & Schulze, 2019), der Corona-
Pandemie (Kim, 2020) und der US-Präsidentschaftswahl 2020, hohe Aufmerksamkeit. Während
manche Experten und Politiker vor einer Meinungsmanipulation warnen und sogar von
Wahlbeeinflussung sprechen, sehen andere eine Überdramatisierung aufgrund der häufig geringen
Reichweite von Social Bot Accounts und der Tatsache, dass Botschaften von Bots im alltäglichen
Informationsfluss nur einen geringen Anteil hätten (Reuter, 2019).

   Die Nutzerzahl von Twitter ist im Vergleich zu anderen Social-Media-Kanälen, gerade in
Deutschland, gering (We Are Social, Hootsuite & DataReportal, 2021). Zudem gibt es Hinweise, dass
Twitter einen im Vergleich zur Gesellschaft überproportional hohen Anteil an Eliten und
Entscheidungsträgern (beispielsweise aus Politik und Wirtschaft) und höher gebildeten Menschen
aufweist (Hölig, 2018; Wojcik & Hughes, 2019). Demgegenüber steht jedoch die große Reichweite
einzelner Twitter-Akteure, deren Botschaften zusätzlich über Massenmedien multipliziert werden. Laut
einer Befragung in Deutschland im Jahr 2017 glaubten 42 Prozent an einen Einfluss von Social Bots auf
den US-Wahlkampf 2016 oder die Brexit-Kampagne (Fittkau & Maaß Consulting GmbH, 2017). In
einer Studie von PricewaterhouseCoopers (2017) gaben 37% der Befragten an, sie hätten wissentlich
oder möglicherweise Social Bots wahrgenommen.

   Dabei ist das Erscheinungsbild von Social Bots sehr diffus und ihre Identifikation variiert mit dem
Grad ihrer Komplexität, Ausgereiftheit und Funktionsweise. Während alle Socials Bots eint, dass sie
menschliches (Kommunikations-)Verhalten imitieren sollen, indem sie beispielsweise bei Twitter
anderen Accounts folgen oder eigene Tweets verbreiten, agieren und wirken sie im Detail jedoch sehr
unterschiedlich. Ihre Funktion lässt sich in drei Kategorien gliedern, deren Übergang fließend verläuft,
da Bots je nach Komplexität auch mehrere Aufgaben übernehmen können. Als Überlaster überfluten
Social Bots Diskussionsstränge mit einer Vielzahl ähnlicher bis identischer Gegenaussagen, um eine
echte Diskussion zu unterbinden oder die Sichtbarkeit unerwünschter Kommentare zu minimieren. Die
Funktionsweise von Auto-Trollen ähnelt sich der von Überlastern, ist jedoch komplexer: Hier werden
einzelne Nutzer über unpassende oder beleidigende Kommentare in neue, thematisch fremde
Diskussionen verwickelt, um von der eigentlichen Debatte abzulenken. (Bundeszentrale für politische
Bildung, 2017)

   Trendsetter (engl. Astroturfer) hingegen verfolgen eine simple und potenziell mächtige Strategie:
Als sogenannte Bot-Armeen, deren Größe von wenigen Accounts bis zu ganzen Netzwerken variiert,

                                                       3
Social Bots in der politischen Twittersphäre – Identifikation und Relevanz

verbreiten Accounts gemeinsam innerhalb kurzer Zeit eine gleiche Botschaft oder nutzen das gleiche
Hashtag. Da Twitter momentan populäre Themen und Hashtags auflistet (sogenannte Trending
Topics/Hashtags), können koordinierte Aktivitäten tausender Bots gezielt thematische Trends setzen
und die jeweils kommunizierte Botschaft eine Bedeutung in der öffentlichen Debatte erlangen (Stieglitz,
2018). Zudem beobachten viele Medien und Politiker diese Trends, weshalb Trendsetter auch Politiker
dazu verleiten könnten, „in ihren Statements oder sogar in ihrer Politik auf solche Trends einzugehen
wodurch die Position, für die die Bots stehen, unter Umständen einen Zuspruch erhält, den die Bots
alleine nicht erreicht hätten“ (Hegelich, 2016, S. 3). Social Bots können daher als Agenda Setter agieren
(Bessi & Ferrara, 2016).

   Da eine politische Beeinflussung durch Bots jedoch nur schwer nachzuweisen ist (Kind et al., 2017,
S. 30–33), befasst sich die Wissenschaft überwiegend mit der Identifikation von Bots. Die stetig
wachsende Zahl an Bot-Erkennungsverfahren unterscheidet sich jedoch stark hinsichtlich Qualität,
Komplexität und Methodik. Die von Latah (2020) erarbeitete umfassende Taxonomie bestehender
Methoden zur Erkennung von Social Bots verdeutlicht die methodische und technische Bandbreite.

Abbildung 2: Taxonomie von Bot-Erkennungsmethoden (Bildquelle: Latah, 2020, S. 6)

   Die Abschätzung des Ausmaßes von Bot-Aktivität auf Twitter variiert dabei je nach Studie und
Methodik. Manche Studien identifizierten größere Cluster von Social Bots: Als einer der ersten
aufgedeckten Fälle des großvolumigen Einsatzes von Social Bots im politischen Kontext kann die

                                                       4
Social Bots in der politischen Twittersphäre – Identifikation und Relevanz

Präsidentschaftswahl in Mexiko 2012 gesehen werden. Dort wurde ein Netzwerk automatisierter
Twitter-Accounts, sogenannter Peñabots3, zur Verbreitung regierungsfreundlicher Propaganda und zur
Diskreditierung und Marginalisierung regierungskritischer Meinungen in sozialen Medien eingesetzt
(Andrade, 2013). Hegelich und Janetzko (2016) ermittelten circa 15.000 Twitter-Accounts, die während
des Ukraine-Konflikts im Durchschnitt 60.000 Meldungen pro Tag verfassten und pro-russische
Propaganda verbreiteten. Laut Howard und Kollanyi (2016, S. 4) wurden etwa 14 Prozent aller Tweets
zum Brexit durch hochautomatisierte Accounts verfasst, nach Bessi und Ferrara (2016) waren während
der US-Präsidentschaftswahlkampf 2016 etwa 400.000 Bots aktiv. Ferrara, Chang, Chen, Muric und
Patel (2020) identifizierten auch im nachfolgenden US-Wahlkampf 2020 zahlreiche Bots, schätzten
deren Einfluss jedoch geringer als bei der Wahl 2016 ein.

      Während es zahlreiche prominente Fälle des massenhaften Einsatzes von Social Bots gibt, die auch
in den Medien vielfach thematisiert wurden, ist die Wissenschaft uneins über das tatsächliche Ausmaß
und die Einflussmöglichkeiten von Bot-Aktivitäten auf Twitter. Kritiker bemängeln das methodische
Vorgehen einiger Studien bei der Daten-Erhebung, Identifikation und Interpretation (Assenmacher et
al., 2020; Kreil, 2019; Rauchfleisch & Kaiser, 2020). Die uneinheitliche Definition von Social Bots
erschwert die Vergleichbarkeit der Forschungsergebnisse (Gensing, 2020). Diese Fehler können dazu
führen, dass Accounts irrtümlich als Social Bots identifiziert werden (sogenannte False Positives) oder
deren Einflussbereich zu hoch eigeschätzt wird. Auch in der Expertenkommission für den Deutschen
Bundestag überwiegt die Meinung, dass von Socials Bots zwar eine Gefahr ausgehen kann, Belege einer
erfolgreichen Beeinflussung großer gesellschaftlicher Gruppen bisher aber überwiegend ausblieben
(Kind et al., 2017, S. 33).

      Es stellt sich folglich die Frage nach dem Ausmaß von Bot-Aktivität auf Twitter und deren
tatsächlicher Relevanz im politischen Kontext. Die hier vorliegende Arbeit soll einen theoretisch-
methodischen Beitrag zu dieser Debatte leisten, indem sie einerseits die allgemeine wissenschaftliche
Eignung von Twitter-Daten diskutiert und schließlich anhand eines eigenen methodischen Ansatzes zur
Bot-Identifikation die Relevanz von Social Bots in der politischen Twittersphäre erörtert.

2. Vorgehen

Die erste Arbeit „What you tweet is what we get? Zum wissenschaftlichen Nutzen von Twitter‐Daten“
(Aufsatz 1) setzt sich grundlegend mit der Eignung von Twitter als wissenschaftliche Datenquelle
auseinander. Die Bewertung erfolgt anhand der Dimensionen Verfügbarkeit und Vollständigkeit,

3   In Anlehnung an den damaligen Präsidentschaftskandidaten Peña Nieto, in dessen Sinne die Bots agierten.

                                                                5
Social Bots in der politischen Twittersphäre – Identifikation und Relevanz

Qualität, Sprache und Repräsentativität. Ein kritischer Aspekt ist die mangelnde Repräsentativität und
Qualität der Daten – unter anderem aufgrund der automatisierten Verbreitung von (politischen)
Botschaften durch Bots. Twitter ermöglicht zwar einen einfachen Datenzugang für wissenschaftliche
Zwecke, garantiert aber je nach Datenzugang keine Vollständigkeit der Daten. Fake-Accounts und
automatisiert verbreitete Botschaften können nicht nur Debatten auf Twitter beeinflussen, sondern auch
die Aussagekraft eines Datensatzes einschränken, wenn beispielsweise zahlreiche identische
Botschaften und Meinungen eines einzelnen gesteuerten Accounts oder einer Gruppe den Datensatz
dominieren.

      Daher widmet sich die Studie „Was bin ich – und wenn ja, wie viele? Identifikation und Analyse von
Political Bots während des Bundestagswahlkampfs 2017 auf Twitter“ (Aufsatz 2) ausführlich der
Identifikation und Aktivität von Social Bots auf Twitter. Nach einem Überblick verschiedener Aufgaben
und Funktionen von Bots sowie der Forschung zu Bots soll anhand eines eigenen, zweistufigen
methodischen Ansatzes überprüft werden, ob eine Aktivität von Social Bots im politischen Kontext
nachgewiesen werden kann. Um das Ausmaß von Bot-Aktivität auf Twitter zu messen, wird während
der Bundestagswahl 2017 – als einem politischen Großereignis – ein computerlinguistischer4 zu Ansatz
zur Bot-Identifikation mittels Nahduplikat-Analyse angewandt. Dieses Verfahren ermittelt verdächtige,
möglicherweise automatisierte Accounts anhand ihres Anteils jeweils inhaltlich ähnlicher Tweets und
basiert auf der Annahme, dass Nutzer, die häufig nahezu identische Inhalte verbreiten, mit hoher
Wahrscheinlichkeit automatisiert sind. In einem zweiten Schritt erfolgt schließlich eine manuelle
quantitative und qualitative Sichtung und Bewertung dieser ermittelten Accounts anhand ihrer
verbreiteten Inhalte und ihres Tweet-Verhaltens.

      Um die Ergebnisse aus Aufsatz 2 zu validieren, wird in der Folgestudie „The overestimated danger?
Twitter bots in the 2019 European elections campaign“ (Aufsatz 3) das methodische Verfahren im
Kontext der Europawahl 2019 erneut angewendet, jedoch um die Identifikation von Account-Clustern
ergänzt, die jeweils nahezu identische Inhalte verbreiten. Diese methodische Erweiterung erlaubt nicht
nur individuelle Aussagen über Accounts, sondern auch Aussagen über die Existenz von Account-
Netzwerken, die jeweils gleiche oder sehr ähnliche Tweets verbreiten. Zudem berücksichtigt die
Analyse nicht mehr nur deutschsprachige Tweets, sondern auch englischsprachige. Die gesonderte
Betrachtung beider Sprachen kann datenspezifische Fehlerquellen ausschließen (wie sprachenbezogene
Probleme bei der Nahduplikat-Analyse) und ermöglicht andererseits Aussagen über etwaige
länderspezifische Unterschiede.

4   Der Taxonomie von Abbildung 2 folgend sind computerlinguistische Ansätze Teil des Natural Language Processing.

                                                              6
Social Bots in der politischen Twittersphäre – Identifikation und Relevanz

3. Ergebnisdiskussion

Aufsatz 1 setzte sich mit der grundlegenden Frage auseinander, inwieweit Twitter-Daten überhaupt für
wissenschaftliche Analysen geeignet sind und welche sie bei der Analyse gesellschaftlicher, politischer
oder wirtschaftlicher Phänomene spielen können. Die kritische theoretisch-methodische Betrachtung
hebt mehrere problematische Aspekte hervor: Grundsätzlich lassen sich Twitter-Daten relativ einfach
erheben, allerdings besteht unter bestimmten Umständen (Großereignissen mit einer sehr hohen Tweet-
Aktivität) das Risiko, nicht alle der verbreiteten Tweets zu erfassen. Dies lässt sich jedoch mit
komplexeren Erhebungsmethoden oder gekauften Datensätzen umgehen. Zudem spielt dieses Problem
der Daten-Deckelung nur bei der Betrachtung von Großereignissen oder sehr populären Themen eine
Rolle. Ein weiteres Problem ist die geringe Repräsentativität der Nutzer-Zusammensetzung auf Twitter.
Mehrere Studien verweisen nicht nur auf die vergleichsweise geringen Nutzerzahlen, sondern auch auf
eine hinsichtlich Bildungsstand, Interessen und Alter nicht mit der Gesamtbevölkerung vergleichbare
Nutzerstruktur (Hölig, 2018; König & König, 2018; Wojcik & Hughes, 2019). Eine größere
Herausforderung stellen jedoch die Unvollständigkeit und Qualität der übermittelten Daten dar, zu
denen Twitter keine genauen Angaben macht. So fehlen beispielsweise nutzerspezifische Merkmale
(wie   Alter,   Geschlecht    und   Nationalität).   Eine inkonsistente      Hashtagnutzung    (z.B.   mit
themenbezogenen Tweets ohne Hashtag) und ein oft fehlender Konversationszusammenhang
erschweren die Analyse zusätzlich. Ein großes Problem stellt die geringe Daten-/Nutzerauthentizität dar,
die sich von bewussten Falschangaben (wie Name oder Standort) bis hin zu Fake-Accounts und
gesteuerten Accounts (Bots) erstreckt. Dies verschlechtert die Repräsentativität zusätzlich.

   Einige der im ersten Aufsatz kritisierten Punkte wurden mittlerweile von Twitter überarbeitet, um
insbesondere die Nutzung von Twitter als wissenschaftliche Datenquelle zu vereinfachen und zu fördern
(Tornes & Trujillo, 2021). So aktivierte das Unternehmen im Juli 2020 eine neue Version ihrer API und
ermöglicht nun beispielsweise Wissenschaftlerinnen und Wissenschaftlern einen „Academic Research“-
Zugang, der nicht nur einen umfangreicheren Datenzugang in Bezug auf Zeitraum und Datenvolumen
ermöglicht, sondern auch eigens kuratierte, große Datensätze zu bedeutenden Ereignissen (wie der
Corona-Pandemie) zur Verfügung stellt (Cairns & Shetty, 2020; Twitter Inc., 2021a). Zudem geht
Twitter mittlerweile verstärkter und transparenter gegen Fake-Accounts und Bots vor (Roth & Pickels,
2020; Twitter Inc., 2021c).

   Aufgrund der Tatsache, dass der Zugriff für Forschende mittlerweile deutlich verbessert und das
Vorgehen gegen Socials Bots intensiviert wurde, können Twitter-Daten eine gute und in manchen
Fällen, wie bei der Beobachtung gesellschaftlicher Phänomene, auch sehr sinnvolle Basis für Studien
sein. Allerdings nur unter Berücksichtigung der weiterhin vorhandenen Einschränkungen und
Kritikpunkte, wie der mangelnden Repräsentativität und Validität der Daten. Die Zahl der Ansätze zur

                                                       7
Social Bots in der politischen Twittersphäre – Identifikation und Relevanz

Bot-Identifikation und deren Komplexität nimmt zwar kontinuierlich zu, was nicht nur die gesammelten
Daten besser bereinigen lässt, sondern auch eine neue (Teil-)Disziplin in der Forschung geschaffen hat.
Es gibt aber dennoch ein „Wettrüsten“ (Cresci, Di Pietro, Petrocchi, Spognardi & Tesconi, 2017, S. 963)
zwischen Entwicklern und Nutzern von Algorithmen zur Steuerung von Accounts einerseits und den
Entwicklern von Identifikationsmethoden und Social Media Plattformen andererseits. Dabei besteht
jedoch auch die Gefahr, mit hochtechnisierten, vollautomatischen Bot-Erkennungsmethoden auch echte
Nutzer als Social Bots zu klassifizieren (Rauchfleisch & Kaiser, 2020), da sich ihr Verhalten dessen
automatisierter Accounts ähnelt oder von einem typischen menschlichen Verhalten abweicht.

   Der in Aufsatz 2 angewandte mehrstufige Identifikationsmechanismus versucht daher, dieses
Problem der false positives zu minimieren. Zwar erfolgt auch bei diesem Ansatz zunächst eine
computergestützte Selektion „verdächtiger“ Accounts, allerdings werden diese nicht direkt als Social
Bots klassifiziert, sondern einer weiteren, manuellen Analyse unterzogen. Dies ermöglicht eine
detailliertere Betrachtung, nicht nur deren Tweet-Verhaltens, sondern auch deren Vernetzung und
Account-Details. Der Analysefokus lag bei dieser Studie auf deutschsprachigen Tweets. Zumeist
analysierten bisherige bot-bezogene Studien politische Ereignisse in den USA (oder Großbritannien).
Gerade in den USA herrscht jedoch ein weitgehend polarisiertes Politik- und Medienumfeld vor, Wahlen
gehen häufig sehr knapp aus. In diesem dynamischen Umfeld können Social Bots bei einem
„politische[n] Kulminationspunkt“ (Kind et al., 2017, S. 36), wie einer knappen Wahlentscheidung,
politische Entscheidungsprozesse beeinflussen. In dieser Studie wurde daher mit der Bundestagswahl
2017 bewusst ein anderer politischer Kontext gewählt, um auch abseits sehr knapper politischer
Entscheidungen nach Bot-Aktivitäten zu suchen.

   Die hier genutzte computerlinguistische Methode zur Identifikation mittels Nahduplikat-Analyse auf
Account-Ebene (also die individuelle Betrachtung der Nutzer ohne deren inhaltlicher Vernetzung mit
anderen Accounts) ist aufgrund ihrer Simplizität weniger effektiv als die ungleich komplexeren
Machine-Learning-Ansätze. Schließlich ignoriert der Ansatz andere Wirkungsmechanismen abseits der
Verbreitung jeweils ähnlicher Tweets, wie das massenweise Retweeten von Botschaften, um deren
Reichweite und Sichtbarkeit zu erhöhen. So besteht zwar die Möglichkeit, aus einen großen Datensatz
einzelne auffällige Accounts zu identifizieren und diese einer detaillierten Betrachtung zu unterziehen.
Die Selektion dieser Accounts über deren individuellen Nahduplik-Anteil kann jedoch zu
eindimensional sein.

   Daher erweitert Aufsatz 3 den Selektions- und Analyseprozess auf die Tweet-Ebene, um auch
Aussagen darüber treffen zu können, ob es Account-Netzwerke gibt, die jeweils ähnliche oder identische
Tweets verbreiten. Der thematische Kontext, die Europawahl 2019, erlaubt zudem eine Erweiterung des
Analysefokus um englischsprachige Tweets, um korpus- und sprachenspezifische Effekte

                                                       8
Social Bots in der politischen Twittersphäre – Identifikation und Relevanz

auszuschließen. Da sich Aufsatz 2 auf rein deutschsprachige Tweets beschränkte, besteht die Gefahr
unbekannter, sprachenspezifischer Einflüsse, zum Beispiel auf die Datenqualität (deutschsprachige
Datensätze zu einem Thema sind zumeist kleiner als englischsprachige, da viele Nutzer für eine größere
Reichweite auf Englisch twittern) oder die Datenverarbeitung (unterschiedliche Größe der Wortschätze;
unterschiedliche Eignung von Verarbeitungsprogrammen für bestimmte Sprachen). Das in beiden
Studien für die Vorverarbeitung genutzte Softwarepaket zur Tokenisierung und Satztrennung, SoMaJo
(Proisl & Uhrig, 2016) wurde jedoch speziell für deutsch- und englischsprachige Internet- und Social
Media-Texte        entwickelt,      weshalb   zumindest      die      Wahrscheinlichkeit    einer    methodischen
sprachenspezifischen Beeinflussung der Daten durch deren Vorverarbeitung gering erscheint.

      Beide Studien deckten einzelne, in Bezug auf ihren Umfang und ihre Reichweite begrenzte Versuche
der Einflussnahme auf politische Debatten auf. Insgesamt gab es jedoch nur schwache Hinweise auf
umfangreiche Aktivitäten von Social Bots im Sinne der Verbreitung politischer Botschaften und der
Beeinflussung von Meinungen. Die Mehrzahl der identifizierten, hochwahrscheinlich automatisierten
Accounts hatte nur eine geringe Reichweite. Die zwei Analysen mit jeweils begrenzten Stichproben
lassen zwar keine Verallgemeinerung zu, geben jedoch Hinweise einer möglicherweise allgemeinen
Überschätzung der Bedeutung von Social Bots hinsichtlich deren Reichweite und Einflussmöglichkeiten
im politischen Kontext.

      Laut Assenmacher et al. (2020) weisen viele eingesetzte Bots nur eine simple Funktionsweise auf,
wogegen (Cresci, 2020, S. 72) vor zunehmenden Auswirkungen von Bots auf die Gesellschaft warnt:
„[W]e witnessed […] the emergence of a strident dissonance between the multitude of efforts for
detecting and removing bots, and the increasing effects these malicious actors seem to have on our
societies”. Bot-Identifikationsmethoden werden in der Tat immer multidimensionaler und komplexer
und analysieren mittlerweile neben Account-Eigenschaften, verbreiteten Inhalten sowie Kontakt- und
Interaktionsnetzwerken sogar die Session-Aktivität5 von Twitter-Nutzern, um ein mögliche Steuerung
durch künstliche Intelligenz zu erkennen (Pozzana & Ferrara, 2020).

      Insgesamt     stellt   sich   jedoch    die   Frage,       ob   die   mittlerweile   teils    hochkomplexen
Identifikationsverfahren, die zum Erkennen angeblicher künstlicher Intelligenz (KI) benötigt werden,
keine Socials Bots identifizieren, sondern womöglich Menschen. Die in Aufsatz 2 und 3 vollzogenen
Analysen deckten auf, dass einige, zunächst hinsichtlich ihres Tweet-Verhaltens (Aktivität, Tweet-
Häufigkeit, Inhalt) auffällige Accounts, von (politisch) hochmotivierten und hochaktiven Menschen
genutzt wurden. Hinter größeren Account-Clustern mit identischen Tweets standen zumeist konzertierte

5
    Unter der Session-Aktivität versteht die gesamte Account-Aktivität zwischen dem Zugriff auf das eigene Twitter-
    Profil und dem Verlassen der Plattform.

                                                             9
Social Bots in der politischen Twittersphäre – Identifikation und Relevanz

Online-Aktionen, bei denen Menschen eine Teilen-Funktion mit vordefinierter Botschaft nutzen. Ein
wirkungsvollstes Mittel der Beeinflussung von Debatten, das massenhafte Verbreiten gleicher
Botschaften, bedarf also nicht unbedingt einer ausgeklügelten KI, sondern nur motivierter Menschen.
Dies deckt sich mit den Ergebnissen einer Studie im Kontext des Bundestagswahl 2017, die sich mit
zahlreichen inoffiziellen Unterstützer-Accounts der AfD befasste, welche gezielt Werbung für die Partei
machten: Demnach „waren es keine Roboter, die diese Armee von pseudonymen Accounts bedienten,
sondern echte Personen“ (Reuter, 2019). Auch Kreil (2019) ermittelte bei der nachträglichen
Betrachtung von Bot-Studien zahlreiche falsch-positiv identifizierte Bots, hinter denen in Wirklichkeit
politisch motivierte Menschen steckten. In diesem Zusammenhang bleibt folglich auch die Frage offen,
ob nicht von hochmotivierten und hochaktiven Menschen eine größere Gefahr als von Bots ausgeht.

   Die gewonnenen Erkenntnisse dieser Arbeit sollten als Anstoß für eine differenzierte Betrachtung
von Social Bots, deren Identifikation und Relevanz dienen. Social Bots haben zweifelsohne das
Potenzial, Debatten und Stimmungsbilder zu beeinflussen. So zeigten auch Ross et al. (2019), dass
bereits eine niedrige Zahl von Bots (Auto-Tolls, Überlaster) genügt, um Nutzer in einer kontroversen
Diskussion zum Schweigen zu bringen. Dadurch stiege die Wahrscheinlichkeit, dass sich die von den
Bots gestützte Meinung durchsetzt, von 50 Prozent auf circa zwei Drittel. Dies würde ein falsches
Stimmungsbild vermitteln. Auch bei der Verbreitung von Fake News spielen Social Bots eine große
Rolle (Shao et al., 2018). Betrachtet man das Phänomen der Social Bots aber im medialen, politischen
und   gesellschaftlichen   Gesamtkontext,      ist   Twitter   zwar    eine   in   der   Politik   populäre
Kommunikationsplattformen, aber dennoch nur eine von vielen. Die zunehmende Debatte über Social
Bots stärkt zudem das Bewusstsein in der Gesellschaft über deren Existenz und Wirkungsweise.

   Viele Studien differenzieren bei der Bot-Identifikation nur zwischen zwei Klassen: zwischen
(wahrscheinlichen) Social Bot und (wahrscheinlich) durch Menschen gesteuerten Accounts. Dies
ignoriert jedoch das eigentliche Kontinuum zwischen intelligenten, autonom handelnden KIs und
Menschen. Zwischen diesen beiden Extremen lassen sich – zusammengefasst unter der Bezeichnung
„Cyborg“ – verschiedenste Anwendungsfälle der Teil-Automatisierung eingliedern, wie beispielsweise
Menschen, die ihren Twitter-Account unter Beihilfe von Programmen nutzen. Eine zentrale Frage im
Kontext der Diskussion über die Identifikation und Reichweite von Social Bots betrifft daher die
technische Definition. Wann ist ein Account ein Social Bot? Wenn dahinter eine ausgeklügelte,
hochintelligente künstliche Intelligenz steht? Wenn Nutzer automatisch Inhalte eines anderen Accounts
retweeten? Wenn die Veröffentlichung von Inhalten zeitlich geplant wird? Oder wenn ein Account Teil
eines von Menschen gesteuerten Netzwerks ist? Die starke Verflechtung von menschlicher und
computergenerierter Aktivität verhindert eine trennscharfe Betrachtung von (teil-)automatisierter
Twitter-Aktivität. In letzter Zeit taucht mit sogenannten „Fake-Influencern“ zudem ein neues Instrument
zur Beeinflussung politischer Debatten und öffentlicher Meinungen auf. Dies sind nicht real existierende

                                                      10
Social Bots in der politischen Twittersphäre – Identifikation und Relevanz

Persönlichkeiten, die von einer oder mehreren Personen erschaffen und koordiniert werden, einen
menschliche Identität vortäuschen und aktiv mit anderen Nutzern interagieren (Reuter, 2017; Shane,
2017; Xia et al., 2019). Populäre Beispiele sind „Jenna Abrams“, eine nichtexistierende, russische
Propaganda verbreitende junge Amerikanerin, deren Account jedoch aus Russland gesteuert wurde,
sowie ein Konto mit dem Namen „Balleryna“, das sich im Kontext der Bundestagswahl 2017 als
deutsch-russische 17-Jährige ausgab, später aber zu einem AfD-Fan-Account wurde. Hinter beiden
Accounts steckte jedoch keine künstliche Intelligenz, sondern menschliche.

                                                     11
Social Bots in der politischen Twittersphäre – Identifikation und Relevanz

                                     12
Social Bots in der politischen Twittersphäre – Identifikation und Relevanz

                                Aufsatz 1:
          What you tweet is what we get? Zum wissenschaftlichen
                       Nutzen von Twitter‐Daten
                                         von Fabian Pfaffenberger

Veröffentlicht:

Pfaffenberger, F. What you tweet is what we get? Publizistik 63, 53–72 (2018). Abrufbar unter:
doi:10.1007/s11616-017-0400-2

                                                       13
Social Bots in der politischen Twittersphäre – Identifikation und Relevanz

                                     14
Social Bots in der politischen Twittersphäre – Identifikation und Relevanz

                                  Aufsatz 2:
                    Was bin ich – und wenn ja, wie viele?
         Identifikation und Analyse von Political Bots während des
                  Bundestagswahlkampfs 2017 auf Twitter
                   von Fabian Pfaffenberger, Christoph Adrian und Philipp Heinrich

Veröffentlicht:

Pfaffenberger F., Adrian C., Heinrich P. (2019) Was bin ich – und wenn ja, wie viele?. In: Holtz-
Bacha C. (Hg.). Die (Massen-)Medien im Wahlkampf. Springer VS, Wiesbaden. Abrufbar unter:
doi:10.1007/978-3-658-24824-6_5

Koautoren:

Christoph Adrian (Anteil: 40%) wissenschaftlicher Mitarbeiter am Lehrstuhl für
Kommunikationswissenschaft an der Friedrich-Alexander-Universität Erlangen-Nürnberg.
Masterstudium der Sozialökonomik mit den Schwerpunkten Medien-, Markt- und Sozialforschung.
Forschungsschwerpunkte: Computational Methods, Umweltkommunikation und Politische
Kommunikation.
Philipp Heinrich (Anteil: 10%) ist wissenschaftlicher Mitarbeiter am Lehrstuhl für Korpus- und
Computerlinguistik der Friedrich-Alexander-Universität Erlangen-Nürnberg. Zu seinen
Forschungsschwerpunkten zählen die automatische Verarbeitung von Daten aus sozialen Medien
sowie die methodologische Weiterentwicklung korpusbasierter Diskursanalyse. Sein
Promotionsprojekt beschäftigt sich mit der Erforschung der transnationalen algorithmischen

                                                       15
Social Bots in der politischen Twittersphäre – Identifikation und Relevanz

                                     16
Social Bots in der politischen Twittersphäre – Identifikation und Relevanz

                                  Aufsatz 3:
                          The overestimated danger?
            Twitter bots in the 2019 European elections campaign
                            von Fabian Pfaffenberger und Philipp Heinrich

Dieser Beitrag ist bereits in deutscher Fassung erschienen:

Pfaffenberger F., Heinrich P. (2020). Die überschätzte Gefahr? Twitter-Bots im Europawahlkampf
2019. In: Holtz-Bacha C. (Hg.) Europawahlkampf 2019. Springer VS, Wiesbaden. doi:10.1007/978-3-
658-31472-9_4

Koautor:

Philipp Heinrich (Anteil: 25%) ist wissenschaftlicher Mitarbeiter am Lehrstuhl für Korpus- und
Computerlinguistik der Friedrich-Alexander-Universität Erlangen-Nürnberg. Zu seinen
Forschungsschwerpunkten zählen die automatische Verarbeitung von Daten aus sozialen Medien
sowie die methodologische Weiterentwicklung korpusbasierter Diskursanalyse. Sein
Promotionsprojekt beschäftigt sich mit der Erforschung der transnationalen algorithmischen

Abstract:

In light of the debate about the relevance and outgoing danger of social bots in the political context,
this paper investigated whether there was any notable activity of automated Twitter accounts in the
context of the 2019 European election. The analysis refers to German- and English tweets from the
crucial phase of the European elections campaign and uses a multi-stage identification and validation
procedure for bot-like activities. The study does not solely rely on parameter-based methods, as many
other bot classification studies do, but uses a content-based near-duplicate detection algorithm to
identify suspicious Twitter accounts (with a high proportion of near duplicates). Overall, this study
could not identify any bot networks or clusters of accounts, which likely are automated and show a
significant activity in terms of spreading political messages or influencing debates in the context of the
European elections. This raises the question of whether the importance and influence of social bots are
overestimated.

                                                      17
Social Bots in der politischen Twittersphäre – Identifikation und Relevanz

1. Introduction

Between the “reality of digital public spheres” (Klinger, 2019) and “The army that never existed” (Kreil,
2019) - in the media-led debate, not only journalists but also academics and politicians discuss “the
problem with social bots” (Gensing, 2020). Social bots are accounts controlled by computer programs
that mimic a human identity, communicate like humans, and can thus also be used for manipulative
purposes (Kind et al., 2017). On the one hand, the public debate deals with the danger posed by social
bots through their dissemination of fake news, influence on opinions or defamation of political
opponents - and on the other hand, it also raises elementary questions. In particular, the recent discussion
between political scientist Simon Hegelich and media computer scientist Florian Gallwitz as well as
data analyst Michael Kreil in the context of an expert survey for the Enquete-Kommission KI des
Deutschen Bundestages (“Enquete Commission on AI of the German Bundestag”) illustrates the
disagreement among academics about the relevance or even existence of social bots in the political
context (Gallwitz, 2020a, 2020b; Hegelich, 2020a, 2020b).

   Especially with regard to the intense debate about the use of social bots for influencing debates,
agenda setting, or spreading spam and fake news in social media, the negative connotation of the term
bot often prevails. Although social bots are popular use cases and are subject to correspondingly
intensive scientific analysis, the actual multifunctionality of bots in general often goes unnoticed. This
is because there are versatile uses for bots that are not subject to morally or ethically questionable
intentions: Particularly on Twitter, many news organizations use bots that automatically tweet all or
parametrically selected news (for example, breaking news or headlines from the business section) and
link to the actual news story (BBC News Labs, 2019). Another use case for bots in journalism is the so-
called robojournalism (Lokot and Diakopoulos, 2016), where a (partial) automation of news reporting
is carried out by news bots, which, for example in local sports, process simple and pre-structured
information into short news reports. The automatic dissemination of information by bots, when they
share satellite images from an ESA satellite, for example, like @sentinel_bot, is also not subject to bad
intentions, but serves the purpose of information dissemination.

   Undoubtedly, however, there are a variety of ethically, legally, or at least morally questionable uses
for bots. While the use of social bots to influence opinions or spread fake news is only one of many use
cases, it is at the center of scientific and media considerations. In the run-up to the 2019 European
elections, as well as before the 2017 German parliamentary elections, there were discussions about the
risk of influencing voting behavior (Graff, 2017; Tagesschau, 2019) or its relativization (Lypp, 2017;
Reuter, 2019). However, there is undoubtedly the question, to what extent automated accounts are active
on Twitter and whether there is any significant activity at all in the widely discussed political context.

                                                      18
Social Bots in der politischen Twittersphäre – Identifikation und Relevanz

   This study aims to contribute to the already extended debate and analyzes whether there was any
notable activity of automated Twitter accounts in the context of the 2019 European elections. For this
purpose, relevant tweets were collected during the crucial phase of the European elections campaign
and analyzed for bot-like activity using a multi-stage identification and validation procedure. The study
does not solely rely on parameter-based methods, as many other studies on bot classification do, but
uses a content-based near-duplicate detection algorithm to identify conspicuous Twitter accounts (with
a high proportion of near duplicates). These pre-selected accounts are subjected to a manual qualitative
analysis in the second step. This aims to check whether there are conspicuous accounts with a high near-
duplicate rate in the data set that disseminated political content, and how large their share of the total
data set is. However, the observation of near duplicates and their distribution not only allows the
identification of suspicious accounts, but also allows statements about the distribution of similar
messages. Thus, account groups can also be identified, each of which disseminates exact duplicates or
slight variations of a tweet. Therefore, this study will also investigate whether there are account clusters
that shared similar messages.

2. Social Bots ‐ definitions and classifications

Various works have already dealt with an overview and categorization of types, characteristics, and
possible uses of bots (see, among others, Gorwa & Guilbeault, 2018; Pieterson et al., 2017; Stieglitz et
al., 2017b). At first, it was mainly classic spambots that were studied. But in the last years, social bots
as well as sockpuppets and trolls have received a lot of attention from the scientific community. The
definition and interpretation of social bots varies with the intended use: the term socialbot used in the
early phase of bot research describes automated accounts that mimic a fake identity, infiltrate real users'
networks, and spread malicious links or advertisements (Boshmaf et al., 2011). This is also often referred
to as sybils (Alarifi et al., 2016, p. 1). The term social bot (with two words) is in turn a broader and more
flexible concept and includes programs that automatically produce content, interact with people on
social media, and attempt to mimic and potentially change their behavior (Ferrara et al., 2016, p. 2). The
imitation of human identities and activities plays an increasing role (Abokhodair et al., 2015, p. 13;
Hegelich & Janetzko, 2016, p. 582; Stieglitz, Brachten, Berthelé et al., 2017a, p. 381), also to actively
influence the public prioritization and evaluation of issues (Graber & Lindemann, 2018).

   The term sockpuppet is another similar term in the context of bots. It is often used for accounts with
fake identities that interact with other users on social networks under this disguise. Here, the term
includes both automated accounts and accounts controlled by humans (Bastos & Mercea, 2019, p. 2).
Politically motivated sockpuppets are often referred to as trolls, especially when coordinated by
politicians or interconnected actors (Gorwa & Guilbeault, 2018, p. 233).

                                                      19
Social Bots in der politischen Twittersphäre – Identifikation und Relevanz

   Overall, the lines between bots and human-controlled accounts are increasingly blurred. Terms such
as cyborgs and hybrid accounts circumscribe user accounts that fall along the continuum between bot-
assisted humans and human-assisted bots (Chu et al., 2012, p. 811). Bot-assisted humans refer to people
who use their Twitter account with the support of programs, for example, to automatically share news
from a particular RSS feed. Human-assisted bots in turn are algorithms that are controlled by humans
and depend on recurring commands or parameter inputs. An example of such partial automation would
be a bot that identifies popular hashtags from which a controlling person selects suitable ones and the
bot in turn uses these as the basis for automatically generated and distributed messages. A precise
classification of accounts is often difficult: the question of whether, for example, 500 tweets of an
account per day indicate automation or a very active user, or if this person uses utilities to control the
account can rarely be answered at first glance. This obviously also has a negative impact on the quality
and reliability of automatic bot detection methods.

   The multidimensionality of bots, not only in their functions but also in the degree of automation, is
equally reflected in the variety and heterogeneity of approaches on bot identification. These range from
simple, quantitative approaches based on single indicators to complex machine learning-based
classification algorithms. One example of simple, quantitative bot classification is the so-called Oxford
Rule, which is as popular as it is controversial and defines in general accounts with more than 50 tweets
per day as bots (Howard & Kollanyi, 2016, p. 4). Other studies are based on more complex algorithms
that classify (social) bots (Ahmed & Abulaish, 2013; Loyola-Gonzalez et al., 2019; Miller et al., 2014)
or sockpuppets (Bu et al., 2013) based on various parameters. However, a large number of the
approaches use machine learning algorithms (Alarifi et al., 2016; Cai et al., 2017; Chu et al., 2012; Davis
et al., 2016; Daya et al., 2019; Ratkiewicz et al., 2011; van der Walt & Eloff, 2018; Varol et al., 2017;
Yang et al., 2019), most of which analyze and weight multiple characteristics (features) of accounts as
well as their network and tweets, put them in a temporal context, and determine bot likelihood based on
them.

   The majority of bot detection (solely) approaches rely on parameter-based analyses, whereas the
actual content of a tweet is often ignored or the analysis rarely goes beyond the frequency of certain
terms (for example, based on part-of-speech tags), the tweet length, or the information content of
messages (Alarifi et al., 2016; Varol et al., 2017). Solely focusing on quantitative features can be very
helpful, especially for very large or ad hoc analyses, as they can usually be done faster and without
human assistance. Nevertheless, especially the shared content can be of particular interest - if one does
not only want to detect bots, but also analyze their spread messages. In addition, there is another
possibility/dimension of bot identification via the tweets’ content: While many approaches categorize
accounts only based on their individual statistics (e.g., tweet frequencies, number of followers) and thus
classify individually, content-based analyses make it possible to look at entire account groups that share

                                                      20
Social Bots in der politischen Twittersphäre – Identifikation und Relevanz

similar content and that would have been inconspicuous if looked at individually. This also makes it
possible to detect accounts that act as a coordinated network/cluster and only then appear as bots. On
the one hand, the constant repetition of certain messages can cause opposing opinions to be drowned
out by the sheer masses or intimidate their authors (Lypp, 2017). On the other hand, account networks
can also act as amplifiers for messages and mimic a grassroots movement (Woolley, 2016).

      The study presented here is therefore based on a corpus linguistic approach by Schäfer et al. (2017)
to identify suspicious accounts. The underlying methodology relies on the identification of near
duplicates (tweets with identical or nearly identical content), linked to the assumption that users who
frequently or predominantly disseminate similar content are very likely automated. This approach was
already used in an earlier study on the German parliamentary elections in 2017 and extended by a manual
analysis of conspicuous accounts (Pfaffenberger et al., 2019). However, the study at that time focused
only on accounts with a high proportion of near duplicates. In order to also identify groups of accounts
that have a low proportion of near duplicates and appear unsuspicious when viewed individually, but
share similar messages as a group, the present study also considers near duplicate clusters.

3. Methodology

When identifying and analyzing (social) bots based on a Twitter dataset, the method of data collection
is crucial. There are basically two gratuitous interfaces available: The streaming API and the REST
APIs. In this case, only real-time data collection using the Twitter Streaming API (statuses/filters) is
suitable, even though there is a risk of capping the data stream due to rate limits. However, with ex-post
data collection using the REST APIs, it would be likely that tweets/accounts that were deleted or blocked
by Twitter in the meantime would be missing from the dataset. Since this study aims to identify and
analyze bots, it is these accounts/tweets that are of particular interest.

      The analysis dataset consists of tweets collected using a Python script between March 18 and May
30, 2019 via the Streaming API (statuses/filter)6. Contextually common terms during the European
election, such as EP2019 and Europawahl2019, served as filters. The search was not limited to solely
German terms, but also included English, Spanish and French terms in order to cover the European
election debate on Twitter as comprehensively as possible. The full list of search terms can be found in
the appendix. After the data collection was completed, the collected tweets were split into separate
datasets based on their language7 to allow for comparisons between languages. The study examines
tweets in German and English. The adjusted German-language dataset includes 345,543 German tweets

6
    Due to a connection error to the API, not all tweets could be captured between April 11 and 13.
7
    Twitter automatically detects the (dominant) language of a tweet and returns it as tweet entity lang.

                                                            21
Social Bots in der politischen Twittersphäre – Identifikation und Relevanz

from 85,389 accounts, and the English-language dataset includes 677,562 English tweets from 203,793
accounts.

      In addition, there was a subsequent enrichment of the recorded accounts (hydration) with further
information: Using the Python library twtoolbox (hhromic, 2016), current account data such as activity
values and account statuses were collected in December 2019. The large time interval between data
collection and enrichment thus provided insights into accounts that have since been suspended or
deleted. This information is an important clue for the scoring of an account: Deletion or blocking on the
part of Twitter indicates that these user accounts were spreading spam or offensive tweets or exhibited
other abusive behavior8 (Twitter Inc., 2020).

Figure 1: Number of captured German tweets and corresponding accounts over time

      Looking at the frequency of tweets over time expectedly shows a clear peak in data near the election
weekend. The daily number of German-language tweets in the dataset (Figure 1) increases almost
constantly from mid-April towards the election phase, with the majority of 62,933 tweets written on the
German election day (May 26). Immediately after the election, the number of tweets drops again
significantly. The small peak on March 26, 2019, can be attributed to the debate in the European
Parliament in Strasbourg with its decisions to abolish the time changeover and the adoption of the
copyright reform. Relatively analogous is the number of creator accounts in the dataset, i.e., the number
of different user accounts per day.

      To investigate whether and to what extent social bots were active in this extract of the global Twitter
activity of the European election, detailed analyses at the tweet and account level are required. As
described in Chapter 2, there are now numerous, sometimes strongly differing approaches to identifying

8
    Abusive behavior contradicts the rules of conduct, according to Twitter: https://help.twitter.com/en/rules-and-
    policies/twitter-rules.

                                                            22
Social Bots in der politischen Twittersphäre – Identifikation und Relevanz

and analyzing (social) bots. The following analysis is based on Schäfer, Evert, and Heinrich's (2017)
approach of grouping tweets into clusters based on their similarity using near-duplicate detection, which
was already applied to study social bot activities during the 2017 German federal election campaign
(Pfaffenberger et al., 2019). On the one hand, the distribution of near duplicates provides information
about the share of similar tweets of an account (i.e., its variation in content); on the other hand,
statements can be made about whether there are account networks in the dataset that each disseminate
the same or similar tweet. This computational linguistic approach via near duplicates does not use
quantitative metrics for bot detection, such as tweet activity, frequency, or account networking, but is
initially based on text analysis.

      The tweets of interest were pre-processed for analysis in three steps: First, the message text of each
tweet was tokenized using SoMaJo9, i.e., broken down into individual words, punctuation marks, and
emoticons (e.g., “Hello World!” into “Hello” – “World” – “!”). And then normalized. This processing
step removes all punctuation, spaces and special characters (including @ and #) contained in the tweet,
as well as URLs, mentions and retweet markers. Since many simple bots only vary the tweet text slightly
or, for example, only modify an attached URL or the addressed user (Mention), it is useful to look at the
simplified, cleaned tweets. Finally, the last step was duplicate detection. For this, each normalized tweet
was assigned a hash value derived from the generated word bundle of a tweet. Tweets with an identical
hash value (i.e., hash duplicates) are referred to as near duplicates because the tweets are no longer in
their raw state but in a very simplified word bundle. Table 1 illustrates the underlying logic. Near
duplicates were each assigned to their own cluster and classified based on their duplicate status: unique
(no duplicate), first (temporally first tweet in a series of near duplicates), nduplicate (all other similar
tweets within the clusters).

Table 1: Underlying logic of pre-processing

    Tweet time         Text                        Status before         Normalized Text       Status after
                                                   cleanup                                     cleanup
    Day X, 12:00pm     @userX only fake news                             only fake news        first
    Day X, 12:10pm     It is all fake news!!                             It is all fake news   unique
    Day X, 12:30pm     only fake news!                                  only fake news        nduplicate
                                                   duplicate
    Day X, 12:21pm     only fake news!                                  only fake news        nduplicate
    Day Y, 11:00am     @userY only fake news!                            only fake news        nduplicate

9
    SoMaJo (Proisl & Uhrig, 2016) is a software package for tokenization and sentence separation that was developed
    specifically for German- and English-language Internet and social media texts.

                                                           23
Sie können auch lesen