Lehren aus der Datenspende Bundestagswahl 2017 - BLM

Die Seite wird erstellt Daniel Heim
 
WEITER LESEN
Lehren aus der Datenspende Bundestagswahl 2017 - BLM
Lehren aus der Datenspende   Prof. Dr. Katharina A. Zweig, Algorithm
                             Accountability Lab, TU Kaiserslautern
                             In Kooperation mit AlgorithmWatch,

      Bundestagswahl 2017    Medienpartner SpiegelOnline
                             Gefördert von den Landesmedienanstalten
Lehren aus der Datenspende Bundestagswahl 2017 - BLM
personalisiert
Suchergebnisse

   2009    2011                    2018

                  veröffentlicht
Lehren aus der Datenspende Bundestagswahl 2017 - BLM
Mechanismus algorithmischer Filterblasen

                          Vorlieben
                       Vorlieben
          Gibt
    Auswahl vor                            begründen

        Personali-
                                              Klick-
         sierter
                                            verhalten
          Filter         verändert
Lehren aus der Datenspende Bundestagswahl 2017 - BLM
Vereinzelung der Nutzer
Lehren aus der Datenspende Bundestagswahl 2017 - BLM
1 https://www.ted.com/talks/eli_pariser_beware_online_filter_bubbles
Lehren aus der Datenspende Bundestagswahl 2017 - BLM
Andere Filterblasen: Blogosphäre

1 L. A. Adamic and N. Glance, “The Political Blogosphere and the 2004 U.S. Election: Divided They Blog,”
Proceedings of the 3rd International Workshop on Link Discovery
(New York: ACM, 2005), 36–43; see also Adamic’s essay in the present volume.
Lehren aus der Datenspende Bundestagswahl 2017 - BLM
Andere Filterblasen: Politische Bücher

1 Valdis Krebs, http://orgnet.com/divided.html, 2008
Lehren aus der Datenspende Bundestagswahl 2017 - BLM
Lehren aus der Datenspende Bundestagswahl 2017 - BLM
Persönliche   Kuratierbare   Nachrichten
Webseiten     Webseiten
Lehren aus der Datenspende Bundestagswahl 2017 - BLM
Wie genau funktioniert der Algorithmus?
                                                                      • Pariser schreibt:
                                                                         „When I interviewed Jonathan
                                                                         McPhie, Goolge‘s point man on
                                                                         search personalization, he suggested
                                                                         that it was nearly impossible to
                                                                         guess how the algorithms would
                                                                         shape the experience of any given
                                                                         user. There were simply too many
                                                                         variables and inputs to track.“

1 https://www.google.de/insidesearch/howsearchworks/index.html
2 https://www.google.de/insidesearch/howsearchworks/algorithms.html
Einstellung 1
Einstellung 2
Einstellung 3
                Black   Ergebnis

Einstellung 4

                 Box
Einstellung 1‘
     Einstellung 2
     Einstellung 3
                     Black   Ergebnis‘
     Einstellung 4

                      Box
Einstellung 1‘‘
      Einstellung 2
      Einstellung 3
                      Black   Ergebnis‘‘
      Einstellung 4

                       Box
x
 Einstellung 2
 Einstellung 3
                         Black                        Ergebnis
 Einstellung 4

                          Box
Ergebnis = Funktion (x, Einstellung 2, Einstellung 3, Einstellung 4)
Grenzen naturwissenschaftlicher Erkenntnis

    Einstellung 1KAZ
                                          Black
    Einstellung 2KAZ
    Einstellung 3KAZ
                                           Box                              ErgebnisKAZ

    Einstellung 4KAZ                          für

                                           KAZ

              Ergebnis = Funktion (x, Einstellung 2, Einstellung 3, Einstellung 4)
personalisiert
Suchergebnisse    https://datenspende.algorithmwatch.org/

   2009    2011                5.7.2017 2018
Landesmedienanstalten
                                              der Länder:

                                              Bayern (BLM)
                                              Berlin und Brandenburg (mabb)
                                              Hessen (LPR Hessen)
                                   +      +   Rheinland-Pfalz (LMK)
                                              Saarland (LMS)
                                              Sachsen (SLM)

                                              Medienpartner war Spiegel
                                              Online.

https://datenspende.algorithmwatch.org/
                                                                          17
Browserplugin

                18
Personen
                                 Alexander Gauland
                                                     Parteien
                                 Alice Weidel
                                                     AfD
Zu festen Suchzeitpunkten        Angela Merkel
                                                     CDU
  • (4, 8, 12, 16, 20, 24 Uhr)   Cem Özdemir
                                                     CSU
                                 Christian Linder
Feste Suchbegriffe:              Dietmar Bartsch
                                                     Bündnis 90/Die
                                                     Grünen
                                 Katrin Göring-      Die Linke
                                 Eckhardt
                                                     FDP
                                 Martin Schulz
                                                     SPD
                                 Sahra Wagenknecht

                                                                  19
5.991.500 (!)
4384 TeilnehmerInnen
                       gespendete
                       Ergebnislisten   20
Google Suchergebnisse

    Schlagzeilen, bis zu 3     Rechte Seite der
                               Suchergebnisse
                                  ignoriert

  Organische Suchergebnisse,
  9-10, bis zu 150
Messung der Personalisierung
• Für alle Paare von Nutzern:                Nutzer 1       Nutzer 2

   • Bestimme Anzahl nicht-geteilter         URL A          URL C
     Links                                   URL B          URL A

   • Im Beispiel:                            URL C          URL D
      • Nutzer 1 teilt drei URLs nicht mit   URL D          URL B
        Nutzer 2                             URL E      x   URL K
      • Nutzer 2 teilt zwei URLs nicht mit   URL F          URL F
        Nutzer 1
                                             URL G      x   URL H
                                             URL H          URL M
                                             URL I      x   URL J
                                             URL J
Busted Filterbubble                                        Anzahl nicht
                                                           geteilter Links
• Die Grundlage für eine               Katrin Göring-
                                                                   0.9
  Personalisierung ist weit kleiner    Eckardt
  als gedacht.                         Dietmar Bartsch             1.0
• Bei den Politikern waren im          Angela Merkel               1.0
  Durchschnitt für je zwei Nutzer      Sahra Wagenknecht           1.1
  nur 1-2 Links nicht geteilt von 9-   Cem Özdemir                 1.1
  10 Ergebnissen.
                                       Alexander Gauland           1.2
• Auf news.google.com sind es 3-4
                                       Alice Weidel                1.4
  Links auf 20 Ergebnisse.
                                       Christian Lindner           1.7
                                       Martin Schulz               1.8
Busted Filterbubble                   Durchschnitt-         Anzahl
                                       liche Anzahl     möglicherweise
                                      nicht-geteilter   personalisierter
• Für Parteien gibt es                     Links             Links
  weniger Überlappung.    AfD               2.6               2.7
• Webseiten der           Die Linke        3.1                1.3
  Ortsverbände            Bündnis
• Eher Regionalisierung   90/Die           3.3                1.3
                          Grünen
                          CSU              3.4                2.9
                          SPD              3.4                1.5
                          FDP              3.6                1.5
                          CDU              3.7                2.2
Persönliche   Kuratierbare   Nachrichten
Webseiten     Webseiten
Internet Literacy der
Parteien
• Nur ca. 25% der organischen
  Suchergebnisse beim Keywort AfD sind
  selbstkuratiert
• CSU und SPD ca. 40%
• CDU ca. 55%
• Die Linke und die FDP > 60%
• Bündnis 90/Die Grünen >70%
Das Datenmikroskop
Algorithmen sind fehlbar

Welche Suche provozierte
das rechtsstehende Suchergebnis?

AfD
Bündnis 90/Die Grünen
CDU
CSU
Die Linke
FDP
SPD
Algorithmen sind fehlbar

Welche Suche provozierte
das rechtsstehende Suchergebnis?

AfD
Bündnis 90/Die Grünen
CDU
CSU
Die Linke
FDP
SPD
Automatische Suche
       nach Ausreißern

• Grundlage: Nielsen Ranking für 09/17
    • Ca. 53.000 aktive Nutzer
    • Active reach: Anteil der Nutzer, die Top
      Level-Domain mind. einmal besuchten.
• Frage: Welche Top Level-Domain wird
  über- oder unterrepräsentiert?
Google
Suchmaschine

Schlagzeilen, bis zu 3
Vorsicht: beide Skalen sind logarithmisch!
                                      Trendline: Power-Law
                                                    activeReach
                  1000000.00
                                      Formel: y = 1373.1     active Reach0.933

                   100000.00

Absolute Anzahl
an Treffern         10000.00

5 Wochen
                     1000.00
vor Wahl +
Wochenende
                      100.00
der Wahl
                       10.00

                        1.00
                               0.01        0.10         1.00         10.00         100.00

                               Prozentzahl der Nielsen Nutzer, die diese Seite besuchten
activeReach
               1000000.00

                100000.00

deutsche-
                 10000.00

wirtschafts-
nachrichten       1000.00

                   100.00

                    10.00

                     1.00
                            0.01   0.10          1.00   10.00   100.00
Ausreißer I
                                                                                                • Schlagzeile am 25.8.2017, 20h zum
                                                                                                  Keyword „Alice Weidel“, wurde an
                                                                                                  89% aller im Zeitraum aktiven
                                                                                                  Datenspender versendet.
                                                                                                • 0.2% der aktiven Nutzer
                                                                                                • Wie schafft es ein solches Medium
                                                                                                  mit einem völlig gewöhnlichen
                                                                                                  Thema unter die Schlagzeilen?
                                                                                                         • Werden Facebook/Twitter-Daten
                                                                                                           berücksichtigt?

https://deutsche-wirtschafts-nachrichten.de/2017/08/25/umfrage-spd-verliert-afd-auf-dem-dritten-platz/
activeReach
                       1000000.00

                        100000.00

deutsche-wirtschafts- 10000.00
nachrichten

correctiv.org             1000.00

                           100.00

                            10.00

                             1.00
                                    0.01   0.10          1.00   10.00   100.00
Ausreißer II
                                                                                                • Schlagzeile am 24.8.2017, 12h,
                                                                                                  zum Keyword „Alexander
                                                                                                  Gauland“, an alle Datenspender
                                                                                                • 0.02% active reach
                                                                                                • Insgesamt werden Quellen über
                                                                                                  Medien tendenziell überzitiert:
                                                                                                        • Übermedien, meedia

https://correctiv.org/echtjetzt/artikel/2017/08/23/gauland-tuerken-integration-gescheitert-verfassungsreform-erdogan-faktencheck/,
24.8.2017, 12h
meedia.de
                                                  activeReach
                       1000000.00

uebermedien             100000.00

deutsche-wirtschafts- 10000.00
nachrichten

      correctiv.org       1000.00

                           100.00

                            10.00

                             1.00
                                    0.01   0.10          1.00   10.00   100.00
meedia.de                 epochtimes
                                                        activeReach
                       1000000.00

                        100000.00
       uebermedien

deutsche-wirtschafts- 10000.00
nachrichten

      correctiv.org       1000.00

                           100.00

                            10.00

                             1.00
                                    0.01        0.10           1.00   10.00   100.00
Langlebigkeit I
                                                                                               • Epochtimes insgesamt weit
                                                                                                 überrepräsentiert (98 mal eine
                                                                                                 von dreien Schlagzeile von
                                                                                                 insgesamt 1296 Suchbegriff-
                                                                                                 Suchzeitpunkt-Paaren, die 50%
                                                                                                 aller aktiven Nutzer sahen).
                                                                                               • Schlagzeile ganztägig (!) am 13.
                                                                                                 und 14. September.
                                                                                               • 0.6% active reach.

http://www.epochtimes.de/politik/deutschland/gauland-laengerer-aufenthalt-oezoguzs-in-einem-land-
wo-sie-mehr-von-der-kultur-versteht-waere-vielleicht-nuetzlich-a2215040.html
Langlebigkeit II
                                                            • Schlagzeile über 8 Messpunkte (2.5
                                                              Tage!), 28.8.-30.8.2017, jeweils an
                                                              nahezu alle (!) Datenspender,
                                                              unabhängig vom Standort.
                                                            • Nicht im Nielsen Ranking.
                                                            • Keine Kommentare, enthält aber
                                                              Video.
                                                            • Insgesamt tauchen viele regionale
                                                              Medien (shz, rp-online, …) sehr oft
                                                              national auf (> 50% der Nutzer).

https://celleheute.de/chtv-auf-ein-wort-mit-dr-alice-weidel-afd-
spitzenkandidatin/
Celleheute.de:
                                                                                0% active reach
                 meedia.de
                                           epochtimes     activeReach
                       1000000.00

                        100000.00
       uebermedien

deutsche-wirtschafts- 10000.00
nachrichten

      correctiv.org       1000.00

                           100.00

                            10.00

                             1.00
                                    0.01           0.10          1.00   10.00   100.00
Celleheute.de:
                                                                            welt.de                              0% active reach
                 meedia.de
                                           epochtimes     activeReach
                       1000000.00

                        100000.00
       uebermedien

deutsche-wirtschafts- 10000.00                                                                 swr             gala.de
nachrichten

      correctiv.org       1000.00

                                                                                                               ardmediathek.de
                                                                                         freenet.de
                           100.00

                            10.00                                       Moz.de

                             1.00
                                    0.01           0.10          1.00            10.00                100.00

                      medienmagazin.de                        Ln-online.de und aktiencheck.de
Tendenziell
     unterrepräsentiert
• Ein Teil der öffentlich-rechtlichen:
     • ARD mediathek (3.15% active reach, ein
       Schlagzeilentreffer) – wenig klassische
       Nachrichten
     • wdr.de mit 2.9% (kein
       Schlagzeilentreffer)
     • swr.de mit 1.9% (810
       Schlagzeilentreffer)
Celleheute.de:
                                                                            welt.de                              0% active reach
                 meedia.de
                                           epochtimes     activeReach
                       1000000.00
                                                                                                          wdr.de:
                        100000.00
                                                                                                          keine Schlagzeile
       uebermedien
                                                                                                          2.9% active reach
deutsche-wirtschafts- 10000.00                                                                 swr
nachrichten
                                                                                                               gala.de
      correctiv.org       1000.00

                                                                                                               ardmediathek.de
                                                                                         freenet.de
                           100.00

                            10.00                                       Moz.de

                             1.00
                                    0.01           0.10          1.00            10.00                100.00

                      medienmagazin.de                        Ln-online.de und aktiencheck.de
• Projekt zeigt, dass Gesellschaft auch
                    personalisierte Algorithmen
                    gemeinsam untersuchen kann.
                  • Dadurch erst Fragen nach
                    Gewichtung von einzelnen
                    Ergebnissen möglich.
                  • Bedarf nach mehr Transparenz in
                    den Code nicht notwendig, solange
                    kein Verdachtsmoment.
                  • Studie nicht repräsentativ und mit
                    bekannten Keywords:
                      • Sollte verdauert werden, um
                        gesellschaftlich steuern zu
                        können.
                  • Wichtig: Andere soziale Medien
Zusammenfassung     nicht zugänglich genug!
                      • Wichtige Forderung des „Data
                        Access“ für Gesellschaft
Celleheute.de:
                                                                            welt.de                              0% active reach
                 meedia.de
                                           epochtimes     activeReach
                       1000000.00

                        100000.00
       uebermedien

deutsche-wirtschafts- 10000.00                                                                 swr             gala.de
nachrichten

      correctiv.org       1000.00

                                                                                                               ardmediathek.de
                                                                                         freenet.de
                           100.00

                            10.00                                       Moz.de

                             1.00
                                    0.01           0.10          1.00            10.00                100.00

                      medienmagazin.de                        Ln-online.de und aktiencheck.de
Quellen
• Folie 2:
   • Eli Pariser: „The filter bubble – what the internet is hiding from you“, Penguin, 2011
   • Sein TED Talk dazu: https://www.ted.com/talks/eli_pariser_beware_online_filter_bubbles
Bildnachweis
Folie 2, Bild von Eli Pariser: Kris Krug -
https://www.flickr.com/photos/poptech/5107602045, CC BY-SA 2.0,
https://commons.wikimedia.org/w/index.php?curid=12875923
Sie können auch lesen