"Let's archive!" Die Dokumentation internetbasierter Daten als neue Herausforderung für die europäische Integrationsforschung

Die Seite wird erstellt Klaus Gabriel
 
WEITER LESEN
Passauer Jean Monnet Papiere

                                            „Let’s archive!“
                         Die Dokumentation internetbasierter Daten
                                  als neue Herausforderung für die
                                 europäische Integrationsforschung

                                   Daniel Göler und Florence Reiter

                                                     12/2020
„Let’s archive!“                                                                  Seite 1 (321)

Daniel Göler und Florence Reiter

„Let’s archive!“
Die Dokumentation internetbasierter Daten als neue Herausforderung
für die europäische Integrationsforschung

Abstract:
Web-based data collections are having a growing impact on European inte-
gration research. However, analysing this type of data is becoming increas-
ingly challenging for researchers. A so-called third methodological level can
be identified, namely the field of data archiving, which is currently hardly
mentioned in the methodological debate. Thus, researchers must deal with
web archiving and its technological possibilities and limitations if they want
to base their work on web-based data. This is important in order to ensure
replicability and reliability while collecting, storing and archiving web-based
data, which cannot be covered by traditional methods.

Die Digitalisierung der Kommunika-                Zum einen hat auf theoretischer
tionswege und -strukturen hat die eu-             Ebene die Debatte über den Postfunk-
ropäische Integrationsforschung in                tionalismus zu einer stärkeren Hin-
den letzten Jahren nachhaltig beein-              wendung der Forschung zu Fragen
flusst. Die Anzahl der wissenschaftli-            von kultureller Identität und Einstel-
chen Abhandlungen über die Auswir-                lungen zum europäischen Integrati-
kungen dieser Veränderungen auf                   onsprozess geführt,2 die eine Ausei-
Wirtschaft, Gesellschaft und Politik in           nandersetzung mit neuen Medien als
der Europäischen Union (EU) ist ge-               Untersuchungsgegenstand zwingend
stiegen, wie etwa Untersuchungen                  machen. Zum anderen ist auf empi-
über neue Formen der politischen                  rischer Ebene im letzten Jahrzehnt
Kommunikation im Europawahl-                      ein Anstieg der Anzahl populisti-
kampf 2019 zeigen. 1 Im Vergleich                 scher EU-skeptischer Parteien zu
zu anderen Teildisziplinen der Po-                verzeichnen, die sich stärker als
litikwissenschaft gibt es in der eu-              etablierte Parteien in ihren Kommu-
ropäischen Integrationsforschung                  nikationsstrategien sozialer Medien
zwei weitere Besonderheiten.

1                                                 2 Vgl. Liesbet Hooghe/Gary Marks: Grand
  Vgl. Martin Fuchs/Josef Holnburger:
#ep2019 – Die digitalen Parteistrategien zur      theories of European integration in the
Europawahl 2019 (Kurzstudie der Friedrich-        twenty-first century, in: Journal of European
Ebert-Stiftung), Hamburg/Berlin 2019; Chi-        Public Policy 8/2019, S. 1113ff.; Liesbet
ara Valentini: Social media use by main EU        Hooghe/Gary Marks: A Postfunctionalist
political parties during EP elections 2019, in:   Theory of European Integration. From Per-
Niklas Bolin/Kajsa Falasca/Marie Gru-             missive Consensus to Constraining Dissen-
sell/Lars Nord (Hrsg.): Euroflections, Sunds-     sus, in: British Journal of Political Science
vall 2019, S. 80f.                                1/2009, S. 1ff.
Seite 2 (322)                                      Passauer Jean Monnet Papiere 12/2020

bedienen3 und deren Wählerschaft                  genschaft, die eine besondere Heraus-
häufig das Internet als primäre Infor-            forderung für die wissenschaftliche
mationsquelle nutzt.4                             Auseinandersetzung mit ihnen dar-
                                                  stellt: die – im Vergleich zu klassi-
Bei der Analyse dieser Entwicklungen              schen Daten – hohe Fluidität. Bezieht
haben es WissenschaftlerInnen in der              man z.B. in der Analyse eines Europa-
EU-Forschung nicht nur mit neuen                  wahlkampfs neben klassischen Print-
Phänomenen zu tun, sondern auch mit               medien ebenfalls die Online-Ange-
einer neuen Art von Daten. Dabei                  bote von Zeitungen und Rundfunkan-
lässt die Einbeziehung der „digitalen             stalten ein, so steht man vor dem
Empirie“5 die Datenmenge, die verar-              Problem, dass einzelne Beiträge teils
beitet werden muss, stark ansteigen.              mehrmals täglich aktualisiert bzw.
Die hieraus entstehenden methodi-                 „weitergeschrieben“ werden. Bei der
schen Probleme werden schon seit ei-              Auswertung von Social-Media-Seiten
nigen Jahren in den Sozialwissen-                 einzelner EuropapolitikerInnen oder
schaften diskutiert6 und sind seit Kur-           von Parteien kann man zudem in der
zem Gegenstand intensiver Debatten                Regel nicht sämtliche Tweets und
der Teilgebiete der Internationalen               Posts einsehen und damit in die Ana-
Beziehungen und der Vergleichenden                lyse einbeziehen, denn durch unter-
Regionalismusforschung7 und damit                 schiedliche Abfragezeitpunkte und
auch der EU-Forschung. Vor allem                  Filteralgorithmen werden immer nur
die Herausforderungen der teilweise               selektive (und sich verändernde) Aus-
so bezeichneten „digitale[n] Revolu-              schnitte der Gesamtdatenmenge ange-
tion in den Sozialwissenschaften“8 für            zeigt. Hinzu kommt die „Besonder-
die Datenerhebung und Datenauswer-                heit der Sozialen Medien […], dass
tung sind hierbei intensiv diskutiert             sie auf den Beiträgen der Benutzer (u-
worden.9 Der vorliegende Beitrag er-              ser generated content) basieren und
gänzt diese beiden Punkte um einen                damit auch Informationen […] enthal-
weiteren Aspekt: die Datenarchivie-               ten, die kaum professionell oder insti-
rung bzw. Datenkonservierung als                  tutionell gefiltert“10 und nicht syste-
„dritte methodische Ebene“, der sich              matisch archiviert bzw. erhalten
ForscherInnen auf dem Gebiet der eu-              werden. Auch die Möglichkeit der
ropäischen Integration verstärkt an-              Korrektur und Löschung von Posts
nehmen müssen. Denn neben den be-                 oder gar ganzer Seiten stellt für
reits genannten Problemen haben in-               ForscherInnen ein Problem dar. Ein
ternetbasierte Daten häufig eine Ei-              Beispiel für Letzteres ist etwa die
                                                  Entscheidung des Parteivorsit-

3 Vgl. Max Schaub/Davide Morisi: Voter mo-        tion of Politics: Political Identity, Social Me-
bilization in the echo chamber: Broadband in-     dia, and Changing Patterns of Participation,
ternet and the rise of populism in Europe,        in: The ANNALS of the American Academy
Collegio Carlo Alberto: CAN Research Paper        of Political and Social Science 1/2012, S.
584/2019.                                         20ff.
4 Vgl. Nicola Maggini: Understanding the          7 Vgl. Knecht/Debre: Die „digitale IO“, 2018.
                                                  8 Carolin Kaiser: Soziale Medien als Mittel der
Electoral Rise of the Five Star Movement in
Italy, in: Czech Journal of Political Science     Produktgestaltung (Co-Creation), in: Christian
1/2014, S. 37ff., hier S. 57.                     König/Matthias Stahl/Erich Wiegand (Hrsg.):
5 Sebastian Knecht/Maria J. Debre: Die „digi-     Soziale Medien. Gegenstand und Instrument
tale IO“: Chancen und Risiken von Online-         der Forschung, Wiesbaden 2014, S. 171ff.,
Daten für die Forschung zu Internationalen        hier S. 185.
                                                  9 Vgl. Markus Strohmaier/Maria Zens: Ana-
Organisationen, in: Zeitschrift für Internatio-
nale Beziehungen 1/2018, S. 175ff., hier S.       lyse Sozialer Medien an der Schnittstelle zwi-
175.                                              schen Informatik und Sozialwissenschaften,
6 Vgl. u.a. David A. Karpf: Social Science        in: Christian König/Matthias Stahl/Erich Wie-
Research Methods in Internet Time, in: Infor-     gand (Hrsg.): Soziale Medien. Gegenstand und
mation, Communication & Society 5/2012, S.        Instrument der Forschung, Wiesbaden 2014,
639ff.; W. Lance Bennett: The Personaliza-        S. 73ff.
                                                  10 Ebenda, S.73.
„Let’s archive!“                                                              Seite 3 (323)

zenden der Grünen, Robert Habeck,              Deutschen Hochschulverbands unter-
seine Accounts bei Facebook und                streicht, dass „Forschungsergebnisse
Twitter zu löschen.11 Diese Fluidität          und die ihnen zugrunde liegenden Da-
internetbasierter Daten stellt aber ein        ten […] ebenso genau dokumentiert
sehr grundsätzliches Problem hin-              werden und überprüfbar sein [müssen
sichtlich der intersubjektiven Nach-           …] wie die Interpretationsleistungen
vollziehbarkeit sowie der Reliabilität         und ihre Quellen“.13 Konkretisiert
dar und betrifft damit zwei Kernkrite-         wird diese Dokumentationspflicht in
rien guten wissenschaftlichen Arbei-           der Denkschrift „Sicherung guter wis-
tens. Denn wenn die einer Analyse zu-          senschaftlicher Praxis“ der Deutschen
grunde liegenden Daten nicht für eine          Forschungsgemeinschaft (DFG), wel-
Überprüfung durch Dritte zur Verfü-            che die Anforderung aufstellt, dass
gung stehen, ist ein Kernelement der           „Primärdaten als Grundlagen für Ver-
Wissenschaftlichkeit aufgehoben. Für           öffentlichungen […] auf haltbaren
eine Analyse etwa des Europawahl-              und gesicherten Trägern in der Insti-
kampfs 2019 unter Einbeziehung von             tution, wo sie entstanden sind, zehn
Social-Media-Kanälen stellt sich da-           Jahre lang aufbewahrt werden“14 sol-
mit nicht nur die Frage, wie Wissen-           len. Diese Zehnjahresfrist nennen
schaftlerInnen diese Daten erheben             ebenfalls die „Regeln zur Sicherung
und für sich auswerten, sondern auch,          guter wissenschaftlicher Praxis“ der
wie sie diese so sichern und dokumen-          Max-Planck-Gesellschaft.15 Auch der
tieren, dass ihre Analyse mit zeitli-          „European Code of Conduct for Re-
chem Abstand nochmals durchgeführt             search Integrity“ der „All European
und nachvollzogen werden kann.                 Academies“ fordert, dass „[r]esearch-
                                               ers, research institutions and organisa-
                                               tions ensure appropriate stewardship
Entsprechend unterstreichen nahezu             and curation of all data […] with se-
alle Positionspapiere führender Wis-           cure preservation for a reasonable pe-
senschaftsorganisationen, dass es un-          riod“.16
verzichtbar für gute wissenschaftliche
Praxis ist, die einer Analyse zugrunde
liegenden Primärdaten (zumindest               Datenarchivierung als dritte me-
mittelfristig) zu sichern und bei Be-          thodische Ebene in der europäi-
darf anderen ForscherInnen zur Über-           schen Integrationsforschung
prüfung zur Verfügung zu stellen. So
betont die Hochschulrektorenkonfe-
renz in ihrer Empfehlung „Gute wis-            Nimmt man die Forderungen nach
senschaftliche Praxis an deutschen             umfassender Archivierung von Pri-
Hochschulen“: „Jede Wissenschaftle-            märdaten ernst, bedeutet dies, dass
rin und jeder Wissenschaftler ist zur          in der europäischen Integrations-
vollständigen Datendokumentation               forschung im Rahmen der Ausei-
verpflichtet.“12 Ein gemeinsames Po-           nandersetzung mit internetbasier-
sitionspapier des Allgemeinen Fakul-           ten Daten neben der Frage der Da-
tätentags, der Fakultätentage und des          tenerhebung und       der       Da-

11 Vgl. Philipp Saul: Habeck will seine Ac-    Verfassen wissenschaftlicher Qualifikations-
counts bei Facebook und Twitter löschen, in:   arbeiten, 9. Juli 2012, S. 2.
                                               14 Deutsche Forschungsgemeinschaft: Siche-
SZ.de, 7. Januar 2019.
12 Hochschulrektorenkonferenz: Gute wissen-    rung guter wissenschaftlicher Praxis, ergänzte
schaftliche Praxis an deutschen Hochschulen.   Auflage, Weinheim 2013, S. 21.
                                               15 Vgl. Max-Planck-Gesellschaft: Regeln zur
Empfehlung der 14. Mitgliederversammlung
der HRK am 14. Mai 2013 in Nürnberg, S. 3.     Sicherung guter wissenschaftlicher Praxis,
13 Gemeinsames Positionspapier des Allge-      März 2009, S. 4
                                               16 All European Academies (ALLEA): The
meinen Fakultätentags (AFT), der Fakultäten-
tage und des Deutschen Hochschulverbands       European Code of Conduct for Research In-
(DHV): Gute wissenschaftliche Praxis für das   tegrity, Berlin 2017, S. 6.
Seite 4 (324)                                       Passauer Jean Monnet Papiere 12/2020

tenverarbeitung bzw. -auswertung,                  Text-Mining-Verfahren wie Topic
die in der aktuellen Methodendebatte               Modeling, Word2Vector oder Senti-
bereits intensiv diskutiert werden,17              ment-Analyse. Text-Mining-Verfah-
die Datenarchivierung bzw. -siche-                 ren sind „computergestützte Verfah-
rung als dritte methodische Ebene un-              ren für die semantische Analyse von
verzichtbar wird. Nur so können in-                Texten […], welche die automatische
tersubjektive Nachvollziehbarkeit so-              bzw. semi-automatische Strukturie-
wie Reliabilität von Forschungsarbei-              rung von Texten, insbesondere sehr
ten sichergestellt werden. Die Heraus-             großen Mengen von Texten, unter-
forderungen, die sich hieraus ergeben,             stützen“.18 Sie bieten somit ein viel-
werden in den verschiedenen Ansät-                 fältiges Methodenspektrum, um große
zen zum Aufbau von Webarchiven                     Textmengen nach bestimmten Frage-
und den jeweils eingesetzten Webar-                stellungen zu untersuchen. Die Chan-
chivierungstools deutlich. Diese                   cen, die sich aus solchen computerge-
Tools dienen dazu, internetbasierte                stützten Methoden für die europäische
Daten so zu sichern und zu dokumen-                Integrationsforschung ergeben, sind
tieren, dass diese auch mit größerem               vielfältig und eröffnen für die Analyse
zeitlichen Abstand noch für wissen-                der gesellschaftspolitischen Grundla-
schaftliche Analysen – in der Regel                gen des Integrationsprozesses neue
mit Methoden aus dem Bereich der                   Forschungsperspektiven. Gerade des-
Digital Humanities – herangezogen                  halb ist es aber unverzichtbar, die
werden können.                                     hierfür im Internet zu findenden rele-
                                                   vanten Daten zuverlässig und nach-
                                                   haltig zu archivieren.
Chancen und Grenzen der Webarchi-
vierung für die wissenschaftliche Ar-
beit im Allgemeinen und die europäi-               Probleme der Nutzung bestehen-
sche Integrationsforschung im Beson-               der Webarchive für die Integrati-
deren zeigen sich in der systemati-                onsforschung
schen Erfassung, Aufbereitung und
Archivierung von Websites, Online-
Berichten,     Social-Media-Debatten               Während Webarchivierung in der eu-
und Online-Kommentaren, die etwa                   ropäischen      Integrationsforschung
für die Analyse gesellschaftlicher De-             noch eine untergeordnete Rolle spielt,
batten über die EU und ihre Politiken              ist die Entwicklung in anderen Berei-
oder aber auch für die Untersuchung                chen – wie beispielsweise in den Di-
von Europawahlkämpfen mittlerweile                 gital Humanities oder bei Gedächtnis-
unverzichtbar sind. Dabei muss die                 institutionen wie Archiven und Bibli-
Archivierung zum einen so erfolgen,                otheken – deutlich fortgeschrittener.
dass die Datenkorpora mit zeitlichem               Durch die Archivierung von Webs-
Abstand und durch Dritte nutzbar                   ites können ForscherInnen einer-
sind, sodass die intersubjektive Nach-             seits die Entwicklung des Internets
vollziehbarkeit sowie die Reliabilität             dokumentieren und analysieren.
der Analyse gegeben sind. Zum ande-                Andererseits ermöglicht Webar-
ren sollten die Daten in einer solchen             chivierung, „to document our find-
Form archiviert werden, dass sie auch              ings when we study today’s web,
mit computergestützten Methoden der                since in practice most web studies
Digital Humanities auswertbar sind.                preserve the web in order to have a
Zu nennen wären hier insbesondere                  stable object to study and

17                                                 18
   Vgl. Jasmin Haunschild/Anja P. Jakobi:             Gerhard Heyer/Uwe Quasthoff/Thomas
„Big Data“ oder „Dunkelziffer“? – Wie Stu-         Wittig: Text Mining: Wissensrohstoff Text.
dierende aus schwieriger                           Konzepte, Algorithmen, Ergebnisse, Bochum
Datenlage lernen können, in: Zeitschrift für In-   2006, S. 3.
ternationale Beziehungen 1/2018, S. 221ff.,
hier S. 221.
„Let’s archive!“                                                                   Seite 5 (325)

refer to when the analysis is to be doc-          source“.21 Dies liegt unter anderem
umented (except for studies of the live           daran, dass die ständige Weiterent-
web)“.19 Webarchivierung als Prozess              wicklung von Webtechnologien und
und Webarchive als Datengrundlage                 das dadurch entstehende dynamische
für Analysen sind somit nicht nur für             Umfeld der Webarchivierung archi-
WebhistorikerInnen, sondern durch                 vierende Institutionen laufend vor
die zunehmende Verlagerung von ge-                neue Herausforderungen stellen.22
sellschaftlichen und politischen Kom-             Denn neben den verschiedensten Ar-
munikationsprozessen in das Internet              ten von Textdateien – dazu zählen
auch für andere Forschungsbereiche                HTML-Sites, Word-Dokumente oder
unverzichtbar. In der europäischen In-            PDF-Dokumente – beinhalten Websi-
tegrationsforschung gilt dies beson-              tes unterschiedlichste Video-, Bild-
ders im Hinblick auf die Untersu-                 und Sound-Dateien, animierte GIFs o-
chung von Identitätsfragen und die                der auch eingebettete Bild- und Vi-
diesbezüglichen politischen und ge-               deodateien von Social-Media-Platt-
sellschaftlichen Debatten, die sich zu            formen wie YouTube, Instagram oder
einem Großteil auf Social-Media-                  Facebook. Diese vielfältigen Datenar-
Plattformen abspielen. Vor allem seit             ten sollten im idealtypischen Archi-
der sogenannten Migrationskrise wird              vierungsprozess berücksichtigt wer-
diesen Fragen in der Integrationsfor-             den, was aber in der Realität noch
schung ein großes Gewicht beigemes-               schwer umsetzbar ist.23 Denn die
sen, insbesondere aus postfunktiona-              Vielfalt dieser Daten übersteigt der-
listischer Perspektive. So betonen                zeit die Möglichkeiten der Webarchi-
Liesbet Hooghe und Gary Marks:                    vierungstools.24
„Postfunctionalism puts the spotlight
on identity politics [… and] shows
how the migration crisis has intensi-             Zwar arbeiten verschiedene Instituti-
fied a cultural divide across Europe              onen schon seit einigen Jahren daran,
that pits proponents of a multicultural,          Webinhalte als Datenmaterial für die
open, Europe against its opponents.“20            Wissenschaft zu sichern und zugäng-
Eine Integrationsforschung, die diese             lich zu machen; die Nutzbarkeit für
Entwicklungen ohne Berücksichti-                  die Wissenschaft ist jedoch teils prob-
gung von internetbasierten Daten un-              lematisch. Neben zum Teil einge-
tersucht, würde einen Teil der heuti-             schränkten Zugangs- und Nutzungs-
gen gesellschaftlichen Realität syste-            möglichkeiten dieser Webarchive be-
matisch ausblenden.                               steht das Hauptproblem in deren Un-
                                                  vollständigkeit. Selbst das „Internet
                                                  Archive“,25 das als kostenlose digi-
Trotz der gewachsenen Bedeutung in-               tale Bibliothek seit 1996 Websites
ternetbasierter Daten und zahlreicher             archiviert – mittlerweile sind es über
Aktivitäten der Webarchivierung gel-              330 Milliarden26 – und über die
ten Webarchive als „un-known, and
certainly      underused,    primary

19 Niels Brügger: Web Archiving – Between         22 Vgl. Nicholas Taylor: Reflections on the
Past, Present, and Future, in: Mia                2016 IIPC General Assembly and Web Ar-
Consalvo/Charles Ess (Hrsg.): The Handbook        chiving Conference, in: Stanford Libraries, 12.
of Internet Studies, Malden/Oxford/Chichester     Mai 2016.
                                                  23 Vgl. ebenda.
2011, S. 24ff., hier S. 24.
20 Hooghe/Marks: Grand theories, 2019, S.         24 Vgl. Winters: Coda, 2017, S. 243.
                                                  25 Internet Archive, abrufbar unter: https://ar-
1122.
21 Jane Winters: Coda: Web archives for hu-       chive.org/ (letzter Zugriff: 14.10.2019).
manities research – some reflections, in: Niels   26 Vgl. Internet Archive: About the Internet

Brügger/Ralph Schroeder (Hrsg.): The Web as       Archive,      abrufbar      unter:    https://ar-
History. Using Web Archives to Understand         chive.org/about/ (letzter Zugriff: 14.10.2019).
the Past and the Present, London 2017, S.
238ff., hier S. 238.
Seite 6 (326)                                        Passauer Jean Monnet Papiere 12/2020

Serveranwendung „Wayback Ma-                        Webarchivierung und wird definiert
chine“27 online zur Verfügung stellt,               als „the process of building a collec-
weist erhebliche Lücken auf. So hat                 tion of webpages by starting with an
sich in einem DFG-Projekt zum Auf-                  initial set of URLs (or links) and re-
bau von Webarchiven am Beispiel der                 cursively traversing the correspond-
Europawahl 201928 gezeigt, dass das                 ing pages to find additional links“.31
„Internet Archive“ etwa vom Tag der                 Neben dem Crawlen der einzelnen
Europawahl in Deutschland, dem 26.                  Websites gehört zum Archivierungs-
Mai 2019, und dem Vortag keine Ar-                  prozess idealerweise auch eine Quali-
chivierung der Website der ZDF-                     tätskontrolle jedes einzelnen Vor-
Nachrichtensendung „heute“ vorge-                   gangs, die gewährleisten soll, dass der
nommen hat.29 Versucht man die ar-                  Archivierungsprozess erfolgreich war
chivierte Website der Frankfurter All-              und Daten auch in der Zukunft noch
gemeinen Zeitung vom deutschen                      verfügbar sind. Dies ist allerdings sehr
Wahltag und dem Vortag zu öffnen,                   aufwendig und setzt der Erstellung
erscheint eine Fehlermeldung.30 Dar-                von allgemeinen Webarchiven Gren-
über hinaus sind wichtige Foren der                 zen.
politischen Kommunikation wie
Social-Media-Plattformen nicht voll-                Herausforderungen bei der Er-
ständig archiviert. Für das wissen-                 stellung individueller Webarchive
schaftliche Arbeiten bedeutet dies,
dass Studien, die sich nur auf beste-               Eine ganze Reihe von Problemen, die
hende Webarchive stützen, immer der                 sich bei der Erstellung umfassender
Gefahr einer unzulänglichen Daten-                  Webarchive stellen, zeigt sich gleich-
grundlage ausgesetzt sind, zumal                    ermaßen bei individuellen bzw. event-
meist nicht ersichtlich ist, welche sys-            und projektbezogenen Archiven. An
tematischen und technischen Grenzen                 erster Stelle sind hierbei die techni-
die Erstellung bestehender Archive                  schen Herausforderungen zu nennen.
beeinflusst haben. Gerade bei aktuel-               So bieten Webarchivierungstools wie
len Fallstudien sind daher eine eigene              das „Web Curator Tool“ (WCT)32 o-
Datenerhebung und Datenarchivie-                    der der „Webrecorder“33 zwar die
rung unverzichtbar. In der genannten                Möglichkeit, Websites zu erfassen
Projektstudie zu den Europawahlen                   und zu archivieren; die Anwendung
2019 wurde deshalb versucht, im Rah-                birgt jedoch auch zahlreiche Prob-
men eines sogenannten Event-Crawls                  leme. Hinzu kommt, dass die Tools
Websites und Social-Media-Seiten                    ständig weiterentwickelt werden. Bei
von Parteien und PolitikerInnen sowie               länger laufenden Event-Crawls stellt
die Online-Berichterstattung von Zei-               sich damit das Problem, dass neue
tungen und Nachrichtensendern zu ar-                Versionen zwar bessere Ergebnisse
chivieren. „Crawl“ ist dabei die gäng-              erbringen können. Allerdings wird
ige Bezeichnung für den Prozess der                 damit     auch     die     Vergleich-

27 Internet Archive: Wayback Machine, abruf-        Fehlermeldung, abrufbar unter: https://web.ar-
bar unter: https://web.archive.org/ (letzter Zu-    chive.org/web/20190525155240/https://www.
griff: 14.10.2019).                                 faz.net/
28 Vgl. Universität Passau: Webarchive. DFG-        sowie             https://web.archive.org/web/2
Projekt Webarchive – Internet für die Nach-         0190526092534/https://www.faz.net/ (letzter
welt       archivieren,    abrufbar        unter:   Zugriff: 15.10.2019).
                                                    31 Gabe Ignatow/Rada F. Mihalcea: An Intro-
https://www.uni-passau.de/forschung/for-
schungsprojekte/webarchive/ (letzter Zugriff:       duction to Text Mining. Research Design,
18.10.2019).                                        Data Collection, and Analysis, Los Angeles
29 Vgl. Internet Archive: Wayback Machine:          u.a. 2018, S. 82.
                                                    32
Suche nach www.zdf.de/nachrichten, abrufbar              Web Curator Tool, abrufbar unter:
unter:                          https://web.ar-     http://webcurator.sourceforge.net/ (letzter Zu-
chive.org/web/*/zdf.de/nachrichten       (letzter   griff: 14.10.2019).
                                                    33 Webrecorder, abrufbar unter: https://webre-
Zugriff: 15.10.2019).
30 Vgl. Internet Archive: Wayback Machine:          corder.io/ (letzter Zugriff: 14.10.2019).
Öffnen eines Crawls von www.faz.net mit
„Let’s archive!“                                                              Seite 7 (327)

barkeit der Daten eingeschränkt, da            über eine unbegrenzte Crawl-Kapazi-
die Datenerhebung während des                  tät, was ihre Anwendung erheblich
Event-Crawls nach unterschiedlichen            einschränkte, insbesondere hinsicht-
(technischen) Standards erfolgt. In            lich der Frequenz der Datenerhebung.
dem genannten Forschungsprojekt zur            So war es in dem genannten Projekt
Europawahl 2019 verwendete die                 selbst mit einem in der Datenerfas-
Bayerische Staatsbibliothek zunächst           sung und Datenarchivierung erfahre-
die von ihr bisher für die Archivierung        nen und ressourcenstarken Partner
von Internetquellen genutzte WCT               wie der Bayerischen Staatsbibliothek
Version 1.6.1. Diese erwies sich wäh-          nicht möglich, mehr als acht Medien-
rend eines Pretests als ungeeignet für         Websites täglich zu crawlen, wobei
die Archivierung von Facebook- und             hier nochmals eine weitere Beschrän-
Twitter- Seiten, deren Einbeziehung            kung auf die jeweilige Startseite, Po-
in die geplante Analyse des Europa-            litikseite und Themenseite zur Euro-
wahlkampfs 2019 aber unverzichtbar             pawahl erforderlich war.
war. Deshalb wurde für Social-Me-
dia-Seiten auf das browserbasierte             Neben den Webarchivierungstools
Tool „Webrecoder“ zurückgegriffen.             birgt auch das Dateiformat zur Archi-
Bei diesem ist die Archivierung mit-           vierung Schwierigkeiten. Denn das in
tels händischen Scrollens der jeweili-         der Webarchivierung mittlerweile
gen Website möglich, was jedoch ei-            standardmäßig verwendete Webar-
nen hohen Personalaufwand bedeutet.            chive-Dateiformat WARC35 erfordert
Aber auch bei der Archivierung klas-           sowohl bei der Datenarchivierung als
sischer Websites kam die WCT Ver-              auch bei der späteren Nutzung der ar-
sion 1.6.1 an ihre Grenzen, da sie ver-        chivierten Daten vertiefte informati-
schlüsselte Websites nicht erfolgreich         onstechnische Kenntnisse, welche in
harvesten34 konnte. Daher wurde pa-            der klassischen geistes- und sozial-
rallel die zu diesem Zeitpunkt noch in         wissenschaftlichen Methodenausbil-
der Entwicklung befindliche WCT                dung bisher nicht vorkommen. Denn
Beta-Version 1.7 mit einer neueren             WARC-Dateien können nicht ohne
Version des Heritrix-Crawlers, der die         umfangreiche            Vorverarbeitung-
Basis für das WCT bildet, eingesetzt.          schritte mit Text-Mining-Verfahren
Da bei dieser Beta-Version immer wie-          der Digital Humanities analysiert wer-
der technische Schwierigkeiten auftra-         den. Die einzelnen Dateien enthalten
ten, konnte der ursprünglich wöchentlich       für die Textanalyse großteils irrele-
geplante Archivierungs-Rhythmus nicht          vante Daten wie beispielsweise Hea-
für alle Websites eingehalten werden.          der und Footer, Werbung, Menüs, Bil-
                                               der und Videos. Die relevanten
Für die letztendliche Erfassung der            HTMLSites enthalten wiederum zu
Websites im Umfeld der Europawah-              einem großen Teil Informationen, die
len konnte dann auf die neueste Ver-           nicht benötigt werden (HTML-Tags,
sion des WCT (Version 2.0) zurück-             Javascript etc.). Um von den WARC-
gegriffen werden, die sich als deutlich        Dateien an den gewünschten (Text-)In-
stabiler als die im Pretest verwendete         halt zu gelangen, ist ein mehrstufiger Ex-
Version erwies. Dieses Beispiel zeigt          traktionsprozess notwendig, der nicht
sehr gut, wie stark Korpusbildung und          ohne nötige informationstechnische
Datenerfassung im digitalen Bereich            Kenntnisse durchführbar ist. Insgesamt
durch technische Rahmenbedingun-               lässt sich festhalten, dass die Komple-
gen beeinflusst werden. Denn auch              xität der internetbasierten Daten und
diese neueste Version verfügte nicht           die Grenzen der bisher zur Verfügung

34 „Harvesten“ kann als Synonym für „craw-     für die Kombination mehrerer digitaler Res-
len“ verwendet werden.                         sourcen in einer aggregierten Archivdatei mit
35 WARC steht für „Web ARChive Archivfor-      Metadaten.
mat“. Es handelt sich dabei um ein Verfahren
Seite 8 (328)                            Passauer Jean Monnet Papiere 12/2020

stehenden Tools zu ihrer Archivie-      ditionell enge Bezüge zu den Ge-
rung dazu führen, dass die Daten-       schichtswissenschaften hat, in de-
erfassung, -aufbereitung und -ar-       nen zumindest das Problembe-
chivierung sehr ressourcenintensiv      wusstsein für Fragen der Datenar-
und voraussetzungsvoll sind.            chivierung Teil der Fachidentität
                                        ist. Hieran anknüpfend sollten die
Webarchivierung als Teil der            Europawissenschaften      in   den
Methoden der Sozialwissen-              nächsten Jahren einen intensiven
schaften                                Diskurs über den Umgang mit und
                                        die Archivierung von internetba-
Die vorangegangenen Beispiele           sierten Daten führen. Denn die
unterstreichen, dass die „digitale      durch den Postfunktionalismus an-
Revolution“ in den Geistes- und         gestoßene Hinwendung der EU-In-
Sozialwissenschaften auch die eu-       tegrationsforschung zu Identitäts-
ropäische Integrationsforschung         fragen sowie die durch den Auf-
vor die Herausforderung stellt,         stieg links- und rechtspopulisti-
sich mit den technischen Möglich-       scher Parteien beschleunigte Ver-
keiten und Grenzen der systemati-       lagerung politischer Kommunika-
schen Archivierung von internet-        tionsprozesse auf Social-Media-
basierten Daten auseinanderzuset-       Plattformen machen eine ver-
zen. Denn mit dem klassischen           stärkte Einbeziehung internetba-
Methodeninstrumentarium lassen          sierter Daten in die wissenschaftli-
sich internetbasierte Daten für die     che Auseinandersetzung mit dem
Forschung nicht in einer Weise er-      europäischen Integrationsprozess
schließen, die den Ansprüchen an        unverzichtbar. Ebenso unverzicht-
intersubjektive Nachvollziehbar-        bar sind daher Fähigkeiten und
keit und Reliabilität gerecht           Techniken zum Umgang mit dieser
würde. Hinzu kommt, dass die Be-        – für Geistes- und Sozialwissen-
einflussung des erfass- und archi-      schaftlerInnen – relativ neuen Da-
vierbaren Materials durch sich          tenkategorie.
ständig wandelnde technische
Möglichkeiten ein verändertes
Problembewusstsein für entspre-
chende Entwicklungen bei Verfas-
serInnen und RezipientInnen wis-
senschaftlicher Studien voraus-
setzt. Von daher ist es dringend ge-
boten, die Sensibilität für Fragen
der Webarchivierung und das Ver-
ständnis für die komplexen techni-
schen Rahmenbedingungen im
Umgang mit internetbasierten Da-
ten zu erhöhen. Dies ist auch eine
Aufgabe für die Entwicklung künf-
tiger Curricula an Universitäten,
wo die Archivierung und Analyse
internetbasierter Daten bisher in
der Methodenausbildung europa-
wissenschaftlicher Studiengänge
praktisch nicht vorkommen. Der
Europaforschung könnte bei der
Bewältigung dieser Aufgabe aller-
dings zugutekommen, dass sie auf-
grund ihrer Interdisziplinarität tra-
„Let’s archive!“                                                        Seite 9

Literaturverzeichnis                            können, in: Zeitschrift für In-
                                                ternationale      Beziehungen
All European Academies (ALLEA):                 1/2018, S. 221ff.
       The European Code of Con-       Heyer,     Gerhard/Quasthoff, Uwe/
       duct for Research Integrity,             Wittig, Thomas: Text Mining:
       Berlin 2017.                             Wissensrohstoff Text. Kon-
Bennett, W. Lance: The Personaliza-             zepte, Algorithmen, Ergeb-
       tion of Politics: Political              nisse, Bochum 2006.
       Identity, Social Media, and
       Changing Patterns of Partici-   Hochschulrektorenkonferenz: Gute
       pation, in: The ANNALS of               wissenschaftliche Praxis an
       the American Academy of Po-             deutschen         Hochschulen.
       litical and Social Science              Empfehlung der 14. Mitglie-
       1/2012, S. 20ff.                        derversammlung der HRK am
                                               14. Mai 2013 in Nürnberg.
Brügger, Niels: Web Archiving – Be-
       tween Past, Present, and Fu-    Hooghe, Liesbet/Marks, Gary: Grand
       ture, in: Consalvo, Mia/Ess,            theories of European integra-
       Charles (Hrsg): The Hand-               tion in the twenty-first
       book of Internet Studies,               century, in: Journal of Euro-
       Malden/Oxford/Chichester                pean Public Policy 8/2019, S.
       2011, S. 24ff.                          1113ff.
Brügger, Niels/Schroeder, Ralph        Hooghe, Liesbet/Marks, Gary: A
       (Hrsg.): The Web as History.            Postfunctionalist Theory of
       Using Web Archives to Un-               European Integration. From
       derstand the Past and the               Permissive Consensus to
       Present, London 2017.                   Constraining Dissensus, in:
                                               British Journal of Political
Consalvo, Mia/Ess, Charles (Hrsg):             Science 1/2009, S. 1ff.
       The Handbook of Internet
       Studies,       Malden/Oxford/   Ignatow, Gabe/Mihalcea, Rada F.: An
       Chichester 2011.                        Introduction to Text Mining.
                                               Research Design, Data Col-
Deutsche Forschungsgemeinschaft:               lection, and Analysis, Los An-
       Sicherung guter wissen-                 geles u.a. 2018.
       schaftlicher Praxis, ergänzte
       Auflage, Weinheim 2013.         Internet Archive, abrufbar unter:
                                               https://archive.org/ (letzter
Fuchs, Martin/Holnburger, Josef:               Zugriff: 14.10.2019).
       #ep2019 – Die digitalen Par-
       teistrategien zur Europawahl    Internet Archive: About the Internet
       2019 (Kurzstudie der Fried-             Archive, abrufbar unter:
       rich-Ebert-Stiftung), Ham-              https://archive.org/about/
       burg/Berlin 2019.                       (letzter Zugriff: 14.10.2019).
Gemeinsames Positionspapier des        Internet Archive: Wayback Machine,
       Allgemeinen Fakultätentags              abrufbar                 unter:
       (AFT), der Fakultätentage               https://web.archive.org/ (letz-
       und des Deutschen Hoch-                 ter Zugriff: 14.10.2019).
       schulverbands (DHV): Gute       Internet Archive: Wayback Machine:
       wissenschaftliche Praxis für            Suche nach www.zdf.de/nach-
       das Verfassen wissenschaftli-           richten, abrufbar unter:
       cher Qualifikationsarbeiten,            https://web.archive.org/web/
       9. Juli 2012.                           */zdf.de/nachrichten (letzter
Haunschild, Jasmin/Jakobi, Anja P.:            Zugriff: 15.10.2019).
       „Big Data“ oder „Dunkelzif-
       fer“? – Wie Studierende aus
       schwieriger Datenlage lernen
Seite 10                                   Passauer Jean Monnet Papiere 12/2020

Internet Archive: Wayback Machine:                Europe, Collegio Carlo Al-
        Öffnen eines Crawls von                   berto: CAN Research Paper
        www.faz.net mit Fehlermel-                584/2019.
        dung,      abrufbar      unter:   Strohmaier, Markus/Zens, Maria:
        https://web.archive.org/web/              Analyse Sozialer Medien an
        20190525155240/https://ww                 der Schnittstelle zwischen In-
        w.faz.net/ sowie https://web.             formatik und Sozialwissen-
        archive.org/web/2019052609                schaften, in: König, Chris-
        2534/https://www.faz.net/                 tian/Stahl, Matthias/ Wie-
        (letzter Zugriff: 15.10.2019).            gand, Erich (Hrsg.): Soziale
Kaiser, Caroline: Soziale Medien als              Medien. Gegenstand und In-
        Mittel der Produktgestaltung              strument der Forschung,
        (Co-Creation), in: Christian              Wiesbaden 2014, S. 73ff.
        König/Matthias Stahl/Erich        Taylor, Nicholas: Reflections on the
        Wiegand (Hrsg.): Soziale Me-              2016 IIPC General Assembly
        dien. Gegenstand und Instru-              and Web Archiving Confer-
        ment der Forschung, Wiesba-               ence, in: Stanford Libraries,
        den 2014, S. 171ff.                       12. Mai 2016.
Karpf, David A.: Social Science Rese-     Universität Passau: Webarchive.
        arch Methods in Internet                  DFG-Projekt Webarchive –
        Time, in: Information, Com-               Internet für die Nachwelt ar-
        munication & Society 5/2012,              chivieren, abrufbar unter:
        S. 639ff.                                 https://www.uni-passau.de/
Knecht, Sebastian/Debre, Maria J.:                forschung/     forschungspro-
        Die „digitale IO“: Chancen                jekte/webarchive/ (letzter Zu-
        und Risiken von Online-Da-                griff: 18.10.2019).
        ten für die Forschung zu In-      Valentini, Chiara: Social media use by
        ternationalen Organisatio-                main EU political parties dur-
        nen, in: Zeitschrift für Inter-           ing EP elections 2019, in:
        nationale          Beziehungen            Bolin,         Niklas/Falasca,
        1/2018, S. 175ff.                         Kajsa/Grusell, Marie/Nord,
König, Christian/Stahl,       Matthias/           Lars (Hrsg.): Euroflections,
        Wiegand, Erich (Hrsg.): Sozi-             Sundsvall 2019, S. 80f.
        ale Medien. Gegenstand und        Web Curator Tool, abrufbar unter:
        Instrument der Forschung,                 http://webcurator.source-
        Wiesbaden 2014.                           forge.net/ (letzter Zugriff:
Maggini, Nicola: Understanding the                14.10.2019).
        Electoral Rise of the Five Star   Webrecorder,       abrufbar     unter:
        Movement in Italy, in: Czech              https://webrecorder.io/ (letz-
        Journal of Political Science              ter Zugriff: 14.10.2019).
        1/2014, S. 37ff.
                                          Winters, Jane: Coda: Web archives for
Max-Planck-Gesellschaft: Regeln zur               humanities research – some
        Sicherung guter wissen-                   reflections, in: Niels Brüg-
        schaftlicher Praxis, März                 ger/Ralph Schroeder (Hrsg.):
        2009.                                     The Web as History. Using
Saul, Philipp: Habeck will seine Ac-              Web Archives to Understand
        counts bei Facebook und                   the Past and the Present, Lon-
        Twitter löschen, in: SZ.de, 7.            don 2017, S. 238ff.
        Januar 2019.
Schaub, Max/Morisi, Davide: Voter
        mobilization in the echo
        chamber: Broadband internet
        and the rise of populism in
Sie können auch lesen