"Let's archive!" Die Dokumentation internetbasierter Daten als neue Herausforderung für die europäische Integrationsforschung
←
→
Transkription von Seiteninhalten
Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten
Passauer Jean Monnet Papiere „Let’s archive!“ Die Dokumentation internetbasierter Daten als neue Herausforderung für die europäische Integrationsforschung Daniel Göler und Florence Reiter 12/2020
„Let’s archive!“ Seite 1 (321) Daniel Göler und Florence Reiter „Let’s archive!“ Die Dokumentation internetbasierter Daten als neue Herausforderung für die europäische Integrationsforschung Abstract: Web-based data collections are having a growing impact on European inte- gration research. However, analysing this type of data is becoming increas- ingly challenging for researchers. A so-called third methodological level can be identified, namely the field of data archiving, which is currently hardly mentioned in the methodological debate. Thus, researchers must deal with web archiving and its technological possibilities and limitations if they want to base their work on web-based data. This is important in order to ensure replicability and reliability while collecting, storing and archiving web-based data, which cannot be covered by traditional methods. Die Digitalisierung der Kommunika- Zum einen hat auf theoretischer tionswege und -strukturen hat die eu- Ebene die Debatte über den Postfunk- ropäische Integrationsforschung in tionalismus zu einer stärkeren Hin- den letzten Jahren nachhaltig beein- wendung der Forschung zu Fragen flusst. Die Anzahl der wissenschaftli- von kultureller Identität und Einstel- chen Abhandlungen über die Auswir- lungen zum europäischen Integrati- kungen dieser Veränderungen auf onsprozess geführt,2 die eine Ausei- Wirtschaft, Gesellschaft und Politik in nandersetzung mit neuen Medien als der Europäischen Union (EU) ist ge- Untersuchungsgegenstand zwingend stiegen, wie etwa Untersuchungen machen. Zum anderen ist auf empi- über neue Formen der politischen rischer Ebene im letzten Jahrzehnt Kommunikation im Europawahl- ein Anstieg der Anzahl populisti- kampf 2019 zeigen. 1 Im Vergleich scher EU-skeptischer Parteien zu zu anderen Teildisziplinen der Po- verzeichnen, die sich stärker als litikwissenschaft gibt es in der eu- etablierte Parteien in ihren Kommu- ropäischen Integrationsforschung nikationsstrategien sozialer Medien zwei weitere Besonderheiten. 1 2 Vgl. Liesbet Hooghe/Gary Marks: Grand Vgl. Martin Fuchs/Josef Holnburger: #ep2019 – Die digitalen Parteistrategien zur theories of European integration in the Europawahl 2019 (Kurzstudie der Friedrich- twenty-first century, in: Journal of European Ebert-Stiftung), Hamburg/Berlin 2019; Chi- Public Policy 8/2019, S. 1113ff.; Liesbet ara Valentini: Social media use by main EU Hooghe/Gary Marks: A Postfunctionalist political parties during EP elections 2019, in: Theory of European Integration. From Per- Niklas Bolin/Kajsa Falasca/Marie Gru- missive Consensus to Constraining Dissen- sell/Lars Nord (Hrsg.): Euroflections, Sunds- sus, in: British Journal of Political Science vall 2019, S. 80f. 1/2009, S. 1ff.
Seite 2 (322) Passauer Jean Monnet Papiere 12/2020 bedienen3 und deren Wählerschaft genschaft, die eine besondere Heraus- häufig das Internet als primäre Infor- forderung für die wissenschaftliche mationsquelle nutzt.4 Auseinandersetzung mit ihnen dar- stellt: die – im Vergleich zu klassi- Bei der Analyse dieser Entwicklungen schen Daten – hohe Fluidität. Bezieht haben es WissenschaftlerInnen in der man z.B. in der Analyse eines Europa- EU-Forschung nicht nur mit neuen wahlkampfs neben klassischen Print- Phänomenen zu tun, sondern auch mit medien ebenfalls die Online-Ange- einer neuen Art von Daten. Dabei bote von Zeitungen und Rundfunkan- lässt die Einbeziehung der „digitalen stalten ein, so steht man vor dem Empirie“5 die Datenmenge, die verar- Problem, dass einzelne Beiträge teils beitet werden muss, stark ansteigen. mehrmals täglich aktualisiert bzw. Die hieraus entstehenden methodi- „weitergeschrieben“ werden. Bei der schen Probleme werden schon seit ei- Auswertung von Social-Media-Seiten nigen Jahren in den Sozialwissen- einzelner EuropapolitikerInnen oder schaften diskutiert6 und sind seit Kur- von Parteien kann man zudem in der zem Gegenstand intensiver Debatten Regel nicht sämtliche Tweets und der Teilgebiete der Internationalen Posts einsehen und damit in die Ana- Beziehungen und der Vergleichenden lyse einbeziehen, denn durch unter- Regionalismusforschung7 und damit schiedliche Abfragezeitpunkte und auch der EU-Forschung. Vor allem Filteralgorithmen werden immer nur die Herausforderungen der teilweise selektive (und sich verändernde) Aus- so bezeichneten „digitale[n] Revolu- schnitte der Gesamtdatenmenge ange- tion in den Sozialwissenschaften“8 für zeigt. Hinzu kommt die „Besonder- die Datenerhebung und Datenauswer- heit der Sozialen Medien […], dass tung sind hierbei intensiv diskutiert sie auf den Beiträgen der Benutzer (u- worden.9 Der vorliegende Beitrag er- ser generated content) basieren und gänzt diese beiden Punkte um einen damit auch Informationen […] enthal- weiteren Aspekt: die Datenarchivie- ten, die kaum professionell oder insti- rung bzw. Datenkonservierung als tutionell gefiltert“10 und nicht syste- „dritte methodische Ebene“, der sich matisch archiviert bzw. erhalten ForscherInnen auf dem Gebiet der eu- werden. Auch die Möglichkeit der ropäischen Integration verstärkt an- Korrektur und Löschung von Posts nehmen müssen. Denn neben den be- oder gar ganzer Seiten stellt für reits genannten Problemen haben in- ForscherInnen ein Problem dar. Ein ternetbasierte Daten häufig eine Ei- Beispiel für Letzteres ist etwa die Entscheidung des Parteivorsit- 3 Vgl. Max Schaub/Davide Morisi: Voter mo- tion of Politics: Political Identity, Social Me- bilization in the echo chamber: Broadband in- dia, and Changing Patterns of Participation, ternet and the rise of populism in Europe, in: The ANNALS of the American Academy Collegio Carlo Alberto: CAN Research Paper of Political and Social Science 1/2012, S. 584/2019. 20ff. 4 Vgl. Nicola Maggini: Understanding the 7 Vgl. Knecht/Debre: Die „digitale IO“, 2018. 8 Carolin Kaiser: Soziale Medien als Mittel der Electoral Rise of the Five Star Movement in Italy, in: Czech Journal of Political Science Produktgestaltung (Co-Creation), in: Christian 1/2014, S. 37ff., hier S. 57. König/Matthias Stahl/Erich Wiegand (Hrsg.): 5 Sebastian Knecht/Maria J. Debre: Die „digi- Soziale Medien. Gegenstand und Instrument tale IO“: Chancen und Risiken von Online- der Forschung, Wiesbaden 2014, S. 171ff., Daten für die Forschung zu Internationalen hier S. 185. 9 Vgl. Markus Strohmaier/Maria Zens: Ana- Organisationen, in: Zeitschrift für Internatio- nale Beziehungen 1/2018, S. 175ff., hier S. lyse Sozialer Medien an der Schnittstelle zwi- 175. schen Informatik und Sozialwissenschaften, 6 Vgl. u.a. David A. Karpf: Social Science in: Christian König/Matthias Stahl/Erich Wie- Research Methods in Internet Time, in: Infor- gand (Hrsg.): Soziale Medien. Gegenstand und mation, Communication & Society 5/2012, S. Instrument der Forschung, Wiesbaden 2014, 639ff.; W. Lance Bennett: The Personaliza- S. 73ff. 10 Ebenda, S.73.
„Let’s archive!“ Seite 3 (323) zenden der Grünen, Robert Habeck, Deutschen Hochschulverbands unter- seine Accounts bei Facebook und streicht, dass „Forschungsergebnisse Twitter zu löschen.11 Diese Fluidität und die ihnen zugrunde liegenden Da- internetbasierter Daten stellt aber ein ten […] ebenso genau dokumentiert sehr grundsätzliches Problem hin- werden und überprüfbar sein [müssen sichtlich der intersubjektiven Nach- …] wie die Interpretationsleistungen vollziehbarkeit sowie der Reliabilität und ihre Quellen“.13 Konkretisiert dar und betrifft damit zwei Kernkrite- wird diese Dokumentationspflicht in rien guten wissenschaftlichen Arbei- der Denkschrift „Sicherung guter wis- tens. Denn wenn die einer Analyse zu- senschaftlicher Praxis“ der Deutschen grunde liegenden Daten nicht für eine Forschungsgemeinschaft (DFG), wel- Überprüfung durch Dritte zur Verfü- che die Anforderung aufstellt, dass gung stehen, ist ein Kernelement der „Primärdaten als Grundlagen für Ver- Wissenschaftlichkeit aufgehoben. Für öffentlichungen […] auf haltbaren eine Analyse etwa des Europawahl- und gesicherten Trägern in der Insti- kampfs 2019 unter Einbeziehung von tution, wo sie entstanden sind, zehn Social-Media-Kanälen stellt sich da- Jahre lang aufbewahrt werden“14 sol- mit nicht nur die Frage, wie Wissen- len. Diese Zehnjahresfrist nennen schaftlerInnen diese Daten erheben ebenfalls die „Regeln zur Sicherung und für sich auswerten, sondern auch, guter wissenschaftlicher Praxis“ der wie sie diese so sichern und dokumen- Max-Planck-Gesellschaft.15 Auch der tieren, dass ihre Analyse mit zeitli- „European Code of Conduct for Re- chem Abstand nochmals durchgeführt search Integrity“ der „All European und nachvollzogen werden kann. Academies“ fordert, dass „[r]esearch- ers, research institutions and organisa- tions ensure appropriate stewardship Entsprechend unterstreichen nahezu and curation of all data […] with se- alle Positionspapiere führender Wis- cure preservation for a reasonable pe- senschaftsorganisationen, dass es un- riod“.16 verzichtbar für gute wissenschaftliche Praxis ist, die einer Analyse zugrunde liegenden Primärdaten (zumindest Datenarchivierung als dritte me- mittelfristig) zu sichern und bei Be- thodische Ebene in der europäi- darf anderen ForscherInnen zur Über- schen Integrationsforschung prüfung zur Verfügung zu stellen. So betont die Hochschulrektorenkonfe- renz in ihrer Empfehlung „Gute wis- Nimmt man die Forderungen nach senschaftliche Praxis an deutschen umfassender Archivierung von Pri- Hochschulen“: „Jede Wissenschaftle- märdaten ernst, bedeutet dies, dass rin und jeder Wissenschaftler ist zur in der europäischen Integrations- vollständigen Datendokumentation forschung im Rahmen der Ausei- verpflichtet.“12 Ein gemeinsames Po- nandersetzung mit internetbasier- sitionspapier des Allgemeinen Fakul- ten Daten neben der Frage der Da- tätentags, der Fakultätentage und des tenerhebung und der Da- 11 Vgl. Philipp Saul: Habeck will seine Ac- Verfassen wissenschaftlicher Qualifikations- counts bei Facebook und Twitter löschen, in: arbeiten, 9. Juli 2012, S. 2. 14 Deutsche Forschungsgemeinschaft: Siche- SZ.de, 7. Januar 2019. 12 Hochschulrektorenkonferenz: Gute wissen- rung guter wissenschaftlicher Praxis, ergänzte schaftliche Praxis an deutschen Hochschulen. Auflage, Weinheim 2013, S. 21. 15 Vgl. Max-Planck-Gesellschaft: Regeln zur Empfehlung der 14. Mitgliederversammlung der HRK am 14. Mai 2013 in Nürnberg, S. 3. Sicherung guter wissenschaftlicher Praxis, 13 Gemeinsames Positionspapier des Allge- März 2009, S. 4 16 All European Academies (ALLEA): The meinen Fakultätentags (AFT), der Fakultäten- tage und des Deutschen Hochschulverbands European Code of Conduct for Research In- (DHV): Gute wissenschaftliche Praxis für das tegrity, Berlin 2017, S. 6.
Seite 4 (324) Passauer Jean Monnet Papiere 12/2020 tenverarbeitung bzw. -auswertung, Text-Mining-Verfahren wie Topic die in der aktuellen Methodendebatte Modeling, Word2Vector oder Senti- bereits intensiv diskutiert werden,17 ment-Analyse. Text-Mining-Verfah- die Datenarchivierung bzw. -siche- ren sind „computergestützte Verfah- rung als dritte methodische Ebene un- ren für die semantische Analyse von verzichtbar wird. Nur so können in- Texten […], welche die automatische tersubjektive Nachvollziehbarkeit so- bzw. semi-automatische Strukturie- wie Reliabilität von Forschungsarbei- rung von Texten, insbesondere sehr ten sichergestellt werden. Die Heraus- großen Mengen von Texten, unter- forderungen, die sich hieraus ergeben, stützen“.18 Sie bieten somit ein viel- werden in den verschiedenen Ansät- fältiges Methodenspektrum, um große zen zum Aufbau von Webarchiven Textmengen nach bestimmten Frage- und den jeweils eingesetzten Webar- stellungen zu untersuchen. Die Chan- chivierungstools deutlich. Diese cen, die sich aus solchen computerge- Tools dienen dazu, internetbasierte stützten Methoden für die europäische Daten so zu sichern und zu dokumen- Integrationsforschung ergeben, sind tieren, dass diese auch mit größerem vielfältig und eröffnen für die Analyse zeitlichen Abstand noch für wissen- der gesellschaftspolitischen Grundla- schaftliche Analysen – in der Regel gen des Integrationsprozesses neue mit Methoden aus dem Bereich der Forschungsperspektiven. Gerade des- Digital Humanities – herangezogen halb ist es aber unverzichtbar, die werden können. hierfür im Internet zu findenden rele- vanten Daten zuverlässig und nach- haltig zu archivieren. Chancen und Grenzen der Webarchi- vierung für die wissenschaftliche Ar- beit im Allgemeinen und die europäi- Probleme der Nutzung bestehen- sche Integrationsforschung im Beson- der Webarchive für die Integrati- deren zeigen sich in der systemati- onsforschung schen Erfassung, Aufbereitung und Archivierung von Websites, Online- Berichten, Social-Media-Debatten Während Webarchivierung in der eu- und Online-Kommentaren, die etwa ropäischen Integrationsforschung für die Analyse gesellschaftlicher De- noch eine untergeordnete Rolle spielt, batten über die EU und ihre Politiken ist die Entwicklung in anderen Berei- oder aber auch für die Untersuchung chen – wie beispielsweise in den Di- von Europawahlkämpfen mittlerweile gital Humanities oder bei Gedächtnis- unverzichtbar sind. Dabei muss die institutionen wie Archiven und Bibli- Archivierung zum einen so erfolgen, otheken – deutlich fortgeschrittener. dass die Datenkorpora mit zeitlichem Durch die Archivierung von Webs- Abstand und durch Dritte nutzbar ites können ForscherInnen einer- sind, sodass die intersubjektive Nach- seits die Entwicklung des Internets vollziehbarkeit sowie die Reliabilität dokumentieren und analysieren. der Analyse gegeben sind. Zum ande- Andererseits ermöglicht Webar- ren sollten die Daten in einer solchen chivierung, „to document our find- Form archiviert werden, dass sie auch ings when we study today’s web, mit computergestützten Methoden der since in practice most web studies Digital Humanities auswertbar sind. preserve the web in order to have a Zu nennen wären hier insbesondere stable object to study and 17 18 Vgl. Jasmin Haunschild/Anja P. Jakobi: Gerhard Heyer/Uwe Quasthoff/Thomas „Big Data“ oder „Dunkelziffer“? – Wie Stu- Wittig: Text Mining: Wissensrohstoff Text. dierende aus schwieriger Konzepte, Algorithmen, Ergebnisse, Bochum Datenlage lernen können, in: Zeitschrift für In- 2006, S. 3. ternationale Beziehungen 1/2018, S. 221ff., hier S. 221.
„Let’s archive!“ Seite 5 (325) refer to when the analysis is to be doc- source“.21 Dies liegt unter anderem umented (except for studies of the live daran, dass die ständige Weiterent- web)“.19 Webarchivierung als Prozess wicklung von Webtechnologien und und Webarchive als Datengrundlage das dadurch entstehende dynamische für Analysen sind somit nicht nur für Umfeld der Webarchivierung archi- WebhistorikerInnen, sondern durch vierende Institutionen laufend vor die zunehmende Verlagerung von ge- neue Herausforderungen stellen.22 sellschaftlichen und politischen Kom- Denn neben den verschiedensten Ar- munikationsprozessen in das Internet ten von Textdateien – dazu zählen auch für andere Forschungsbereiche HTML-Sites, Word-Dokumente oder unverzichtbar. In der europäischen In- PDF-Dokumente – beinhalten Websi- tegrationsforschung gilt dies beson- tes unterschiedlichste Video-, Bild- ders im Hinblick auf die Untersu- und Sound-Dateien, animierte GIFs o- chung von Identitätsfragen und die der auch eingebettete Bild- und Vi- diesbezüglichen politischen und ge- deodateien von Social-Media-Platt- sellschaftlichen Debatten, die sich zu formen wie YouTube, Instagram oder einem Großteil auf Social-Media- Facebook. Diese vielfältigen Datenar- Plattformen abspielen. Vor allem seit ten sollten im idealtypischen Archi- der sogenannten Migrationskrise wird vierungsprozess berücksichtigt wer- diesen Fragen in der Integrationsfor- den, was aber in der Realität noch schung ein großes Gewicht beigemes- schwer umsetzbar ist.23 Denn die sen, insbesondere aus postfunktiona- Vielfalt dieser Daten übersteigt der- listischer Perspektive. So betonen zeit die Möglichkeiten der Webarchi- Liesbet Hooghe und Gary Marks: vierungstools.24 „Postfunctionalism puts the spotlight on identity politics [… and] shows how the migration crisis has intensi- Zwar arbeiten verschiedene Instituti- fied a cultural divide across Europe onen schon seit einigen Jahren daran, that pits proponents of a multicultural, Webinhalte als Datenmaterial für die open, Europe against its opponents.“20 Wissenschaft zu sichern und zugäng- Eine Integrationsforschung, die diese lich zu machen; die Nutzbarkeit für Entwicklungen ohne Berücksichti- die Wissenschaft ist jedoch teils prob- gung von internetbasierten Daten un- lematisch. Neben zum Teil einge- tersucht, würde einen Teil der heuti- schränkten Zugangs- und Nutzungs- gen gesellschaftlichen Realität syste- möglichkeiten dieser Webarchive be- matisch ausblenden. steht das Hauptproblem in deren Un- vollständigkeit. Selbst das „Internet Archive“,25 das als kostenlose digi- Trotz der gewachsenen Bedeutung in- tale Bibliothek seit 1996 Websites ternetbasierter Daten und zahlreicher archiviert – mittlerweile sind es über Aktivitäten der Webarchivierung gel- 330 Milliarden26 – und über die ten Webarchive als „un-known, and certainly underused, primary 19 Niels Brügger: Web Archiving – Between 22 Vgl. Nicholas Taylor: Reflections on the Past, Present, and Future, in: Mia 2016 IIPC General Assembly and Web Ar- Consalvo/Charles Ess (Hrsg.): The Handbook chiving Conference, in: Stanford Libraries, 12. of Internet Studies, Malden/Oxford/Chichester Mai 2016. 23 Vgl. ebenda. 2011, S. 24ff., hier S. 24. 20 Hooghe/Marks: Grand theories, 2019, S. 24 Vgl. Winters: Coda, 2017, S. 243. 25 Internet Archive, abrufbar unter: https://ar- 1122. 21 Jane Winters: Coda: Web archives for hu- chive.org/ (letzter Zugriff: 14.10.2019). manities research – some reflections, in: Niels 26 Vgl. Internet Archive: About the Internet Brügger/Ralph Schroeder (Hrsg.): The Web as Archive, abrufbar unter: https://ar- History. Using Web Archives to Understand chive.org/about/ (letzter Zugriff: 14.10.2019). the Past and the Present, London 2017, S. 238ff., hier S. 238.
Seite 6 (326) Passauer Jean Monnet Papiere 12/2020 Serveranwendung „Wayback Ma- Webarchivierung und wird definiert chine“27 online zur Verfügung stellt, als „the process of building a collec- weist erhebliche Lücken auf. So hat tion of webpages by starting with an sich in einem DFG-Projekt zum Auf- initial set of URLs (or links) and re- bau von Webarchiven am Beispiel der cursively traversing the correspond- Europawahl 201928 gezeigt, dass das ing pages to find additional links“.31 „Internet Archive“ etwa vom Tag der Neben dem Crawlen der einzelnen Europawahl in Deutschland, dem 26. Websites gehört zum Archivierungs- Mai 2019, und dem Vortag keine Ar- prozess idealerweise auch eine Quali- chivierung der Website der ZDF- tätskontrolle jedes einzelnen Vor- Nachrichtensendung „heute“ vorge- gangs, die gewährleisten soll, dass der nommen hat.29 Versucht man die ar- Archivierungsprozess erfolgreich war chivierte Website der Frankfurter All- und Daten auch in der Zukunft noch gemeinen Zeitung vom deutschen verfügbar sind. Dies ist allerdings sehr Wahltag und dem Vortag zu öffnen, aufwendig und setzt der Erstellung erscheint eine Fehlermeldung.30 Dar- von allgemeinen Webarchiven Gren- über hinaus sind wichtige Foren der zen. politischen Kommunikation wie Social-Media-Plattformen nicht voll- Herausforderungen bei der Er- ständig archiviert. Für das wissen- stellung individueller Webarchive schaftliche Arbeiten bedeutet dies, dass Studien, die sich nur auf beste- Eine ganze Reihe von Problemen, die hende Webarchive stützen, immer der sich bei der Erstellung umfassender Gefahr einer unzulänglichen Daten- Webarchive stellen, zeigt sich gleich- grundlage ausgesetzt sind, zumal ermaßen bei individuellen bzw. event- meist nicht ersichtlich ist, welche sys- und projektbezogenen Archiven. An tematischen und technischen Grenzen erster Stelle sind hierbei die techni- die Erstellung bestehender Archive schen Herausforderungen zu nennen. beeinflusst haben. Gerade bei aktuel- So bieten Webarchivierungstools wie len Fallstudien sind daher eine eigene das „Web Curator Tool“ (WCT)32 o- Datenerhebung und Datenarchivie- der der „Webrecorder“33 zwar die rung unverzichtbar. In der genannten Möglichkeit, Websites zu erfassen Projektstudie zu den Europawahlen und zu archivieren; die Anwendung 2019 wurde deshalb versucht, im Rah- birgt jedoch auch zahlreiche Prob- men eines sogenannten Event-Crawls leme. Hinzu kommt, dass die Tools Websites und Social-Media-Seiten ständig weiterentwickelt werden. Bei von Parteien und PolitikerInnen sowie länger laufenden Event-Crawls stellt die Online-Berichterstattung von Zei- sich damit das Problem, dass neue tungen und Nachrichtensendern zu ar- Versionen zwar bessere Ergebnisse chivieren. „Crawl“ ist dabei die gäng- erbringen können. Allerdings wird ige Bezeichnung für den Prozess der damit auch die Vergleich- 27 Internet Archive: Wayback Machine, abruf- Fehlermeldung, abrufbar unter: https://web.ar- bar unter: https://web.archive.org/ (letzter Zu- chive.org/web/20190525155240/https://www. griff: 14.10.2019). faz.net/ 28 Vgl. Universität Passau: Webarchive. DFG- sowie https://web.archive.org/web/2 Projekt Webarchive – Internet für die Nach- 0190526092534/https://www.faz.net/ (letzter welt archivieren, abrufbar unter: Zugriff: 15.10.2019). 31 Gabe Ignatow/Rada F. Mihalcea: An Intro- https://www.uni-passau.de/forschung/for- schungsprojekte/webarchive/ (letzter Zugriff: duction to Text Mining. Research Design, 18.10.2019). Data Collection, and Analysis, Los Angeles 29 Vgl. Internet Archive: Wayback Machine: u.a. 2018, S. 82. 32 Suche nach www.zdf.de/nachrichten, abrufbar Web Curator Tool, abrufbar unter: unter: https://web.ar- http://webcurator.sourceforge.net/ (letzter Zu- chive.org/web/*/zdf.de/nachrichten (letzter griff: 14.10.2019). 33 Webrecorder, abrufbar unter: https://webre- Zugriff: 15.10.2019). 30 Vgl. Internet Archive: Wayback Machine: corder.io/ (letzter Zugriff: 14.10.2019). Öffnen eines Crawls von www.faz.net mit
„Let’s archive!“ Seite 7 (327) barkeit der Daten eingeschränkt, da über eine unbegrenzte Crawl-Kapazi- die Datenerhebung während des tät, was ihre Anwendung erheblich Event-Crawls nach unterschiedlichen einschränkte, insbesondere hinsicht- (technischen) Standards erfolgt. In lich der Frequenz der Datenerhebung. dem genannten Forschungsprojekt zur So war es in dem genannten Projekt Europawahl 2019 verwendete die selbst mit einem in der Datenerfas- Bayerische Staatsbibliothek zunächst sung und Datenarchivierung erfahre- die von ihr bisher für die Archivierung nen und ressourcenstarken Partner von Internetquellen genutzte WCT wie der Bayerischen Staatsbibliothek Version 1.6.1. Diese erwies sich wäh- nicht möglich, mehr als acht Medien- rend eines Pretests als ungeeignet für Websites täglich zu crawlen, wobei die Archivierung von Facebook- und hier nochmals eine weitere Beschrän- Twitter- Seiten, deren Einbeziehung kung auf die jeweilige Startseite, Po- in die geplante Analyse des Europa- litikseite und Themenseite zur Euro- wahlkampfs 2019 aber unverzichtbar pawahl erforderlich war. war. Deshalb wurde für Social-Me- dia-Seiten auf das browserbasierte Neben den Webarchivierungstools Tool „Webrecoder“ zurückgegriffen. birgt auch das Dateiformat zur Archi- Bei diesem ist die Archivierung mit- vierung Schwierigkeiten. Denn das in tels händischen Scrollens der jeweili- der Webarchivierung mittlerweile gen Website möglich, was jedoch ei- standardmäßig verwendete Webar- nen hohen Personalaufwand bedeutet. chive-Dateiformat WARC35 erfordert Aber auch bei der Archivierung klas- sowohl bei der Datenarchivierung als sischer Websites kam die WCT Ver- auch bei der späteren Nutzung der ar- sion 1.6.1 an ihre Grenzen, da sie ver- chivierten Daten vertiefte informati- schlüsselte Websites nicht erfolgreich onstechnische Kenntnisse, welche in harvesten34 konnte. Daher wurde pa- der klassischen geistes- und sozial- rallel die zu diesem Zeitpunkt noch in wissenschaftlichen Methodenausbil- der Entwicklung befindliche WCT dung bisher nicht vorkommen. Denn Beta-Version 1.7 mit einer neueren WARC-Dateien können nicht ohne Version des Heritrix-Crawlers, der die umfangreiche Vorverarbeitung- Basis für das WCT bildet, eingesetzt. schritte mit Text-Mining-Verfahren Da bei dieser Beta-Version immer wie- der Digital Humanities analysiert wer- der technische Schwierigkeiten auftra- den. Die einzelnen Dateien enthalten ten, konnte der ursprünglich wöchentlich für die Textanalyse großteils irrele- geplante Archivierungs-Rhythmus nicht vante Daten wie beispielsweise Hea- für alle Websites eingehalten werden. der und Footer, Werbung, Menüs, Bil- der und Videos. Die relevanten Für die letztendliche Erfassung der HTMLSites enthalten wiederum zu Websites im Umfeld der Europawah- einem großen Teil Informationen, die len konnte dann auf die neueste Ver- nicht benötigt werden (HTML-Tags, sion des WCT (Version 2.0) zurück- Javascript etc.). Um von den WARC- gegriffen werden, die sich als deutlich Dateien an den gewünschten (Text-)In- stabiler als die im Pretest verwendete halt zu gelangen, ist ein mehrstufiger Ex- Version erwies. Dieses Beispiel zeigt traktionsprozess notwendig, der nicht sehr gut, wie stark Korpusbildung und ohne nötige informationstechnische Datenerfassung im digitalen Bereich Kenntnisse durchführbar ist. Insgesamt durch technische Rahmenbedingun- lässt sich festhalten, dass die Komple- gen beeinflusst werden. Denn auch xität der internetbasierten Daten und diese neueste Version verfügte nicht die Grenzen der bisher zur Verfügung 34 „Harvesten“ kann als Synonym für „craw- für die Kombination mehrerer digitaler Res- len“ verwendet werden. sourcen in einer aggregierten Archivdatei mit 35 WARC steht für „Web ARChive Archivfor- Metadaten. mat“. Es handelt sich dabei um ein Verfahren
Seite 8 (328) Passauer Jean Monnet Papiere 12/2020 stehenden Tools zu ihrer Archivie- ditionell enge Bezüge zu den Ge- rung dazu führen, dass die Daten- schichtswissenschaften hat, in de- erfassung, -aufbereitung und -ar- nen zumindest das Problembe- chivierung sehr ressourcenintensiv wusstsein für Fragen der Datenar- und voraussetzungsvoll sind. chivierung Teil der Fachidentität ist. Hieran anknüpfend sollten die Webarchivierung als Teil der Europawissenschaften in den Methoden der Sozialwissen- nächsten Jahren einen intensiven schaften Diskurs über den Umgang mit und die Archivierung von internetba- Die vorangegangenen Beispiele sierten Daten führen. Denn die unterstreichen, dass die „digitale durch den Postfunktionalismus an- Revolution“ in den Geistes- und gestoßene Hinwendung der EU-In- Sozialwissenschaften auch die eu- tegrationsforschung zu Identitäts- ropäische Integrationsforschung fragen sowie die durch den Auf- vor die Herausforderung stellt, stieg links- und rechtspopulisti- sich mit den technischen Möglich- scher Parteien beschleunigte Ver- keiten und Grenzen der systemati- lagerung politischer Kommunika- schen Archivierung von internet- tionsprozesse auf Social-Media- basierten Daten auseinanderzuset- Plattformen machen eine ver- zen. Denn mit dem klassischen stärkte Einbeziehung internetba- Methodeninstrumentarium lassen sierter Daten in die wissenschaftli- sich internetbasierte Daten für die che Auseinandersetzung mit dem Forschung nicht in einer Weise er- europäischen Integrationsprozess schließen, die den Ansprüchen an unverzichtbar. Ebenso unverzicht- intersubjektive Nachvollziehbar- bar sind daher Fähigkeiten und keit und Reliabilität gerecht Techniken zum Umgang mit dieser würde. Hinzu kommt, dass die Be- – für Geistes- und Sozialwissen- einflussung des erfass- und archi- schaftlerInnen – relativ neuen Da- vierbaren Materials durch sich tenkategorie. ständig wandelnde technische Möglichkeiten ein verändertes Problembewusstsein für entspre- chende Entwicklungen bei Verfas- serInnen und RezipientInnen wis- senschaftlicher Studien voraus- setzt. Von daher ist es dringend ge- boten, die Sensibilität für Fragen der Webarchivierung und das Ver- ständnis für die komplexen techni- schen Rahmenbedingungen im Umgang mit internetbasierten Da- ten zu erhöhen. Dies ist auch eine Aufgabe für die Entwicklung künf- tiger Curricula an Universitäten, wo die Archivierung und Analyse internetbasierter Daten bisher in der Methodenausbildung europa- wissenschaftlicher Studiengänge praktisch nicht vorkommen. Der Europaforschung könnte bei der Bewältigung dieser Aufgabe aller- dings zugutekommen, dass sie auf- grund ihrer Interdisziplinarität tra-
„Let’s archive!“ Seite 9 Literaturverzeichnis können, in: Zeitschrift für In- ternationale Beziehungen All European Academies (ALLEA): 1/2018, S. 221ff. The European Code of Con- Heyer, Gerhard/Quasthoff, Uwe/ duct for Research Integrity, Wittig, Thomas: Text Mining: Berlin 2017. Wissensrohstoff Text. Kon- Bennett, W. Lance: The Personaliza- zepte, Algorithmen, Ergeb- tion of Politics: Political nisse, Bochum 2006. Identity, Social Media, and Changing Patterns of Partici- Hochschulrektorenkonferenz: Gute pation, in: The ANNALS of wissenschaftliche Praxis an the American Academy of Po- deutschen Hochschulen. litical and Social Science Empfehlung der 14. Mitglie- 1/2012, S. 20ff. derversammlung der HRK am 14. Mai 2013 in Nürnberg. Brügger, Niels: Web Archiving – Be- tween Past, Present, and Fu- Hooghe, Liesbet/Marks, Gary: Grand ture, in: Consalvo, Mia/Ess, theories of European integra- Charles (Hrsg): The Hand- tion in the twenty-first book of Internet Studies, century, in: Journal of Euro- Malden/Oxford/Chichester pean Public Policy 8/2019, S. 2011, S. 24ff. 1113ff. Brügger, Niels/Schroeder, Ralph Hooghe, Liesbet/Marks, Gary: A (Hrsg.): The Web as History. Postfunctionalist Theory of Using Web Archives to Un- European Integration. From derstand the Past and the Permissive Consensus to Present, London 2017. Constraining Dissensus, in: British Journal of Political Consalvo, Mia/Ess, Charles (Hrsg): Science 1/2009, S. 1ff. The Handbook of Internet Studies, Malden/Oxford/ Ignatow, Gabe/Mihalcea, Rada F.: An Chichester 2011. Introduction to Text Mining. Research Design, Data Col- Deutsche Forschungsgemeinschaft: lection, and Analysis, Los An- Sicherung guter wissen- geles u.a. 2018. schaftlicher Praxis, ergänzte Auflage, Weinheim 2013. Internet Archive, abrufbar unter: https://archive.org/ (letzter Fuchs, Martin/Holnburger, Josef: Zugriff: 14.10.2019). #ep2019 – Die digitalen Par- teistrategien zur Europawahl Internet Archive: About the Internet 2019 (Kurzstudie der Fried- Archive, abrufbar unter: rich-Ebert-Stiftung), Ham- https://archive.org/about/ burg/Berlin 2019. (letzter Zugriff: 14.10.2019). Gemeinsames Positionspapier des Internet Archive: Wayback Machine, Allgemeinen Fakultätentags abrufbar unter: (AFT), der Fakultätentage https://web.archive.org/ (letz- und des Deutschen Hoch- ter Zugriff: 14.10.2019). schulverbands (DHV): Gute Internet Archive: Wayback Machine: wissenschaftliche Praxis für Suche nach www.zdf.de/nach- das Verfassen wissenschaftli- richten, abrufbar unter: cher Qualifikationsarbeiten, https://web.archive.org/web/ 9. Juli 2012. */zdf.de/nachrichten (letzter Haunschild, Jasmin/Jakobi, Anja P.: Zugriff: 15.10.2019). „Big Data“ oder „Dunkelzif- fer“? – Wie Studierende aus schwieriger Datenlage lernen
Seite 10 Passauer Jean Monnet Papiere 12/2020 Internet Archive: Wayback Machine: Europe, Collegio Carlo Al- Öffnen eines Crawls von berto: CAN Research Paper www.faz.net mit Fehlermel- 584/2019. dung, abrufbar unter: Strohmaier, Markus/Zens, Maria: https://web.archive.org/web/ Analyse Sozialer Medien an 20190525155240/https://ww der Schnittstelle zwischen In- w.faz.net/ sowie https://web. formatik und Sozialwissen- archive.org/web/2019052609 schaften, in: König, Chris- 2534/https://www.faz.net/ tian/Stahl, Matthias/ Wie- (letzter Zugriff: 15.10.2019). gand, Erich (Hrsg.): Soziale Kaiser, Caroline: Soziale Medien als Medien. Gegenstand und In- Mittel der Produktgestaltung strument der Forschung, (Co-Creation), in: Christian Wiesbaden 2014, S. 73ff. König/Matthias Stahl/Erich Taylor, Nicholas: Reflections on the Wiegand (Hrsg.): Soziale Me- 2016 IIPC General Assembly dien. Gegenstand und Instru- and Web Archiving Confer- ment der Forschung, Wiesba- ence, in: Stanford Libraries, den 2014, S. 171ff. 12. Mai 2016. Karpf, David A.: Social Science Rese- Universität Passau: Webarchive. arch Methods in Internet DFG-Projekt Webarchive – Time, in: Information, Com- Internet für die Nachwelt ar- munication & Society 5/2012, chivieren, abrufbar unter: S. 639ff. https://www.uni-passau.de/ Knecht, Sebastian/Debre, Maria J.: forschung/ forschungspro- Die „digitale IO“: Chancen jekte/webarchive/ (letzter Zu- und Risiken von Online-Da- griff: 18.10.2019). ten für die Forschung zu In- Valentini, Chiara: Social media use by ternationalen Organisatio- main EU political parties dur- nen, in: Zeitschrift für Inter- ing EP elections 2019, in: nationale Beziehungen Bolin, Niklas/Falasca, 1/2018, S. 175ff. Kajsa/Grusell, Marie/Nord, König, Christian/Stahl, Matthias/ Lars (Hrsg.): Euroflections, Wiegand, Erich (Hrsg.): Sozi- Sundsvall 2019, S. 80f. ale Medien. Gegenstand und Web Curator Tool, abrufbar unter: Instrument der Forschung, http://webcurator.source- Wiesbaden 2014. forge.net/ (letzter Zugriff: Maggini, Nicola: Understanding the 14.10.2019). Electoral Rise of the Five Star Webrecorder, abrufbar unter: Movement in Italy, in: Czech https://webrecorder.io/ (letz- Journal of Political Science ter Zugriff: 14.10.2019). 1/2014, S. 37ff. Winters, Jane: Coda: Web archives for Max-Planck-Gesellschaft: Regeln zur humanities research – some Sicherung guter wissen- reflections, in: Niels Brüg- schaftlicher Praxis, März ger/Ralph Schroeder (Hrsg.): 2009. The Web as History. Using Saul, Philipp: Habeck will seine Ac- Web Archives to Understand counts bei Facebook und the Past and the Present, Lon- Twitter löschen, in: SZ.de, 7. don 2017, S. 238ff. Januar 2019. Schaub, Max/Morisi, Davide: Voter mobilization in the echo chamber: Broadband internet and the rise of populism in
Sie können auch lesen