Analyse der Entwicklung des Open Access-Discovery-Services Unpaywall seit 2018
←
→
Transkription von Seiteninhalten
Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten
Analyse der Entwicklung des Open Access-Discovery-Services Unpaywall seit 2018 Bachelorarbeit vorgelegt von Nick Haupka Studiengang Informationsmanagement Hochschule Hannover Fakultät III Erstgutachter: Prof. Dr. Klaus Gantert Zweitgutachter: Prof. Dr. Christian Wartena Hannover, 28. Februar 2021
Zusammenfassung Eine belastbare Datengrundlage ist notwendig sowohl für die Planung und Integration von Publikationsfonds an Hochschulen als auch im Hinblick auf Transformationsver- träge zwischen Bibliotheken und wissenschaftlichen Verlagen. In den letzten Jahren hat sich der Datenservice Unpaywall diesbezüglich zu einem wichtigen Instrument für die Identifizierung von Open Access entwickelt. In dieser Arbeit sollen die Zu- verlässigkeit sowie die Belastbarkeit des Datenservices auf Grundlage der zeitlichen Transformation des Dienstes untersucht werden. In diesem Zusammenhang wer- den elf Datenbanksnapshots des Services, die zwischen 2018 und 2020 erschienen sind, ausgewertet und Modifikationen über einen längeren Zeitraum herausgestellt. Ferner soll anhand einer vollständigen Erhebung aller Zeitschriftenartikel der Pu- blikationsjahre 2008 bis 2018 analysiert werden, inwiefern sich Open Access im Publikationsaufkommen zwischen verschiedenen Snapshots verändert hat. Abstract A reliable data basis is necessary both for the planning and integration of publication funds at universities and with regard to transformation contracts between libraries and academic publishers. In recent years, the data service Unpaywall has developed into an important tool for identifying Open Access. In this thesis, the reliability as well as the resilience of the data service based on the temporal transformation of the service is being examined. In this context, eleven database snapshots of the service, which were published between 2018 and 2020, are evaluated and modifications over a longer period are highlighted. Furthermore, a complete survey of all journal articles from the publication years 2008 to 2018 is used to analyze the extent to which Open Access is in the publication volume changed between different snapshots. i
Vorwort Dieser Arbeit ist ein Artikel für die Zeitschrift Bibliothek: Forschung und Praxis vorausgegangen, welcher sich mit der Entwicklung des Datenservices Unpaywall auseinandersetzt1 . Die Ergebnisse aus diesem Zeitschriftenartikel werden in dieser Arbeit aufgegriffen und partiell erweitert. Ferner wird, aufgrund einer aktuelleren Datengrundlage, eine aktualisierte Darstellung des Services in dieser Arbeit skizziert. Dieser Umstand führt zu einer geringfügigen Neubewertung des Dienstes. Die Arbeit wurde im Rahmen des OAUNI-Projekts der Stabstelle Wissen als Ge- meingut der Staats- und Universitätsbibliothek Göttingen unter der Aufsicht von Dr. Anne Hobert und Najko Jahn angefertigt. 1 vgl. Hobert, Haupka und Jahn 2021. ii
INHALTSVERZEICHNIS Inhaltsverzeichnis Abkürzungsverzeichnis v Abbildungsverzeichnis vi Tabellenverzeichnis vi 1 Einführung 1 1.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 Problemstellung und Zielsetzung . . . . . . . . . . . . . . . . . . . . . 2 1.3 Aufbau der Arbeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 2 Hintergrund 3 2.1 Open Access . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2.2 Publikationsmonitoring . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.3 Unpaywall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.3.1 Datenverfügbarkeit . . . . . . . . . . . . . . . . . . . . . . . . 8 2.3.2 Kooperationen . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2.3.3 Unpaywall im Hinblick auf das nationale und internationale Publikationsmonitoring . . . . . . . . . . . . . . . . . . . . . . 9 3 Forschungsstand 11 4 Methode 12 5 Ergebnisse 15 5.1 Verbreitung von Open Access im Publikationsaufkommen . . . . . . . 15 5.2 Open Access-Varianten . . . . . . . . . . . . . . . . . . . . . . . . . . 16 5.3 Open Access-Nachweise in Unpaywall . . . . . . . . . . . . . . . . . . 17 5.4 Verbreitung und Entwicklung von Repositorien und Verlagsangeboten 19 5.5 Datenschema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 5.6 Metadatenaktualisierungen . . . . . . . . . . . . . . . . . . . . . . . . 24 5.7 Flipped Journals . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 5.8 Paratexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 6 Diskussion 29 6.1 Wachstum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 6.2 Identifikation der Open Access-Varianten . . . . . . . . . . . . . . . . 31 6.3 Repositorien- und Verlagsangebote . . . . . . . . . . . . . . . . . . . 33 6.4 Veränderungen an Metadaten, Struktur und Methodik . . . . . . . . 34 iii
INHALTSVERZEICHNIS 6.5 Gesamtbetrachtung unter Einbeziehung der möglichen Implikationen 35 7 Fazit 36 7.1 Resultate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 7.2 Limitierungen dieser Arbeit . . . . . . . . . . . . . . . . . . . . . . . 36 7.3 Ausblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 Literaturverzeichnis 38 Eidesstattliche Erklärung 42 iv
Abkürzungsverzeichnis Abkürzungsverzeichnis APC article processing charge ASN Academic Social Networks BASE Bielefeld Academic Search Engine BMBF Bundesministerium für Bildung und Forschung DFG Deutsche Forschungsgemeinschaft DOAJ Directory of Open Access Journals DOI Digital Object Identifier FIS Forschungsinformationssystem GWDG Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen HOAD Hybrid Open Access Dashboard JSON JavaScript Object Notation OA Open Access OAI-PMH Open Archives Initiative Protocol for Metadata Harvesting OAM Open Access Monitor REST-API Representational State Transfer - Application Programming Interface v
Abbildungs- und Tabellenverzeichnis Abbildungsverzeichnis 1 Workflow . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2 Verbreitung von Open Access im Publikationsaufkommen in Unpaywall nach Snapshots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 3 Verbreitung und Entwicklung von Open Access-Varianten in Unpaywall 16 4 Verbreitung von Evidenztypen in Unpaywall-Snapshots . . . . . . . . 18 5 Anzahl der Zeitschriftenartikel für die Publikationsjahre 2008-2018 nach Evidenztypen in Unpaywall Snapshots . . . . . . . . . . . . . . 19 6 Verbreitung und Entwicklung von Repositorien und Verlagsangeboten in Unpaywall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 7 Metadatenschema von Unpaywall seit 2018 . . . . . . . . . . . . . . . 23 8 Metadatenaktualisierungen in Unpaywall . . . . . . . . . . . . . . . . 25 9 Aktualität der Metadaten in Unpaywall Snapshots . . . . . . . . . . . 26 Tabellenverzeichnis 1 Auflistung der genutzten Datenbanksnapshots . . . . . . . . . . . . . 12 2 Anzahl der Zeitschriftenartikel in Unpaywall Snapshots . . . . . . . . 14 3 Verbreitung von Flipped Journals in Unpaywall . . . . . . . . . . . . 27 4 Anzahl der Paratexte in Unpaywall . . . . . . . . . . . . . . . . . . . 28 vi
1 Einführung 1.1 Motivation Die Umstellung des wissenschaftlichen Zeitschriftenswesens in den Open Access (OA) ist in den letzten Jahren zu einem zentralen Thema für Hochschulen und Bibliotheken avanciert. Parallel hat mit der Einführung von Förderprogrammen, der Integration von OA Policies sowie der Etablierung von Publikationsfonds an wissenschaftlichen Einrichtungen die weltweite Verbreitung und Akzeptanz von OA zugenommen2 . Verschiedene Untersuchungen attestieren mittlerweile einen konstanten Anstieg von OA-Veröffentlichungen in der wissenschaftlichen Literatur345 . Indessen stellt die systematische Erfassung und Auswertung des Publikationsaufkommens, definiert als Publikationsmonitoring6 , eine erhebliche Herausforderung für viele Hochschu- len und Bibliotheken dar. Obwohl die Erhebung von Kennzahlen im Rahmen der Forschungsförderung sowie institutioneller und nationaler Richtlinien verpflichtend für eine Vielzahl von wissenschaftlichen Einrichtungen ist, hat eine Evalutation des DFG-Programmes „Open Access Publizieren“ ergeben, dass ein Großteil der am För- derungsprogramm beteiligten Einrichtungen Beratungsbedarf bei der Etablierung von Monitoringmechanismen hat7 . Ferner zeichnet sich das aktuelle Berichtswesen durch eine hohe Heterogenität aus8 , wodurch die Vergleichbarkeit sowie die Aussagekraft erhobener Publikationsdaten geschmälert wird. Im Zuge der Integration des Datendienstes Unpaywall in die großen bibliometri- schen Datenbanken Scopus und Web of Science ist der Service in den Fokus vieler wissenschaftlicher Einrichtungen gerückt. Insbesondere hat sich Unpaywall als Nach- weisquelle für OA profiliert und wird inzwischen als Standardinstrument bei der Identifizierung von OA angesehen9 . Damit nimmt der Service einen wesentlichen Platz im Monitoring vieler Einrichtungen ein. Während Unpaywall in vielen Daten- banken, Monitoring-Projekten und Studien verwendet wird, hat die Untersuchung der zeitlichen Transformation des Service bislang kaum Beachtung gefunden. Eine entsprechende Analyse könnte Aufschluss über die Zuverlässigkeit und Belastbarkeit der Datengrundlage des Services liefern, welche im Kontext des OA-Publizierens mit einer hohen Relevanz verbunden ist. 2 vgl. Barbers, Rosenberger und Mittermaier 2020, S. 3. 3 vgl. Archambault u. a. 2014. 4 vgl. Piwowar, Priem, Larivière u. a. 2018. 5 vgl. Severin u. a. 2020. 6 vgl. Schmeja und Tullney 2020, S. 203. 7 vgl Deutsche Forschungsgemeinschaft 2020, S. 9. 8 vgl. Barbers, Rosenberger und Mittermaier 2020, S. 20. 9 vgl. Robinson-Garcia, Costas und van Leeuwen 2020, S. 2. 1
1.2 Problemstellung und Zielsetzung 1.2 Problemstellung und Zielsetzung Eine aussagekräftige sowie stabile Datengrundlage im Hinblick auf das Publikati- onsmonitoring ist essenziell für die Planung und Integration von Publikationsfonds und OA-Policies10 . Weiterhin sind gesicherte Daten zum Publikationsaufkommen für Verhandlungen zwischen Bibliotheken und wissenschaftlichen Verlagen, etwa im Be- reich der Transformationsverträge, notwendig, um präzise Aussagen über entstehende Kosten und Nutzen von Publikationen aufstellen zu lassen11 . Zielsetzung dieser Arbeit ist eine Analyse der Entwicklung des für das Publikations- monitoring verwendeten Datenservices Unpaywall seit 2018. Anhand elf verschiedener Datenbanksnapshots, welche in einem Zeitraum von drei Jahren veröffentlicht wur- den, wird das Datenfundament sowie die Methodik Unpaywalls ausgewertet und Modifikationen im Laufe der Zeit herausgearbeitet. Damit soll untersucht werden, inwiefern sich Unpaywall im Laufe der Zeit verändert hat und welche Implikatio- nen bei der Nutzung des Dienstes damit einhergehen. Auch soll mit der Arbeit die Robustheit sowie Verlässlichkeit des Services, welche sich durch die Betrachtung der zeitlichen Dimension ergibt, eruiert werden. Im Detail werden in dieser Arbeit folgende Forschungsfragen im Bezug auf die Entwicklung Unpaywalls adressiert: FF1: Wie entwickelt sich OA im Publikationsaufkommen? FF2: Wie verändern sich Struktur und Metadaten von Unpaywall? FF3: Was sind mögliche Ursachen und Konsequenzen dieser Veränderungen? 1.3 Aufbau der Arbeit • Kapitel 2 beinhaltet kurze Erläuterungen zu den Begriffen Open Access, Publi- kationsmonitoring und dem Datendienst Unpaywall. • Kapitel 3 behandelt den aktuellen Forschungsstand. • Kapitel 4 beschreibt das genutzte Datenset sowie Methoden für die anschlie- ßende Datenanalyse. • Kapitel 5 befasst sich mit der Analyse der Daten aus Unpaywall. • Die Ergebnisse aus Kapitel 5 werden in Kapitel 6 interpretiert. • Eine Zusammenfassung sowie ein Fazit findet sich abschließend in Kapitel 7. 10 vgl. Huang u. a. 2020, S. 1. 11 vgl. Ecker, Pollack und Rosenberger 2020, S. 101. 2
2 Hintergrund Dieses Kapitel umfasst kurze Erläuterungen zu den Begriffen Open Access, Publi- kationsmonitoring sowie dem Datenservice Unpaywall. Ferner wird auf den Einsatz von Unpaywall im bibliometrischen Kontext eingegangen. 2.1 Open Access Obwohl sich die Open Access-Bewegung bis in die 90er Jahre zurückverfolgen lässt, existiert bis heute keine einheitliche Definition des Begriffes Open Access1213 . So finden sich in der Forschungsliteratur verschiedene Definitionsvarianten, die unterschiedliche Facetten des wissenschaftlichen Publikationswesens aufgreifen und berücksichtigen14 . Oftmals wird hierbei etwa der Grad der Offenheit sowie die Nachnutzung einer Publikation unterschiedlich im Kontext von OA gehandhabt. Chen und Olijhoek sprechen aus diesem Grund auch von OA als Spektrum, anstelle einer konkreten Begriffsbestimmung15 . Für diese Arbeit, welche sich ausschließlich mit der Analyse von Zeitschriftenartikeln auseinandersetzt, wird auf die von Piwowar et al. verwendete Definition zurückgegriffen: „OA articles are free to read online, either on the publisher website or in an OA repository.“ 16 Diese Definition ist eng verbunden mit der von Suber formulierten Begriffsbestim- mung: „Open access (OA) literature is digital, online, free of charge, and free of most copyright and licensing restrictions.“ 17 Diese Eingrenzung ist wiederum erheblich von der Budapest Open Access Initiative beeinflusst, welche OA wie folgt beschreibt: „By open access to this literature, we mean its free availability on the public internet, permitting any users to read, download, copy, distribute, print, search, or link to the full texts of these articles, crawl them for indexing, pass them as data to software, or use them for any other lawful purpose, without financial, legal, or technical barriers other than those inseparable from gaining access to the internet itself. The only constraint on reproduction and distribution, and the only role for copyright in this 12 vgl. Antelman 2004, S. 372. 13 vgl. Herb 2012, S. 11. 14 vgl. Chen und Olijhoek 2016, S. 108. 15 vgl. ebd., S. 108. 16 vgl. Piwowar, Priem, Larivière u. a. 2018, S. 4. 17 vgl. Suber 2012, S. 4. 3
2.1 Open Access domain, should be to give authors control over the integrity of their work and the right to be properly acknowledged and cited.“ 18 Nach Harnad et al. existieren zwei Strategien, die die Veröffentlichung einer Publika- tion im OA ermöglichen19 . Zum einen wäre das die Veröffentlichung eines Textes in einer OA-Zeitschrift, also einer Zeitschrift, die ausschließlich OA-Inhalte veröffentlicht (auch bezeichnet als goldener Weg). Eine weitere Möglichkeit ist die Zweitveröffentli- chung eines Textes auf einem institutionellen oder disziplinären Repositorium. Diese Variante wird als Green Road bezeichnet. Mittlerweile existieren im Zusammenhang mit OA eine Reihe verschiedener Veröffentlichungsstrategien. Die für diese Arbeit relevanten Publikationswege sowie deren in dieser Arbeit verwendeten Definitionen20 werden im Folgenden aufgeführt: • Gold OA: Artikel sind sofort und permanent nach der Erstveröffentlichung zugänglich und erscheinen in einer OA-Zeitschrift, die frei über das Internet abrufbar ist21 . • Green OA: Zweitveröffentlichungen, die auf disziplinären oder institutionellen Repositorien erscheinen22 . Oftmals handelt es sich um eine Selbstarchivierung einer Publikation seitens des Autors. Des Weiteren kann zwischen verschiedenen Versionen einer archivierten Publikation differenziert werden (Preprints und Postprints). • Hybrid OA: Artikel erscheinen in hybriden Zeitschriften, also in Zeitschriften, die das Subskriptionsmodell für kostenpflichtige Zeitschriften aufgreifen, jedoch die Möglichkeit bieten, einzelne Artikel frei zukaufen 23 . • Bronze OA: Artikel, die in kostenpflichtigen Zeitschriften erscheinen, auf der Webseite des Verlages frei verfügbar sind, jedoch ohne eine OA-Lizenz veröf- fentlicht werden24 . Nach Martín-Martín et al. gelten Artikel zudem als Bronze OA, wenn sie, neben den fehlenden OA-Lizenzen, in einer Zeitschrift erscheinen, die nicht im Directory of Open Access Journals (DOAJ) gelistet ist25 . • Delayed OA: Artikel sind nach einem zeitlichen Embargo verfügbar26 oder werden nachträglich veröffentlicht. In der Regel dauern die zeitlichen Embargos 18 vgl. Budapest Open Access Initiative 2002. 19 vgl. Harnad u. a. 2004. 20 Geringe Unterschiede zu den Definitionen in Piwowar, Priem, Larivière u.a 2018. 21 vgl. Informationsplattform Open Access 2020. 22 vgl. ebd. 23 vgl Gantert 2016, S. 127. 24 vgl. Piwowar, Priem und Orr 2019, S. 4. 25 vgl. Martín-Martín u. a. 2018, S. 16. 26 vgl. Harnad 2013. 4
2.2 Publikationsmonitoring bei Delayed OA-Zeitschriften 6, 12 oder 24 Monate27 . Dieses Vorgehen wird auch Moving Wall genannt. • Closed OA: Artikel, die in einer kostenpflichtigen Zeitschrift erscheinen, welche keine article processing charges (APCs) unterstützt und zudem zu keinem absehbaren Zeitpunkt frei erhältlich sein wird28 . Im Falle von Unpaywall zählen hierzu auch Artikel, die auf Academic Social Networks (ASN) oder auf Sci-Hub geteilt und verfügbar gemacht werden29 . 2.2 Publikationsmonitoring Unter dem Begriff Publikationsmonitoring versteht man die systematische Erfassung, Dokumentation und Analyse des Publikationsoutputs einzelner Einrichtungen und Zusammenschlüsse30 , welche verstärkt durch institutionelle und nationale Richtlinien zunehmend an Hochschulen und Bibliotheken praktiziert wird. Ein wesentlicher Treiber dieser Entwicklung in Deutschland ist das Förderungspro- gramm „Open Access Publizieren” der Deutschen Forschungsgemeinschaft (DFG), welche die Errichtung und Weiterentwicklung von universitären OA-Publikationsfonds unterstützt31 . Das Programm, welches seit 2010 existiert, fördert in diesem Zusammen- hang insbesondere das Publizieren über den goldenen Weg in reinen OA-Zeitschriften. Zu diesem Zweck werden Strukturmaßnahmen sowie begleitende Aktivitäten (z.B. Bereitstellung von Publikationsmitteln) an den beteiligten Einrichtungen initiiert, die zu einer verlässlichen und dauerhaften Finanzierung von OA-Publikationen beitragen sollen32 . Damit zusammenhängend ist die anteilige Förderung von Publikationsge- bühren. Weiterhin regt die DFG-Förderung eine Erfassung und ein systematisches Monitoring des Publikationsaufkommens an geförderten Hochschulen an33 . Laut des Evaluationsberichtes der DFG zum Förderungsprogramm aus dem Jahr 2020 haben 65% aller beteiligten Hochschulen das Publikationsmonitoring erstmalig im Rahmen der Förderung appliziert34 . Allerdings haben nur 36% der befragten Geförderten angegeben ein umfassendes Monitoring durchzuführen, während 56% der Befragten nur Bereiche erfassen, die explizit durch öffentliche Mittel gefördert werden35 . Wei- terhin stellt die Ermittlung von fundierten Zahlen zur Publikationsaktivität eine erhebliche Herausforderung für viele Antragsteller dar36 . Neben einer unzureichen- 27 vgl. Laakso und Björk 2013, S. 1324. 28 vgl. Siler u. a. 2018, S. 5. 29 vgl Piwowar, Priem, Larivière u. a. 2018, S. 5. 30 vgl. Schmeja und Tullney 2020, S. 203. 31 vgl. eingereichte Fassung: Hobert, Haupka und Jahn 2021, S. 3. 32 vgl. Deutsche Forschungsgemeinschaft 2020, S. 7. 33 vgl. ebd., S. 76. 34 vgl. ebd., S. 76. 35 vgl. ebd., S. 76. 36 vgl. Fournier und Weihberg 2013, S. 239. 5
2.2 Publikationsmonitoring den Datengrundlage führt eine dezentrale Organisation an vielen Einrichtungen zu weiterführenden Komplikationen, weshalb viele Hochschulen und Bibliotheken eine eigene Kostenstelle zur Erfassung von Publikationskosten errichtet haben37 . Barbers et al. weisen daraufhin, dass aktuell ein hohes Maß an Heterogenität mit der Auswertung von Publikationsdaten verbunden ist38 . So trägt etwa die Nutzung verschiedener (halb-)automatisierter Hochschulbibliographien, Forschungsinformati- onssystemen (FIS) sowie manuell gepflegten tabellarischen Listen zu einem uneinheit- lichen Berichtswesen im OA-Publizieren an Hochschulen und Bibliotheken bei39 . Dazu kommt, dass oftmals bibliometrische Kennzahlen nicht aus FIS-Systemen erhoben werden, sondern aus kommerziellen Publikationsdatenbanken40 . Neben Scopus und Web of Science zählt hierzu auch der Dimensions-Service. Diese Dienste weisen meh- rere Bias auf, z.B. eine überproportionale Erfassung von englischsprachiger Literatur, wodurch die Qualität etwaiger Auswertungen gemindert wird41 . 2015 hat die Max-Planck-Gesellschaft ein Whitepaper veröffentlicht, welches die Trans- formation des wissenschaftlichen Publikationswesen in den OA thematisiert. Grund für diese Auseinandersetzung waren steigende Kosten beim Erwerb von subskriptions- basierten Zeitschriften sowie ein Anstieg von Kosten für OA-Veröffentlichungen an wissenschaftlichen Bibliotheken, die den Etat von Bibliotheken strapazieren. Schim- mer et al. schlägt deshalb eine Umverteilung der Kosten aus dem Subskriptionssytem in einen OA-Publikationsservice vor42 . Diese Umstellung des Publikationswesen soll mindestens kostenneutral möglich sein43 und wird durch Initiativen wie die OA2020- Allianz begleitet. Das Vorhaben wird inzwischen von 148 Institutionen unterstützt44 . Im Zuge dessen sind verschiedene Monitoring-Projekte entstanden. Darunter zählen der Open Access Monitor (OAM) des Forschungszentrums Jülich45 , das Hybrid Open Access Dashboard (HOAD) der Staats- und Universitätsbibliothek Göttingen46 sowie die OpenAPC Initiative47 . 37 vgl. Fournier und Weihberg 2013, S. 240. 38 vgl. Barbers, Rosenberger und Mittermaier 2020, S. 20. 39 vgl. ebd., S. 20. 40 vgl. Schmeja und Tullney 2020, S. 209. 41 vgl. ebd., S. 210. 42 vgl. Schimmer, Geschuhn und Vogler 2015, S. 2. 43 vgl. Mittermaier u. a. 2018, S. 87. 44 siehe hierzu: https://oa2020.org/mission/#eois (Stand Februar 2021). 45 https://open-access-monitor.de/#/home 46 https://subugoe.github.io/hoad/ 47 https://dini.de/dienste-projekte/projekte/open-apc-initiative/ 6
2.3 Unpaywall 2.3 Unpaywall Der Datendienst Unpaywall48 wird von dem Non-Profit Unternehmen Our Research49 (vormals ImpactStory) entwickelt und betrieben. Darüber hinaus ist das Unternehmen an weiteren bibliometrischen Services beteiligt, die insbesondere an Bibliotheken Verwendung finden. Hierzu zählen die akademische Suchmaschine GetTheResearch 50 , die Analyse-Plattform depsy 51 und das Datenanalysetool Unsub 52 . Letzteres soll Bibliotheken helfen, Kosten für Zeitschriftenabonnements zu senken, indem die Preise von mehreren tausend Zeitschriften und Bundles analysiert werden sowie mit der Verfügbarkeit über OA abgeglichen werden sollen. Der verbreitetste Service des Unternehmens, Unpaywall, wurde 2016 als Browser- Plugin entwickelt und hilft Wissenschaftlern und Bibliotheken, OA-Volltexte eines kostenpflichtigen Artikels einer wissenschaftlichen Zeitschrift zu finden. Nach Piwowar et al. stellen wissenschaftliche Bibliotheken die größte Gruppe bei der Benutzung des Services dar53 . 2018 waren das etwa 700 Bibliotheken weltweit54 . In der Regel werden wissenschaftliche Publikation über einen Digital Object Identifier (DOI) identifiziert. Diese sollen persistent auf eine Ressource im Internet verweisen und werden von verschiedenen DOI-Registrierungsagenturen erstellt. Crossref zählt hierbei zu den größten Registrierungsagenturen mit über 121 Millionen eingetragenen Ressourcen55 . Unpaywalls Datenbank stützt sich ausschließlich auf sämtliche in Cross- ref indexierten Publikationen. Ferner werden zusätzliche Informationen aus mehreren tausend institutionellen und fachlichen Repositorien gesammelt und aggregiert. Auch zählen Verzeichnisse wie das DOAJ und die Datenbank PubMed Central zu wichtigen Datenquellen des Unpaywall-Services (DOAJ ist ein elektronisches Verzeichnis, wel- ches unter hohen Qualitätskontrollen OA-Zeitschriften indexiert; PubMed Central ist eine weitläufig genutzte Datenbank über medizinische Literatur). Ob ein Artikel im OA erhältlich ist, entscheidet Unpaywall unter anderem auf Grundlage von Lizenzin- formationen sowie dem Fundort einer Ressource. Mittlerweile enthält die Datenbank Informationen zu über 28 Millionen frei verfügbaren OA-Zeitschriftenartikeln56 . 48 https://unpaywall.org 49 https://ourresearch.org 50 https://gettheresearch.org 51 http://depsy.org 52 https://unsub.org 53 vgl. Piwowar, Priem, Larivière u. a. 2018, S. 6. 54 vgl. ebd., S. 6. 55 https://data.crossref.org/reports/statusReport.html 56 Die aktuelle Zahl kann unter https://unpaywall.org nachgesehen werden. 7
2.3 Unpaywall 2.3.1 Datenverfügbarkeit Daten aus Unpaywall sind über verschiedene Service-Angebote erhältlich. Für ver- einzelte Anfragen bietet sich die REST-API57 an, die bis zu 100.000 Abfragen am Tag erlaubt. Die Angabe einer Email-Adresse ist dabei Voraussetzung zur Nutzung der Schnittstelle. Mittels einer gegebenen DOI kann die API die entsprechenden Informationen aus der Datenbank im JSON-Format zurückliefern. Bei der Nut- zung über Unpaywalls Weboberfläche werden zudem die elektronischen Daten- und Austauschformate CSV und Excel unterstützt. Für die Programmiersprachen Py- thon58 und R59 existieren Softwarepakete, die den Umgang mit dem Service in einer datenanalytischen Umgebung unterstützen. Weiterhin sind Informationen aus Unpaywall über Datenbanksnapshots60 zugänglich, die jeweils etwa halbjährlich zum kostenfreien Download angeboten werden. Die Snapshots enthalten eine gespiegelte Repräsentation der Unpaywall-Datenbank zu einem bestimmten Zeitpunkt, was sie geeignet für reproduzierbare Datenanalysen macht. Die Snapshots sind komprimiert jeweils etwa 20 Gigabyte groß und enthalten Informationen zu über 100 Millionen Publikationen. Der Data Feed61 , welcher die Aktualität der Rest API mit dem umfangreichen Datenbestand der Snapshots vereint, bietet für zahlende Abonnenten eine laufende Aktualisierung der Daten aus Unpaywall an. So werden täglich sowie wöchentlich erstellte Listen, welche Änderungen innerhalb der Datenbank dokumentieren, an die Abonnenten des Data Feed-Services übermittelt. Der Backend-Service hinter Unpaywall war bis 2018 als oadoi-System bekannt. Seit 2018 heißt dieser schlicht Unpaywall bzw. Unpaywall data. 2.3.2 Kooperationen Der Service Unpaywall wird in zahlreichen Studien und Projekten genutzt. Des Weiteren wird der Datendienst zunehmend in bibliometrischen Datenbanken zur Kategorisierung von OA-Anteilen verwendet. Seit 2017 kooperiert das Unternehmen Our Research mit Clarivate Analytics, die die Zitations- und Literaturdatenbank Web of Science betreiben und Unpaywall zur OA-Identifkation von Publikationen nutzen. Weiterhin wird Unpaywall seit 2018 in der bibliographischen Datenbank Scopus des wissenschaftlichen Verlagshauses Elsevier genutzt62 . Mit Dimensions und 57 https://unpaywall.org/products/api 58 vgl. Haupka und Morrison 2020. 59 vgl. Jahn 2019. 60 https://unpaywall.org/products/snapshot 61 https://unpaywall.org/products/data-feed 62 https://blog.impactstory.org/elsevier-data-feed/ 8
2.3 Unpaywall PubMed Central existieren darüber hinaus zwei weitere große Datenbanken, die Informationen aus Unpaywall beziehen63 . Neben den genannten Datenbanken werden auf der offiziellen Webseite Unpaywalls weitere Dienste, Softwareapplikationen und Projekte präsentiert, die erfolgreich Un- paywall in ihre Vorhaben eingebunden haben64 . Zum Beispiel wird der Service in einigen Link-Resolver-Diensten verwendet, die automatisch auf eine frei zugängliche Version einer Publikation bei einer gegebenen DOI verlinken. Das Literaturverwal- tungsprogramm Zotero nutzt Unpaywall zum Retrieval von OA-Publikationen, welche über das Programm auf den eigenen Computer heruntergeladen werden können65 . Auch Browsererweiterungen wie die offizielle Unpaywall browser extension66 , Koper- nio67 und Open Access Helper68 werden mit Informationen aus Unpaywall gespeist. Der Datenservice Unpaywall wird von verschiedenen Ministerien, Institutionen und Behörden gefördert, welche damit die Unterstützung Unpaywalls in vielen Projekten gewährleisten. Hierzu zählen verschiedene Monitoring-Projekte wie der OAM, das HOAD und der European Open Science Monitor. Maßgeblich beteiligt an diesen Projekten ist das Bundesministerium für Bildung und Forschung (BMBF), welches die finanzielle Grundlage für diese Serviceangebote schafft. International sind mit dem US National Institutes of Health, dem French Ministry of Higher Education & Research und dem Wellcome Trust weitere Institutionen zu nennen, die an der Förderung von Unpaywall-spezifischen Projekten beteiligt sind. 2.3.3 Unpaywall im Hinblick auf das nationale und internationale Pu- blikationsmonitoring Als erstes Bundesland hat Berlin ein umfassendes Monitoring des Open Access- Publikationsaufkommens auf Länderebene in Deutschland durchgeführt. Mittlerweile hat die Technische Universität Berlin zwei Berichte veröffentlicht, wobei zusammen- fassend die Publikationsjahre 2013 bis 2016 abgedeckt werden6970 . Hauptaugenmerk bei der Analyse ist der OA-Anteil an Veröffentlichungen aus öffentlichen Wissen- schaftseinrichtungen des Landes Berlin, die im Zuge der „Open Access Strategie für Berlin“ erfasst werden sollen. Für das Jahr 2016 wurde der Gesamtanteil an OA-Publikationen für das Land Berlin auf 31,2% geschätzt71 . Laut des Berichtes 63 http://blog.europepmc.org/2018/04/unlocking-open-europe-pmc-integrates.html 64 siehe hierzu https://unpaywall.org/integrations. 65 https://www.zotero.org/blog/improved-pdf-retrieval-with-unpaywall-integration/ 66 https://unpaywall.org/products/extension 67 https://kopernio.com 68 https://www.oahelper.org 69 vgl. Voigt und Winterhalter 2016. 70 vgl. Voigt, Winterhalter u. a. 2018. 71 vgl. ebd., S. 3. 9
2.3 Unpaywall für das Publikationsjahr 2016 wurden Daten aus 16 verschiedenen Literatur- und Zitationsdatenbanken ausgewertet72 . Eine entsprechende Analyse von erhobenen Publikationsdaten aus den untersuchten Einrichtungen fand nicht statt. Während sich der erste Bericht auf den Anteil von Gold sowie Hybrid OA am Publikations- aufkommen konzentrierte, wird im zweiten Bericht näher auf die Green OA-Quote eingegangen. Hierbei wurden Informationen aus Unpaywall verwendet73 . Neben dieser Studie wird Unpaywall im OAM Deutschland genutzt, welcher die Analyse des gesamten Publikationsaufkommen deutscher akademischer Einrichtun- gen in wissenschaftlichen Zeitschriften zum Ziel hat74 . Hierbei wird der OA-Status sämtlicher Zeitsschriftenartikel über den Datenservice Unpaywall direkt ermittelt. Der OA-Status von Zeitschriften wird allerdings über das DOAJ bestimmt. Weiterhin wird Unpaywall bei der Bestimmung von Publikationszahlen im OAM genutzt. Unpaywall dient auch als Datengrundlage für das Projekt HOAD, welches einen Überblick über das hybride Publizieren auf nationaler Ebene bietet75 . Ferner nutzt der Open Science Monitor der Europäischen Union Unpaywall zur OA-Bestimmung von Publikationen auf EU-Ebene76 . Hinzu kommen weitere nationale Bestrebungen, z.B. seitens Frankreich und Ös- terreich, ein umfassendes und flächendeckendes Monitoring an wissenschaftlichen Einrichtungen zu etablieren. Die OA-Monitore sowohl Frankreichs als auch Öster- reichs sollen mit Daten aus Unpaywall interagieren7778 . 72 vgl. Voigt, Winterhalter u. a. 2018, S. 4. 73 vgl. ebd., S. 5. 74 vgl. Mittermaier u. a. 2018, S. 84. 75 vgl. SUB Göttingen 2020. 76 vgl. European Commission 2019. 77 vgl. Jeangirard 2019. 78 vgl. Danowski u. a. 2020. 10
3 Forschungsstand Die Relevanz eines datengestützten Berichtswesens im Bereich des Open Access hat sich durch die Transformation des wissenschaftlichen Publikationswesens in den OA intensiviert. Im Zuge dessen sind die Anforderungen bei der Auswertung von OA-Publikationsdaten gestiegen. So besteht nach Piwowar et al. eine Notwendigkeit für skalierbare, reproduzierbare, hochaktuelle und hochwertige Daten im Hinblick auf OA-Literatur79 . Auch Huang et al. weisen darauf hin, dass die Implementierung von OA-Policies an wissenschaftlichen Einrichtungen auf einer verlässlichen und aktuellen Datengrundlage beruhen muss80 . In diesem Kontext muss die Herangehensweise vieler Studien, die dem OA-Publizieren gewidmet sind, kritisch betrachtet werden. Van Leeuwen et al. führen an, dass zahlreiche Studien auf einer Datenbasis aufbau- en, welche schwierig zu reproduzieren und zu skalieren ist81 . Zum Beispiel werden Harvesting-Methoden eingesetzt, die zu zeitabhängigen Ergebnissen führen. Eine weitere problembehaftete Methode ist das Erstellen von manuellen Datensätzen, die sich nur schwierig aktualisieren lassen82 . Dem gegenüber steht das OA-Discovery-Tool Unpaywall, welches auf den oben angeführten Prinzipien von Piwowar et al. aufbaut, kostenlos über das Internet genutzt werden kann und nunmehr in vielen Studien und Projekten genutzt wird. Nur wenige Studien haben sich mit der Entwicklung von Unpaywall auseinander- gesetzt. Eine dem Ansatz dieser Arbeit vergleichbare Herangehensweise findet sich in einem Artikel von Huang et al83 . In diesem Artikel wurden vier Datenbanksnap- shots hinsichtlich der enthaltenen OA-Anteile kontrastiert. Hierbei wurden sowohl ein genereller Anstieg von OA als auch von Green OA beobachtet. Eine darüber hinausgehende Analyse der Entwicklung des Services wurde nicht durchgeführt. Unter Mitwirkung des Autors dieser Arbeit wurde ein Zeitschriftenartikel verfasst, welcher die Entwicklung des Datenbestandes und der Typologie Unpaywalls seit 2018 analysiert84 . Dabei wurden Abweichungen in der OA-Identifizierung sowie eine variable Typologie festgestellt. Diese Arbeit baut auf den Ergebnissen dieser Arbeit auf. 79 vgl. Piwowar, Priem, Larivière u. a. 2018, S. 2. 80 vgl. Huang u. a. 2020, S. 1. 81 vgl. van Leeuwen, Tatum und Wouters 2018, S. 1. 82 vgl. Huang u. a. 2020, S. 1. 83 vgl. ebd. 84 vgl. Hobert, Haupka und Jahn 2021. 11
4 Methode Für die Analyse der Entwicklung des Datenservices Unpaywall seit 2018 wurden elf Datenbanksnapshots des Dienstes analysiert. Die Snapshots enthalten eine um- fassende Repräsentation der Unpaywall Datenbank zu fixen Zeitpunkten, wodurch, im Vergleich zur angebotenen REST API, die eine begrenzte Anzahl an Abfragen pro Tag erlaubt, eine wesentlich effizientere Auswertung vorgenommen werden kann. Zum jetzigen Zeitpunkt stehen fünfzehn Snapshots zur Verfügung, die den Zeitraum von 2018 bis 2020 abdecken. Aufgrund fehlerhafter Datensätze in einigen Dumps hat das Unternehmen Our Research in den Monaten September 2018 und Oktober 2020 mehrere Snapshots veröffentlicht. Für diese Arbeit wurden die in den genannten Monaten als letztes erschienenen Dateien herangezogen. Die Snapshots liegen kom- primiert im JSON Newline-Format vor. Die verwendeten Snapshots sind in Tabelle 1 gelistet. Dateiname des Snapshots Verfügbar seit unpaywall_snapshot_2018-03-29T113154.jsonl.gz 29.03.2018 unpaywall_snapshot_2018-04-28T230327.jsonl.gz 28.04.2018 unpaywall_snapshot_2018-06-21T164548_with_versions.jsonl.gz 21.06.2018 unpaywall_snapshot_2018-09-27T192440.jsonl.gz 27.09.2018 unpaywall_snapshot_2019-02-21T031509.jsonl.gz 21.02.2019 unpaywall_snapshot_2019-04-19T193256.jsonl.gz 19.04.2019 unpaywall_snapshot_2019-08-16T155437.jsonl.gz 16.08.2019 unpaywall_snapshot_2019-11-22T074546.jsonl.gz 22.11.2019 unpaywall_snapshot_2020-02-25T115244.jsonl.gz 25.02.2020 unpaywall_snapshot_2020-04-27T153236.jsonl.gz 27.04.2020 unpaywall_snapshot_2020-10-09T153852.jsonl.gz 09.10.2020 Tabelle 1: Auflistung der genutzten Datenbanksnapshots Die heruntergeladen Snapshots sind jeweils komprimiert ca. 20 GB groß (unkompri- miert etwa 100 GB) und enthalten jeweils über hundert Millionen Publikationsdaten- sätze, die mit einer DOI aus Crossref verknüpft sind. Da sich die Analyse von derartig großen Datensätzen unter Benutzung herkömmli- cher Computer als sehr umständlich erweist, wurde auf eine cloudbasierte Lösung zurückgegriffen. Amazon, Microsoft und Google haben in den letzten Jahren intensiv an der Entwicklung von Cloud-Plattformen gearbeitet, die enorme Rechenleistung für einen niedrigen Preis bieten. Google bietet den Service BigQuery85 an, welcher ein skalierbares Data Warehouse zum Speichern und Abfragen von großen Datenbe- 85 https://cloud.google.com/bigquery 12
ständen ist. Für die sich anschließende Analyse der Unpaywall Snapshots wurde zu diesem Zweck auf die BigQuery-Plattform zurückgegriffen. Für die vorangegangene Datenextraktion aus den Snapshots wurden Serverkapa- zitäten der Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen (GWDG) in Anspruch genommen. Aus den Snapshots wurden jeweils die Publikatio- nen von 2008 bis 2020 extrahiert. Hierfür wurde unter anderem das command line tool jq86 verwendet, welches darüber hinaus zur Filterung von relevanten Metadaten- feldern aus den Dumps dient. Der Auschluss von irrelevanten Feldern dient dazu, die Größe des Datensatzes zu reduzieren. Zum Beispiel wird das speicherintensive Feld für Autoren in dieser Arbeit nicht benötigt. Die zeitliche Restriktion der Publikati- onsdaten hat folgende Gründe: 1) Publikationsmetadaten können ein fehlerhaftes Datum aufweisen, welches erst in der Zukunft liegt. 2) Ältere Datensätze werden oft nachträglich in Crossref ergänzt. Zum Teil kann die Qualität dieser Metadaten stark schwanken. 3) Der Umfang der zu analysierenden Daten wird dadurch reduziert. 4) Durch die Betrachtung der letzten Publikationsjahre besteht sowohl ein höherer Aktualitätsbezug als auch eine bessere Vergleichbarkeit mit aktuellen Studien. Nachdem die Snapshots über die Server der GWDG verarbeitet worden waren, wurden die veränderten Dumps in eine BigQuery-Instanz importiert und zur Verfügung gestellt. Der beschriebene Workflow wird schematisch in Abbildung 1 abgebildet. Abbildung 1: Workflow Quelle: Hobert, Haupka und Jahn 2021 86 https://stedolan.github.io/jq/ 13
Die zugrunde liegende Datenanalyse dieser Arbeit wurde mithilfe der Programmier- sprache Python erstellt. Die Analyse ist in einem Jupyter Notebook dokumentiert, welches auf Github zur Verfügung gestellt wird87 . Für die Interaktion mit BigQuery wurde der von Google entwickelte Python-Client genutzt88 . Bei der folgenden Ana- lyse handelt es sich um eine Vollerhebung aller Zeitschriften von 2008 bis 2018 in Unpaywall. Hierfür wurden sämtliche Texte mit dem Publikationstyp journal-article untersucht. Der Vergleich mit anderen Studien, die in der Regel das OA-Aufkommen anhand von Zeitschriftenartikeln messen89 , spielt hierbei eine wichtige Rolle. Tabelle 2 zeigt die Anzahl der Zeitschriftenartikel in den untersuchten Snapshots. Der leichte Rückgang von Zeitschriftenartikeln in den Snapshots von Februar 2020, April 2020 und Oktober 2020 in Tabelle 2 ist auf die Entfernung von Paratexten zurückzuführen (siehe Kapitel 5.8). Snapshot Anzahl der enthaltenen Zeitschriftenartikel März 2018 27,498,666 April 2018 27,268,179 Juni 2018 28,201,468 September 2018 29,908,032 Februar 2019 31,159,960 April 2019 31,341,794 August 2019 31,602,128 November 2019 31,827,129 Februar 2020 31,611,299 April 2020 31,482,103 Oktober 2020 31,712,669 Tabelle 2: Anzahl der Zeitschriftenartikel in Unpaywall Snapshots Für die Analyse des Datenschemas in Kapitel 5.5 wurde ein zufälliges Sample aus jedem Snapshot extrahiert. Anhand der erhaltenen JSON-Struktur wurde die Datenstruktur älterer Unpaywall Dumps rekonstruiert. Grund dafür ist, dass auf der offiziellen Webseite Unpaywalls nur auf das aktuell genutzte Datenschema verwiesen wird90 . Veränderungen am Datenschema werden dabei selten dokumentiert und kommentiert. 87 https://github.com/naustica/BA 88 https://pypi.org/project/google-cloud-bigquery/ 89 z.B. Gargouri u. a. 2012; Archambault u. a. 2014; Piwowar, Priem, Larivière u. a. 2018. 90 https://unpaywall.org/data-format 14
5 Ergebnisse Dieses Kapitel enthält die Ergebnisse der durchgeführten Datenerhebung91 5.1 Verbreitung von Open Access im Publikationsaufkommen Nachfolgend wird der OA-Anteil an Zeitschriftenartikeln in den vorliegenden Snap- shots für die Publikationsjahre 2008 bis 2018 untersucht (siehe Abbildung 2). Dabei kann ein gleichmäßiger Anstieg von OA-Veröffentlichungen im Publikationsaufkom- men zwischen den verschiedenen Snapshots beobachtet werden. Im März 2018 Snaps- hot beläuft sich hierbei der Gesamtanteil von OA-Publikationen auf knapp 32%. Dieser Anteil wächst zum Juni 2018 um 4%. Im darauf folgenden Jahr werden im August 2019 Snapshot etwa 39% gemessen. Im November 2019 Snapshot steigt der Anteil von OA im Publikationsaufkommen erstmals auf über 40% (42,63%). Der aktuelle Snapshot von Oktober 2020 misst 43,44%. Abbildung 2: Verbreitung von Open Access im Publikationsaufkommen in Unpaywall nach Snapshots 91 Die Resultate aus den Kapiteln 5.1, 5.2, 5.3 und 5.5 decken sich zum Teil mit den Ergebnissen aus dem vorangegangen Zeitschriftenartikel, dessen Datengrundlage die Snapshots von April 2018 bis April 2020 waren (vgl. Hobert, Haupka und Jahn 2021). Allerdings lässt sich die Datengrundlage aufgrund des Erscheinens des Oktober 2020 Snapshots in dieser Arbeit neu bewerten. 15
5.2 Open Access-Varianten 5.2 Open Access-Varianten Abbildung 3 zeigt für jeden Snapshot das Wachstum der vordefinierten OA-Typen, gemessen an Zeitschriftenartikeln, verteilt auf die Publikationsjahre 2008 bis 2018. Hierbei lassen sich deutliche Schwankungen bei der Identifikation von Gold OA beobachten. Während im April 2019 Dump insgesamt 7% der Zeitschriftenartikel als Gold OA erkannt werden, steigt dieser Wert im darauffolgenden Snapshot erheblich an (auf 31%). Im aktuellen Snapshot werden 38% der als OA klassifizierten Artikel als Gold OA identifiziert. Der Anteil von Hybrid OA fällt hingegen im Laufe der Jahre. Im ersten Snapshot von April 2019 werden 38% aller OA-Publikationen als Hybrid OA erkannt. Dieser Wert fällt im August 2019 Snapshot auf 19%. Im Oktober 2020 sind lediglich 10% zu verzeichnen. Der Anteil von Green OA steigt im Verlaufe der sechs Snapshots von 18% auf 22%. Der Wert für Bronze OA fällt von 37% auf 30%. Abbildung 3: Verbreitung und Entwicklung von Open Access-Varianten in Unpaywall 16
5.3 Open Access-Nachweise in Unpaywall 5.3 Open Access-Nachweise in Unpaywall Unpaywall liefert nicht nur den OA-Status einer Ressource, sondern hält auch deren Fundort fest. Die Klassifikation des Fundortes findet sich in dem Feld evidence. Grob unterscheidet Unpaywall dabei zwischen den Werten oa repository (Identifizierung eines OA-Volltextes auf einem Repositorium), oa journal (Identifizierung eines OA- Volltextes in einer OA-Zeitschrift) und open (allgemeine Identifizierung eines OA- Volltextes). Ferner wird das Verfahren dokumentiert, welches bei der Bestimmung des OA-Status herangezogen worden ist. oa journal (via doaj) bedeutet etwa, dass der Artikel in einer Zeitschrift, die im DOAJ gelistet ist, publiziert ist. oa repository (via pmcid lookup) würde bedeuten, dass der gesuchte Artikel im Index von PubMed Central indexiert ist. In Abbildung 4 sind alle bisher verwendeten Evidenztypen aufgelistet. Das Vorkom- men eines Evidenztyps in einem Snapshot wird hierbei durch einen blauen Balken repräsentiert. Die Länge eines Balken soll die Zeit in Monaten darstellen, in der kein neuer Snapshot veröffentlicht wurde. Insgesamt existieren seit März 2018 29 verschiedene Evidenztypen. Während acht Evidenztypen mit dem Erscheinen des Septemeber 2018 Snapshots entfernt wurden, wurden im Verlauf der drei Jahre sieben neue Evidenztypen eingeführt (und teilweise wieder exkludiert). Auffällig ist die Verwendung von DataCite92 sowie der Bielefeld Academic Search Engine (BASE)93 zur OA-Bestimmung in den ersten drei vorliegenden Snapshots. Diese Evidenztypen finden sich ab September 2018 nicht mehr in den Unpaywall Snapshots. Darüber hinaus wurden die Evidenztypen open, oa journal (via journal title in doaj) sowie open (via cc license) entfernt. Mit Einführung des April 2019 Snapshots wird der Evidenztyp hybrid genutzt. Außerdem wird seit November 2019 die Suchmaschine Semantic Scholar zur Identifizierung von OA-Resourcen verwendet. Mit oa journal (via manual setting) und oa journal (via observed oa rate) werden zudem seit August 2019 zwei weitere Verfahren genutzt, die eine OA-Klassifizierung von OA-Journalen ermöglichen. Allerdings wird ersteres nur sporadisch in zwei Snapshots verwendet. In Abbildung 5 ist zu erkennen, dass ein Großteil der OA-Publikationen über Re- positorien identifiziert wird (44%). Über OAI-PMH, ein weit verbreitetes Protokoll zum Austausch von Metadaten auf Dokumentenservern, werden dabei insgesamt 26% der OA-Artikel erkannt. 19% aller OA-Texte werden über ein frei erhältliches PDF ausgemacht. In 14% aller Artikel fand eine OA-Ermittlung über das DOAJ statt. Diese Werte gelten jeweils Snapshot-übergreifend. Auf Mikroebene, also bei der Betrachtung einzelner Snapshots im Bezug auf das Publikationsvolumen pro Evidenztyp, wurden im November 2019 der höchste Wert bei der Ermittlung von 92 https://datacite.org 93 https://www.base-search.net 17
5.3 Open Access-Nachweise in Unpaywall OA-Versionen über Semantic Scholar gemessen (2,4%). Darauf folgt oa repository (via OAI-PMH doi match) im Oktober 2020 Snapshot mit 2,1%. Einen konstanten Wert erreicht open (via free pdf ), dessen Prozentzahl über mehrere Snapshots hinweg gleich bleibt (etwa 1,9%). Abbildung 4: Verbreitung von Evidenztypen in Unpaywall-Snapshots 18
5.4 Verbreitung und Entwicklung von Repositorien und Verlagsangeboten Abbildung 5: Anzahl der Zeitschriftenartikel für die Publikationsjahre 2008-2018 nach Evidenztypen in Unpaywall Snapshots 5.4 Verbreitung und Entwicklung von Repositorien und Ver- lagsangeboten Identifiziert Unpaywall einen OA-Volltext auf einem Repositorium oder auf der Webseite eines Verlages wird ein Vermerk im entsprechenden Datensatz erstellt. Diese Information ist im Feld host_type hinterlegt und kann den Wert repository oder publisher annehmen. Unpaywall speichert sämtliche aufgefundenen OA-Volltexte einer Ressource, wodurch sich die Verbreitung sowie die Überschneidung dieser Angebote und Dienste messen lassen. Ferner lässt sich damit die Verbreitung von Green OA, also der Veröffentlichung auf institutionellen und fachlichen Repositorien, taxieren, deren Verteilung sich durch die Vergabe von exklusiven OA-Typen in Unpaywall nur umständlich bestimmen lässt. Abbildung 6 zeigt die Entwicklung sowie die Verbreitung von Repositorien und Verlagsangeboten im Verlauf von drei Jahren und über zehn Snapshots hinweg. Deutlich erkennbar in der Abbildung ist das erhöhte Publikationsaufkommen auf Seiten von Verlagen. So werden über 78% der 19
5.4 Verbreitung und Entwicklung von Repositorien und Verlagsangeboten OA-Zeitschriftenartikel im März 2018 Snapshot von Verlagen angeboten (dabei 49% ausschließlich von Verlagen). Lediglich knapp 21% der Publikationen sind exklusiv auf Repositorien erhältlich. Dieser Trend lässt sich bis zum Snapshot von August 2019 verfolgen. Seit dem November 2019 Snapshot nimmt der Anteil von Publikationen auf Repositorien zu. 27% der ermittelten OA-Volltexte sind demnach exklusiv auf Repositorien erhältlich. Der Anteil von Publikationen, die sowohl über Verlage als auch auf Repositorien verfügbar sind, ist auf fast 39% gestiegen. Insgesamt misst das erfasste Publikationsaufkommen von OA-Zeitschriftenartikeln auf Repositorien im November 2019 Snapshot demnach 66%. Im aktuellen Snapshot von Oktober 2020 werden 41% der OA-Volltexte ausschließlich über Verlage angeboten. Zum November 2019 Snapshot entspricht das einer Steigerung von etwa 6 Prozentpunkten. Parallel sinkt im aktuellen Snapshot die Menge der Publikationen, die exklusiv auf Repositorien erhältlich sind um 5 Prozentpunkte. Abbildung 6: Verbreitung und Entwicklung von Repositorien und Verlagsangeboten in Unpaywall 20
5.5 Datenschema 5.5 Datenschema Unpaywall verwendet in seinen verschiedenen Serviceangeboten (REST API, Snap- shots und Data Feed) ein analog aufgebautes Datenschema, womit eine übergreifende und invariante Metadatenstruktur existiert. Für die Datenübertragung nutzt Unpay- wall in der Regel das JSON-Format. Das Datenformat lässt sich in zwei Komponenten aufteilen (DOI Object sowie OA Location Object). Das DOI Object enthält sämtliche beschreibende Information zur einer DOI zugewiesenen Ressource (z.B. Titel, Autor und OA-Status). Das OA Location Object enthält die zur Ressource relevanten Fund- orte von jedem von Unpaywall aufgefunden OA-Volltext. Das Objekt kann somit leer sein oder mehrere Fundorte enthalten. Existieren z.B. zu einer Publikation zwei unterschiedliche Versionen, wobei die eine in einer OA-Zeitschrift und die andere in einem Repositorium veröffentlicht wurde, registriert Unpaywall zwei verschiedene Fundorte. Im Falle, dass Unpaywall keinen OA-Volltext zu einer Publikation findet, würde das OA Location Object leer erscheinen. Abbildung 7 zeigt das von Unpaywall verwendete Metadatenschema im Verlauf von drei Jahren. Insgesamt kann zwischen 35 verschiedenen Metadatenfeldern differenziert werden. Der aktuelle Snapshot von Oktober 2020 beinhaltet die höchste Anzahl an deskriptiven Metaelementen (34). Die Snapshots von Juni 2018 und September 2018 enthalten mit 26 Feldern die geringste Anzahl an Elementen. Seit dem April 2018 Snapshot wurden acht neue Felder in das Datenschema integriert. Das Datenfeld x_reported_noncompliant_copies wurde mit dem Erscheinen des Juni 2018 Snapshots entfernt. Obwohl zu diesem Feld keine Beschreibung von Seiten der Entwickler existiert, kann angenommen werden, dass damit die Anzahl der Textver- sionen pro DOI gemeint ist, die in einem nicht OA-konformen Format erhältlich ist. Zum Beispiel können Verlage oder einzelne Zeitschriften keine Optionen zu einer OA-Veröffentlichung anbieten oder verbieten explizit die Selbstarchivierung einer Publikation. Werden demnach frei verfügbare Volltexte gefunden, werden diese nicht konformen Versionen gezählt und tauchen in dem genannten Feld auf. Die Objekte best_oa_location und first_oa_location enthalten jeweils eine exakte Kopie eines OA-Fundortes aus dem OA Location object. Ein ausgewählter OA-Fundort, welcher nach den Kriterien von Unpaywall als „best“ eingestuft wird, findet sich in dem Objekt best_oa_location wieder. Unpaywall verwendet dabei einen deterministischen Algorithmus, welcher Verlagsangebote vor Versionen auf Repositorien priorisiert. Mit diesem Verfahren möchte Unpaywall die aktuellste und zuverlässigste Version einer Publikation hervorheben. 21
5.5 Datenschema Die Vorgehensweise zur Bestimmung der is_best-Version eines Textes ist dabei wie folgt94 : 1. host_type: „publisher“ ist besser als „repository“. 2. version: „publishedVersion“ ist besser als „acceptedVersion“, was wiederum besser ist als „submittedVersion“. 3. url_for_pdf : Ein Fundort mit einem Link zu einem frei verfügbaren PDF ist besser als ohne. 4. Für repository locations, evidence: Ein Dokument auf einem Repsoitorium, welches über eine DOI zugeordnet wird, ist besser als eines, das über einen Titel gefunden wird. 5. Ranking von Repositorien: Bedeutende Repositorien wie PubMed Central und arXiv werden bevorzugt behandelt. Das Objekt first_oa_location enthält den OA-Fundort mit der frühsten Veröffentli- chung einer OA-Ressource. Unpaywall bestimmt den Zeitpunkt der Veröffentlichung einer Ressource auf Repositorien und Verlagsangeboten unterschiedlich. Wird z.B. ein Artikel als Gold OA identifiziert, wird das Datum der Erstveröffentlichung für das Feld oa_date übernommen. Das Datum der OA-Veröffentlichung eines Textes auf einem Repositorium kann unter anderem über OAI-PMH ermittelt werden. Al- lerdings kann dieses Datum vom eigentlichen Erscheinungsdatum abweichen, da die Möglichkeit besteht, dass die Ressource in der Zwischenzeit modifiziert wurde. Seit der Einführung des Feldes oa_status im April 2019 ist es möglich, den OA-Typen einer Publikation abzufragen. Das Feld kann dabei die Werte gold, hybrid, bronze, green und closed annehmen. Die Kategorisierung erfolgt dabei exklusiv und basiert auf dem OA-Typ der als is_best klassifizierten Textversion. Weiterhin existiert seit dem Februar 2020 Snapshot das Feld is_paratext. Damit wird die Identifikation von Para- texten unterstützt, worauf in Kapitel 5.8 näher eingegangen wird. Zusätzlich wurden mit dem Snapshot von August 2019 und November 2019 die Felder repository_insti- tution und has_repository_copy ergänzt. Diese erweitern den Informationsgehalt für Publikationen auf Repositorien und damit die Analysemöglichkeiten von Green OA. 94 Frei übersetzt nach https://support.unpaywall.org/support/solutions/articles/44001 943223-how-is-the-best-oa-location-determined- 22
5.5 Datenschema Abbildung 7: Metadatenschema von Unpaywall seit 2018 23
5.6 Metadatenaktualisierungen 5.6 Metadatenaktualisierungen Sobald ein Datensatz einer Ressource in Unpaywall verändert wird, nimmt das Feld updated das Datum der Aktualisierung an. Mögliche Gründe für eine Aktualisierung können zum Beispiel die Übernahme von modifizierten Metadaten aus Crossref, verbesserte Methoden in der von Unpaywall angewandten OA-Identifizierung oder das unvermittelte Fehlen von OA-Publikation auf Verlagsseiten oder Repositorien sein. Zusätzlich können auch neu hinzugekommene Fundorte und DOIs das Feld beeinflussen. Abbildung 8 zeigt die von Unpaywall durchgeführten Updates von 2017 bis 2020 anhand der vorliegenden untersuchten Snapshots. Für das Jahr 2017 kann bis auf den März 2018 Snapshot eine gleichbleibende Tendenz festgestellt werden. So existiert ein beständiger Datensatz von Juni 2018 (3806 Ressourcen) bis November 2019 (2712 Ressourcen), welcher mit keinen Metadatenupdates versorgt wird. Für das Jahr 2018 kann aus den Snapshots für März 2018 (27,464,590 Ressourcen) bis Februar 2019 (29,840,169 Ressourcen) ein ähnliches Kontingent an nicht aktualisierten Datensätzen attestiert werden. Dieser Wert sinkt mit dem August 2019 Snapshot auf 23,103,497. Im April 2020 Snapshot sind erstmalig keine von 2018 aktualisierten Datensätze mehr enthalten. Eine ähnliche Entwicklung kann für das Jahr 2019 beobachtet werden. Während im August 2019 Snapshot noch 8,487,985 Datensätze aus 2019 stammen, sind im aktuellen Snapshot von Oktober 2020 nur noch 45 Ressourcen zu zählen. Datensätze, die in 2020 aktualisiert oder entstanden sind, finden sich in den Snapshots von Februar 2020, April 2020 und Oktober 2020. Bemerkenswert ist ein Schwund von in 2020 aktualisierten Datensätzen vom Februar 2020 Snapshot (31,609,142 Ressourcen) zu dessen nachfolgenden von April 2020 (31,482,063 Ressourcen). Insge- samt finden sich 127,079 Ressourcen weniger im Snapshot von April. Der Oktober 2020 Snapshot enthält derweil insgesamt 31,712,624 Datensätze, die 2020 modifiziert worden sind. Abbildung 9 stellt die Anzahl der Metadatenaktualisierungen von Zeitschriftenartikeln nach Monaten für die Snapshots März 2018 bis Oktober 2020 dar. Dabei kann festgestellt werden, dass der Großteil der Aktualisierungen in den Snapshots von März 2018, Juni 2018 sowie Februar 2020 nicht älter als ein Monat ist. Diese Beobachtung ist vor allem interessant im Hinblick auf den März und Juni 2018 Snapshot, da hier die Dumps nur vier Monate auseinander liegen. Die Snapshots von September 2018, April 2020 und Oktober 2020 weisen jeweils einen großen Anteil von Publikationensmetadaten auf, die innerhalb der letzten drei Monate seit Erscheinen des Dumps aktualisiert worden sind. Wesentlich ältere Metadaten finden sich in den Snapshots von Februar 2019, April 2019, August 2019 und November 2019. Hier 24
Sie können auch lesen