Analyse der Entwicklung des Open Access-Discovery-Services Unpaywall seit 2018

Die Seite wird erstellt Laurin Pohl
 
WEITER LESEN
Analyse der Entwicklung des Open Access-Discovery-Services Unpaywall seit 2018
Analyse der Entwicklung des Open
Access-Discovery-Services Unpaywall seit
                  2018

                  Bachelorarbeit

                       vorgelegt von
                      Nick Haupka

          Studiengang Informationsmanagement
                  Hochschule Hannover
                      Fakultät III

          Erstgutachter: Prof. Dr. Klaus Gantert
        Zweitgutachter: Prof. Dr. Christian Wartena

                Hannover, 28. Februar 2021
Zusammenfassung

Eine belastbare Datengrundlage ist notwendig sowohl für die Planung und Integration
von Publikationsfonds an Hochschulen als auch im Hinblick auf Transformationsver-
träge zwischen Bibliotheken und wissenschaftlichen Verlagen. In den letzten Jahren
hat sich der Datenservice Unpaywall diesbezüglich zu einem wichtigen Instrument
für die Identifizierung von Open Access entwickelt. In dieser Arbeit sollen die Zu-
verlässigkeit sowie die Belastbarkeit des Datenservices auf Grundlage der zeitlichen
Transformation des Dienstes untersucht werden. In diesem Zusammenhang wer-
den elf Datenbanksnapshots des Services, die zwischen 2018 und 2020 erschienen
sind, ausgewertet und Modifikationen über einen längeren Zeitraum herausgestellt.
Ferner soll anhand einer vollständigen Erhebung aller Zeitschriftenartikel der Pu-
blikationsjahre 2008 bis 2018 analysiert werden, inwiefern sich Open Access im
Publikationsaufkommen zwischen verschiedenen Snapshots verändert hat.

Abstract

A reliable data basis is necessary both for the planning and integration of publication
funds at universities and with regard to transformation contracts between libraries
and academic publishers. In recent years, the data service Unpaywall has developed
into an important tool for identifying Open Access. In this thesis, the reliability as
well as the resilience of the data service based on the temporal transformation of the
service is being examined. In this context, eleven database snapshots of the service,
which were published between 2018 and 2020, are evaluated and modifications over a
longer period are highlighted. Furthermore, a complete survey of all journal articles
from the publication years 2008 to 2018 is used to analyze the extent to which Open
Access is in the publication volume changed between different snapshots.

                                                                                      i
Vorwort

Dieser Arbeit ist ein Artikel für die Zeitschrift Bibliothek: Forschung und Praxis
vorausgegangen, welcher sich mit der Entwicklung des Datenservices Unpaywall
auseinandersetzt1 . Die Ergebnisse aus diesem Zeitschriftenartikel werden in dieser
Arbeit aufgegriffen und partiell erweitert. Ferner wird, aufgrund einer aktuelleren
Datengrundlage, eine aktualisierte Darstellung des Services in dieser Arbeit skizziert.
Dieser Umstand führt zu einer geringfügigen Neubewertung des Dienstes.

Die Arbeit wurde im Rahmen des OAUNI-Projekts der Stabstelle Wissen als Ge-
meingut der Staats- und Universitätsbibliothek Göttingen unter der Aufsicht von Dr.
Anne Hobert und Najko Jahn angefertigt.

  1
      vgl. Hobert, Haupka und Jahn 2021.

                                                                                     ii
INHALTSVERZEICHNIS

Inhaltsverzeichnis

Abkürzungsverzeichnis                                                                               v

Abbildungsverzeichnis                                                                               vi

Tabellenverzeichnis                                                                                 vi

1 Einführung                                                                                         1
  1.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .                   1
  1.2 Problemstellung und Zielsetzung . . . . . . . . . . . . . . . . . . . . .                      2
  1.3 Aufbau der Arbeit . . . . . . . . . . . . . . . . . . . . . . . . . . . .                      2

2 Hintergrund                                                                                       3
  2.1 Open Access . . . . . . . . . .    . . . . . . . . . . . . . . . . . . . . .              .   3
  2.2 Publikationsmonitoring . . . .     . . . . . . . . . . . . . . . . . . . . .              .   5
  2.3 Unpaywall . . . . . . . . . . .    . . . . . . . . . . . . . . . . . . . . .              .   7
      2.3.1 Datenverfügbarkeit . .       . . . . . . . . . . . . . . . . . . . . .              .   8
      2.3.2 Kooperationen . . . .        . . . . . . . . . . . . . . . . . . . . .              .   8
      2.3.3 Unpaywall im Hinblick        auf das nationale und internationale
             Publikationsmonitoring      . . . . . . . . . . . . . . . . . . . . .              .    9

3 Forschungsstand                                                                                   11

4 Methode                                                                                           12

5 Ergebnisse                                                                                        15
  5.1 Verbreitung von Open Access im Publikationsaufkommen . . . . . . .                            15
  5.2 Open Access-Varianten . . . . . . . . . . . . . . . . . . . . . . . . . .                     16
  5.3 Open Access-Nachweise in Unpaywall . . . . . . . . . . . . . . . . . .                        17
  5.4 Verbreitung und Entwicklung von Repositorien und Verlagsangeboten                             19
  5.5 Datenschema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .                     21
  5.6 Metadatenaktualisierungen . . . . . . . . . . . . . . . . . . . . . . . .                     24
  5.7 Flipped Journals . . . . . . . . . . . . . . . . . . . . . . . . . . . . .                    26
  5.8 Paratexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .                   28

6 Diskussion                                                                                        29
  6.1 Wachstum . . . . . . . . . . . . . . . . . . . . . . . . .    .   .   .   .   .   .   .   .   29
  6.2 Identifikation der Open Access-Varianten . . . . . . . .      .   .   .   .   .   .   .   .   31
  6.3 Repositorien- und Verlagsangebote . . . . . . . . . . .       .   .   .   .   .   .   .   .   33
  6.4 Veränderungen an Metadaten, Struktur und Methodik             .   .   .   .   .   .   .   .   34

                                                                                                    iii
INHALTSVERZEICHNIS

   6.5   Gesamtbetrachtung unter Einbeziehung der möglichen Implikationen         35

7 Fazit                                                                            36
  7.1 Resultate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
  7.2 Limitierungen dieser Arbeit . . . . . . . . . . . . . . . . . . . . . . . 36
  7.3 Ausblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

Literaturverzeichnis                                                              38

Eidesstattliche Erklärung                                                         42

                                                                                   iv
Abkürzungsverzeichnis

Abkürzungsverzeichnis

APC article processing charge

ASN Academic Social Networks

BASE Bielefeld Academic Search Engine

BMBF Bundesministerium für Bildung und Forschung

DFG Deutsche Forschungsgemeinschaft

DOAJ Directory of Open Access Journals

DOI Digital Object Identifier

FIS Forschungsinformationssystem

GWDG Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen

HOAD Hybrid Open Access Dashboard

JSON JavaScript Object Notation

OA Open Access

OAI-PMH Open Archives Initiative Protocol for Metadata Harvesting

OAM Open Access Monitor

REST-API Representational State Transfer - Application Programming Interface

                                                                          v
Abbildungs- und Tabellenverzeichnis

Abbildungsverzeichnis

  1   Workflow . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .                 13
  2   Verbreitung von Open Access im Publikationsaufkommen in Unpaywall
      nach Snapshots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .                 15
  3   Verbreitung und Entwicklung von Open Access-Varianten in Unpaywall                         16
  4   Verbreitung von Evidenztypen in Unpaywall-Snapshots . . . . . . . .                        18
  5   Anzahl der Zeitschriftenartikel für die Publikationsjahre 2008-2018
      nach Evidenztypen in Unpaywall Snapshots . . . . . . . . . . . . . .                       19
  6   Verbreitung und Entwicklung von Repositorien und Verlagsangeboten
      in Unpaywall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .                 20
  7   Metadatenschema von Unpaywall seit 2018 . . . . . . . . . . . . . . .                      23
  8   Metadatenaktualisierungen in Unpaywall . . . . . . . . . . . . . . . .                     25
  9   Aktualität der Metadaten in Unpaywall Snapshots . . . . . . . . . . .                      26

Tabellenverzeichnis

  1   Auflistung der genutzten Datenbanksnapshots . . . . .      .   .   .   .   .   .   .   .   12
  2   Anzahl der Zeitschriftenartikel in Unpaywall Snapshots     .   .   .   .   .   .   .   .   14
  3   Verbreitung von Flipped Journals in Unpaywall . . . .      .   .   .   .   .   .   .   .   27
  4   Anzahl der Paratexte in Unpaywall . . . . . . . . . . .    .   .   .   .   .   .   .   .   28

                                                                                                 vi
1 Einführung

1.1    Motivation
Die Umstellung des wissenschaftlichen Zeitschriftenswesens in den Open Access (OA)
ist in den letzten Jahren zu einem zentralen Thema für Hochschulen und Bibliotheken
avanciert. Parallel hat mit der Einführung von Förderprogrammen, der Integration
von OA Policies sowie der Etablierung von Publikationsfonds an wissenschaftlichen
Einrichtungen die weltweite Verbreitung und Akzeptanz von OA zugenommen2 .
Verschiedene Untersuchungen attestieren mittlerweile einen konstanten Anstieg von
OA-Veröffentlichungen in der wissenschaftlichen Literatur345 . Indessen stellt die
systematische Erfassung und Auswertung des Publikationsaufkommens, definiert
als Publikationsmonitoring6 , eine erhebliche Herausforderung für viele Hochschu-
len und Bibliotheken dar. Obwohl die Erhebung von Kennzahlen im Rahmen der
Forschungsförderung sowie institutioneller und nationaler Richtlinien verpflichtend
für eine Vielzahl von wissenschaftlichen Einrichtungen ist, hat eine Evalutation des
DFG-Programmes „Open Access Publizieren“ ergeben, dass ein Großteil der am För-
derungsprogramm beteiligten Einrichtungen Beratungsbedarf bei der Etablierung von
Monitoringmechanismen hat7 . Ferner zeichnet sich das aktuelle Berichtswesen durch
eine hohe Heterogenität aus8 , wodurch die Vergleichbarkeit sowie die Aussagekraft
erhobener Publikationsdaten geschmälert wird.

Im Zuge der Integration des Datendienstes Unpaywall in die großen bibliometri-
schen Datenbanken Scopus und Web of Science ist der Service in den Fokus vieler
wissenschaftlicher Einrichtungen gerückt. Insbesondere hat sich Unpaywall als Nach-
weisquelle für OA profiliert und wird inzwischen als Standardinstrument bei der
Identifizierung von OA angesehen9 . Damit nimmt der Service einen wesentlichen
Platz im Monitoring vieler Einrichtungen ein. Während Unpaywall in vielen Daten-
banken, Monitoring-Projekten und Studien verwendet wird, hat die Untersuchung
der zeitlichen Transformation des Service bislang kaum Beachtung gefunden. Eine
entsprechende Analyse könnte Aufschluss über die Zuverlässigkeit und Belastbarkeit
der Datengrundlage des Services liefern, welche im Kontext des OA-Publizierens mit
einer hohen Relevanz verbunden ist.

 2
   vgl. Barbers, Rosenberger und Mittermaier 2020, S. 3.
 3
   vgl. Archambault u. a. 2014.
 4
   vgl. Piwowar, Priem, Larivière u. a. 2018.
 5
   vgl. Severin u. a. 2020.
 6
   vgl. Schmeja und Tullney 2020, S. 203.
 7
   vgl Deutsche Forschungsgemeinschaft 2020, S. 9.
 8
   vgl. Barbers, Rosenberger und Mittermaier 2020, S. 20.
 9
   vgl. Robinson-Garcia, Costas und van Leeuwen 2020, S. 2.

                                                                                  1
1.2 Problemstellung und Zielsetzung

1.2       Problemstellung und Zielsetzung
Eine aussagekräftige sowie stabile Datengrundlage im Hinblick auf das Publikati-
onsmonitoring ist essenziell für die Planung und Integration von Publikationsfonds
und OA-Policies10 . Weiterhin sind gesicherte Daten zum Publikationsaufkommen für
Verhandlungen zwischen Bibliotheken und wissenschaftlichen Verlagen, etwa im Be-
reich der Transformationsverträge, notwendig, um präzise Aussagen über entstehende
Kosten und Nutzen von Publikationen aufstellen zu lassen11 .

Zielsetzung dieser Arbeit ist eine Analyse der Entwicklung des für das Publikations-
monitoring verwendeten Datenservices Unpaywall seit 2018. Anhand elf verschiedener
Datenbanksnapshots, welche in einem Zeitraum von drei Jahren veröffentlicht wur-
den, wird das Datenfundament sowie die Methodik Unpaywalls ausgewertet und
Modifikationen im Laufe der Zeit herausgearbeitet. Damit soll untersucht werden,
inwiefern sich Unpaywall im Laufe der Zeit verändert hat und welche Implikatio-
nen bei der Nutzung des Dienstes damit einhergehen. Auch soll mit der Arbeit die
Robustheit sowie Verlässlichkeit des Services, welche sich durch die Betrachtung
der zeitlichen Dimension ergibt, eruiert werden. Im Detail werden in dieser Arbeit
folgende Forschungsfragen im Bezug auf die Entwicklung Unpaywalls adressiert:

        FF1: Wie entwickelt sich OA im Publikationsaufkommen?
        FF2: Wie verändern sich Struktur und Metadaten von Unpaywall?
        FF3: Was sind mögliche Ursachen und Konsequenzen dieser Veränderungen?

1.3       Aufbau der Arbeit
      • Kapitel 2 beinhaltet kurze Erläuterungen zu den Begriffen Open Access, Publi-
        kationsmonitoring und dem Datendienst Unpaywall.

      • Kapitel 3 behandelt den aktuellen Forschungsstand.

      • Kapitel 4 beschreibt das genutzte Datenset sowie Methoden für die anschlie-
        ßende Datenanalyse.

      • Kapitel 5 befasst sich mit der Analyse der Daten aus Unpaywall.

      • Die Ergebnisse aus Kapitel 5 werden in Kapitel 6 interpretiert.

      • Eine Zusammenfassung sowie ein Fazit findet sich abschließend in Kapitel 7.

 10
      vgl. Huang u. a. 2020, S. 1.
 11
      vgl. Ecker, Pollack und Rosenberger 2020, S. 101.

                                                                                           2
2 Hintergrund

Dieses Kapitel umfasst kurze Erläuterungen zu den Begriffen Open Access, Publi-
kationsmonitoring sowie dem Datenservice Unpaywall. Ferner wird auf den Einsatz
von Unpaywall im bibliometrischen Kontext eingegangen.

2.1        Open Access
Obwohl sich die Open Access-Bewegung bis in die 90er Jahre zurückverfolgen lässt,
existiert bis heute keine einheitliche Definition des Begriffes Open Access1213 . So finden
sich in der Forschungsliteratur verschiedene Definitionsvarianten, die unterschiedliche
Facetten des wissenschaftlichen Publikationswesens aufgreifen und berücksichtigen14 .
Oftmals wird hierbei etwa der Grad der Offenheit sowie die Nachnutzung einer
Publikation unterschiedlich im Kontext von OA gehandhabt. Chen und Olijhoek
sprechen aus diesem Grund auch von OA als Spektrum, anstelle einer konkreten
Begriffsbestimmung15 . Für diese Arbeit, welche sich ausschließlich mit der Analyse
von Zeitschriftenartikeln auseinandersetzt, wird auf die von Piwowar et al. verwendete
Definition zurückgegriffen:

       „OA articles are free to read online, either on the publisher website or in
       an OA repository.“ 16

Diese Definition ist eng verbunden mit der von Suber formulierten Begriffsbestim-
mung:

       „Open access (OA) literature is digital, online, free of charge, and free of
       most copyright and licensing restrictions.“ 17

Diese Eingrenzung ist wiederum erheblich von der Budapest Open Access Initiative
beeinflusst, welche OA wie folgt beschreibt:

       „By open access to this literature, we mean its free availability on the
       public internet, permitting any users to read, download, copy, distribute,
       print, search, or link to the full texts of these articles, crawl them for
       indexing, pass them as data to software, or use them for any other lawful
       purpose, without financial, legal, or technical barriers other than those
       inseparable from gaining access to the internet itself. The only constraint
       on reproduction and distribution, and the only role for copyright in this
 12
    vgl.   Antelman 2004, S. 372.
 13
    vgl.   Herb 2012, S. 11.
 14
    vgl.   Chen und Olijhoek 2016, S. 108.
 15
    vgl.   ebd., S. 108.
 16
    vgl.   Piwowar, Priem, Larivière u. a. 2018, S. 4.
 17
    vgl.   Suber 2012, S. 4.

                                                                                         3
2.1 Open Access

        domain, should be to give authors control over the integrity of their work
        and the right to be properly acknowledged and cited.“ 18

Nach Harnad et al. existieren zwei Strategien, die die Veröffentlichung einer Publika-
tion im OA ermöglichen19 . Zum einen wäre das die Veröffentlichung eines Textes in
einer OA-Zeitschrift, also einer Zeitschrift, die ausschließlich OA-Inhalte veröffentlicht
(auch bezeichnet als goldener Weg). Eine weitere Möglichkeit ist die Zweitveröffentli-
chung eines Textes auf einem institutionellen oder disziplinären Repositorium. Diese
Variante wird als Green Road bezeichnet. Mittlerweile existieren im Zusammenhang
mit OA eine Reihe verschiedener Veröffentlichungsstrategien. Die für diese Arbeit
relevanten Publikationswege sowie deren in dieser Arbeit verwendeten Definitionen20
werden im Folgenden aufgeführt:

      • Gold OA: Artikel sind sofort und permanent nach der Erstveröffentlichung
        zugänglich und erscheinen in einer OA-Zeitschrift, die frei über das Internet
        abrufbar ist21 .

      • Green OA: Zweitveröffentlichungen, die auf disziplinären oder institutionellen
        Repositorien erscheinen22 . Oftmals handelt es sich um eine Selbstarchivierung
        einer Publikation seitens des Autors. Des Weiteren kann zwischen verschiedenen
        Versionen einer archivierten Publikation differenziert werden (Preprints und
        Postprints).

      • Hybrid OA: Artikel erscheinen in hybriden Zeitschriften, also in Zeitschriften,
        die das Subskriptionsmodell für kostenpflichtige Zeitschriften aufgreifen, jedoch
        die Möglichkeit bieten, einzelne Artikel frei zukaufen 23 .

      • Bronze OA: Artikel, die in kostenpflichtigen Zeitschriften erscheinen, auf der
        Webseite des Verlages frei verfügbar sind, jedoch ohne eine OA-Lizenz veröf-
        fentlicht werden24 . Nach Martín-Martín et al. gelten Artikel zudem als Bronze
        OA, wenn sie, neben den fehlenden OA-Lizenzen, in einer Zeitschrift erscheinen,
        die nicht im Directory of Open Access Journals (DOAJ) gelistet ist25 .

      • Delayed OA: Artikel sind nach einem zeitlichen Embargo verfügbar26 oder
        werden nachträglich veröffentlicht. In der Regel dauern die zeitlichen Embargos

 18
    vgl. Budapest Open Access Initiative 2002.
 19
    vgl. Harnad u. a. 2004.
 20
    Geringe Unterschiede zu den Definitionen in Piwowar, Priem, Larivière u.a 2018.
 21
    vgl. Informationsplattform Open Access 2020.
 22
    vgl. ebd.
 23
    vgl Gantert 2016, S. 127.
 24
    vgl. Piwowar, Priem und Orr 2019, S. 4.
 25
    vgl. Martín-Martín u. a. 2018, S. 16.
 26
    vgl. Harnad 2013.

                                                                                         4
2.2 Publikationsmonitoring

        bei Delayed OA-Zeitschriften 6, 12 oder 24 Monate27 . Dieses Vorgehen wird
        auch Moving Wall genannt.

      • Closed OA: Artikel, die in einer kostenpflichtigen Zeitschrift erscheinen, welche
        keine article processing charges (APCs) unterstützt und zudem zu keinem
        absehbaren Zeitpunkt frei erhältlich sein wird28 . Im Falle von Unpaywall zählen
        hierzu auch Artikel, die auf Academic Social Networks (ASN) oder auf Sci-Hub
        geteilt und verfügbar gemacht werden29 .

2.2      Publikationsmonitoring
Unter dem Begriff Publikationsmonitoring versteht man die systematische Erfassung,
Dokumentation und Analyse des Publikationsoutputs einzelner Einrichtungen und
Zusammenschlüsse30 , welche verstärkt durch institutionelle und nationale Richtlinien
zunehmend an Hochschulen und Bibliotheken praktiziert wird.

Ein wesentlicher Treiber dieser Entwicklung in Deutschland ist das Förderungspro-
gramm „Open Access Publizieren” der Deutschen Forschungsgemeinschaft (DFG),
welche die Errichtung und Weiterentwicklung von universitären OA-Publikationsfonds
unterstützt31 . Das Programm, welches seit 2010 existiert, fördert in diesem Zusammen-
hang insbesondere das Publizieren über den goldenen Weg in reinen OA-Zeitschriften.
Zu diesem Zweck werden Strukturmaßnahmen sowie begleitende Aktivitäten (z.B.
Bereitstellung von Publikationsmitteln) an den beteiligten Einrichtungen initiiert, die
zu einer verlässlichen und dauerhaften Finanzierung von OA-Publikationen beitragen
sollen32 . Damit zusammenhängend ist die anteilige Förderung von Publikationsge-
bühren. Weiterhin regt die DFG-Förderung eine Erfassung und ein systematisches
Monitoring des Publikationsaufkommens an geförderten Hochschulen an33 . Laut des
Evaluationsberichtes der DFG zum Förderungsprogramm aus dem Jahr 2020 haben
65% aller beteiligten Hochschulen das Publikationsmonitoring erstmalig im Rahmen
der Förderung appliziert34 . Allerdings haben nur 36% der befragten Geförderten
angegeben ein umfassendes Monitoring durchzuführen, während 56% der Befragten
nur Bereiche erfassen, die explizit durch öffentliche Mittel gefördert werden35 . Wei-
terhin stellt die Ermittlung von fundierten Zahlen zur Publikationsaktivität eine
erhebliche Herausforderung für viele Antragsteller dar36 . Neben einer unzureichen-
 27
    vgl. Laakso und Björk 2013, S. 1324.
 28
    vgl. Siler u. a. 2018, S. 5.
 29
    vgl Piwowar, Priem, Larivière u. a. 2018, S. 5.
 30
    vgl. Schmeja und Tullney 2020, S. 203.
 31
    vgl. eingereichte Fassung: Hobert, Haupka und Jahn 2021, S. 3.
 32
    vgl. Deutsche Forschungsgemeinschaft 2020, S. 7.
 33
    vgl. ebd., S. 76.
 34
    vgl. ebd., S. 76.
 35
    vgl. ebd., S. 76.
 36
    vgl. Fournier und Weihberg 2013, S. 239.

                                                                                       5
2.2 Publikationsmonitoring

den Datengrundlage führt eine dezentrale Organisation an vielen Einrichtungen zu
weiterführenden Komplikationen, weshalb viele Hochschulen und Bibliotheken eine
eigene Kostenstelle zur Erfassung von Publikationskosten errichtet haben37 .

Barbers et al. weisen daraufhin, dass aktuell ein hohes Maß an Heterogenität mit
der Auswertung von Publikationsdaten verbunden ist38 . So trägt etwa die Nutzung
verschiedener (halb-)automatisierter Hochschulbibliographien, Forschungsinformati-
onssystemen (FIS) sowie manuell gepflegten tabellarischen Listen zu einem uneinheit-
lichen Berichtswesen im OA-Publizieren an Hochschulen und Bibliotheken bei39 . Dazu
kommt, dass oftmals bibliometrische Kennzahlen nicht aus FIS-Systemen erhoben
werden, sondern aus kommerziellen Publikationsdatenbanken40 . Neben Scopus und
Web of Science zählt hierzu auch der Dimensions-Service. Diese Dienste weisen meh-
rere Bias auf, z.B. eine überproportionale Erfassung von englischsprachiger Literatur,
wodurch die Qualität etwaiger Auswertungen gemindert wird41 .

2015 hat die Max-Planck-Gesellschaft ein Whitepaper veröffentlicht, welches die Trans-
formation des wissenschaftlichen Publikationswesen in den OA thematisiert. Grund
für diese Auseinandersetzung waren steigende Kosten beim Erwerb von subskriptions-
basierten Zeitschriften sowie ein Anstieg von Kosten für OA-Veröffentlichungen an
wissenschaftlichen Bibliotheken, die den Etat von Bibliotheken strapazieren. Schim-
mer et al. schlägt deshalb eine Umverteilung der Kosten aus dem Subskriptionssytem
in einen OA-Publikationsservice vor42 . Diese Umstellung des Publikationswesen soll
mindestens kostenneutral möglich sein43 und wird durch Initiativen wie die OA2020-
Allianz begleitet. Das Vorhaben wird inzwischen von 148 Institutionen unterstützt44 .
Im Zuge dessen sind verschiedene Monitoring-Projekte entstanden. Darunter zählen
der Open Access Monitor (OAM) des Forschungszentrums Jülich45 , das Hybrid Open
Access Dashboard (HOAD) der Staats- und Universitätsbibliothek Göttingen46 sowie
die OpenAPC Initiative47 .

 37
    vgl. Fournier und Weihberg 2013, S. 240.
 38
    vgl. Barbers, Rosenberger und Mittermaier 2020, S. 20.
 39
    vgl. ebd., S. 20.
 40
    vgl. Schmeja und Tullney 2020, S. 209.
 41
    vgl. ebd., S. 210.
 42
    vgl. Schimmer, Geschuhn und Vogler 2015, S. 2.
 43
    vgl. Mittermaier u. a. 2018, S. 87.
 44
    siehe hierzu: https://oa2020.org/mission/#eois (Stand Februar 2021).
 45
    https://open-access-monitor.de/#/home
 46
    https://subugoe.github.io/hoad/
 47
    https://dini.de/dienste-projekte/projekte/open-apc-initiative/

                                                                                    6
2.3 Unpaywall

2.3    Unpaywall
Der Datendienst Unpaywall48 wird von dem Non-Profit Unternehmen Our Research49
(vormals ImpactStory) entwickelt und betrieben. Darüber hinaus ist das Unternehmen
an weiteren bibliometrischen Services beteiligt, die insbesondere an Bibliotheken
Verwendung finden. Hierzu zählen die akademische Suchmaschine GetTheResearch 50 ,
die Analyse-Plattform depsy 51 und das Datenanalysetool Unsub 52 . Letzteres soll
Bibliotheken helfen, Kosten für Zeitschriftenabonnements zu senken, indem die Preise
von mehreren tausend Zeitschriften und Bundles analysiert werden sowie mit der
Verfügbarkeit über OA abgeglichen werden sollen.

Der verbreitetste Service des Unternehmens, Unpaywall, wurde 2016 als Browser-
Plugin entwickelt und hilft Wissenschaftlern und Bibliotheken, OA-Volltexte eines
kostenpflichtigen Artikels einer wissenschaftlichen Zeitschrift zu finden. Nach Piwowar
et al. stellen wissenschaftliche Bibliotheken die größte Gruppe bei der Benutzung
des Services dar53 . 2018 waren das etwa 700 Bibliotheken weltweit54 .

In der Regel werden wissenschaftliche Publikation über einen Digital Object Identifier
(DOI) identifiziert. Diese sollen persistent auf eine Ressource im Internet verweisen
und werden von verschiedenen DOI-Registrierungsagenturen erstellt. Crossref zählt
hierbei zu den größten Registrierungsagenturen mit über 121 Millionen eingetragenen
Ressourcen55 . Unpaywalls Datenbank stützt sich ausschließlich auf sämtliche in Cross-
ref indexierten Publikationen. Ferner werden zusätzliche Informationen aus mehreren
tausend institutionellen und fachlichen Repositorien gesammelt und aggregiert. Auch
zählen Verzeichnisse wie das DOAJ und die Datenbank PubMed Central zu wichtigen
Datenquellen des Unpaywall-Services (DOAJ ist ein elektronisches Verzeichnis, wel-
ches unter hohen Qualitätskontrollen OA-Zeitschriften indexiert; PubMed Central ist
eine weitläufig genutzte Datenbank über medizinische Literatur). Ob ein Artikel im
OA erhältlich ist, entscheidet Unpaywall unter anderem auf Grundlage von Lizenzin-
formationen sowie dem Fundort einer Ressource. Mittlerweile enthält die Datenbank
Informationen zu über 28 Millionen frei verfügbaren OA-Zeitschriftenartikeln56 .

 48
    https://unpaywall.org
 49
    https://ourresearch.org
 50
    https://gettheresearch.org
 51
    http://depsy.org
 52
    https://unsub.org
 53
    vgl. Piwowar, Priem, Larivière u. a. 2018, S. 6.
 54
    vgl. ebd., S. 6.
 55
    https://data.crossref.org/reports/statusReport.html
 56
    Die aktuelle Zahl kann unter https://unpaywall.org nachgesehen werden.

                                                                                     7
2.3 Unpaywall

2.3.1   Datenverfügbarkeit

Daten aus Unpaywall sind über verschiedene Service-Angebote erhältlich. Für ver-
einzelte Anfragen bietet sich die REST-API57 an, die bis zu 100.000 Abfragen am
Tag erlaubt. Die Angabe einer Email-Adresse ist dabei Voraussetzung zur Nutzung
der Schnittstelle. Mittels einer gegebenen DOI kann die API die entsprechenden
Informationen aus der Datenbank im JSON-Format zurückliefern. Bei der Nut-
zung über Unpaywalls Weboberfläche werden zudem die elektronischen Daten- und
Austauschformate CSV und Excel unterstützt. Für die Programmiersprachen Py-
thon58 und R59 existieren Softwarepakete, die den Umgang mit dem Service in einer
datenanalytischen Umgebung unterstützen.

Weiterhin sind Informationen aus Unpaywall über Datenbanksnapshots60 zugänglich,
die jeweils etwa halbjährlich zum kostenfreien Download angeboten werden. Die
Snapshots enthalten eine gespiegelte Repräsentation der Unpaywall-Datenbank zu
einem bestimmten Zeitpunkt, was sie geeignet für reproduzierbare Datenanalysen
macht. Die Snapshots sind komprimiert jeweils etwa 20 Gigabyte groß und enthalten
Informationen zu über 100 Millionen Publikationen.

Der Data Feed61 , welcher die Aktualität der Rest API mit dem umfangreichen
Datenbestand der Snapshots vereint, bietet für zahlende Abonnenten eine laufende
Aktualisierung der Daten aus Unpaywall an. So werden täglich sowie wöchentlich
erstellte Listen, welche Änderungen innerhalb der Datenbank dokumentieren, an die
Abonnenten des Data Feed-Services übermittelt.

Der Backend-Service hinter Unpaywall war bis 2018 als oadoi-System bekannt. Seit
2018 heißt dieser schlicht Unpaywall bzw. Unpaywall data.

2.3.2   Kooperationen

Der Service Unpaywall wird in zahlreichen Studien und Projekten genutzt. Des
Weiteren wird der Datendienst zunehmend in bibliometrischen Datenbanken zur
Kategorisierung von OA-Anteilen verwendet. Seit 2017 kooperiert das Unternehmen
Our Research mit Clarivate Analytics, die die Zitations- und Literaturdatenbank
Web of Science betreiben und Unpaywall zur OA-Identifkation von Publikationen
nutzen. Weiterhin wird Unpaywall seit 2018 in der bibliographischen Datenbank
Scopus des wissenschaftlichen Verlagshauses Elsevier genutzt62 . Mit Dimensions und

 57
    https://unpaywall.org/products/api
 58
    vgl. Haupka und Morrison 2020.
 59
    vgl. Jahn 2019.
 60
    https://unpaywall.org/products/snapshot
 61
    https://unpaywall.org/products/data-feed
 62
    https://blog.impactstory.org/elsevier-data-feed/

                                                                                 8
2.3 Unpaywall

PubMed Central existieren darüber hinaus zwei weitere große Datenbanken, die
Informationen aus Unpaywall beziehen63 .

Neben den genannten Datenbanken werden auf der offiziellen Webseite Unpaywalls
weitere Dienste, Softwareapplikationen und Projekte präsentiert, die erfolgreich Un-
paywall in ihre Vorhaben eingebunden haben64 . Zum Beispiel wird der Service in
einigen Link-Resolver-Diensten verwendet, die automatisch auf eine frei zugängliche
Version einer Publikation bei einer gegebenen DOI verlinken. Das Literaturverwal-
tungsprogramm Zotero nutzt Unpaywall zum Retrieval von OA-Publikationen, welche
über das Programm auf den eigenen Computer heruntergeladen werden können65 .
Auch Browsererweiterungen wie die offizielle Unpaywall browser extension66 , Koper-
nio67 und Open Access Helper68 werden mit Informationen aus Unpaywall gespeist.

Der Datenservice Unpaywall wird von verschiedenen Ministerien, Institutionen und
Behörden gefördert, welche damit die Unterstützung Unpaywalls in vielen Projekten
gewährleisten. Hierzu zählen verschiedene Monitoring-Projekte wie der OAM, das
HOAD und der European Open Science Monitor. Maßgeblich beteiligt an diesen
Projekten ist das Bundesministerium für Bildung und Forschung (BMBF), welches
die finanzielle Grundlage für diese Serviceangebote schafft. International sind mit
dem US National Institutes of Health, dem French Ministry of Higher Education
& Research und dem Wellcome Trust weitere Institutionen zu nennen, die an der
Förderung von Unpaywall-spezifischen Projekten beteiligt sind.

2.3.3   Unpaywall im Hinblick auf das nationale und internationale Pu-
        blikationsmonitoring

Als erstes Bundesland hat Berlin ein umfassendes Monitoring des Open Access-
Publikationsaufkommens auf Länderebene in Deutschland durchgeführt. Mittlerweile
hat die Technische Universität Berlin zwei Berichte veröffentlicht, wobei zusammen-
fassend die Publikationsjahre 2013 bis 2016 abgedeckt werden6970 . Hauptaugenmerk
bei der Analyse ist der OA-Anteil an Veröffentlichungen aus öffentlichen Wissen-
schaftseinrichtungen des Landes Berlin, die im Zuge der „Open Access Strategie
für Berlin“ erfasst werden sollen. Für das Jahr 2016 wurde der Gesamtanteil an
OA-Publikationen für das Land Berlin auf 31,2% geschätzt71 . Laut des Berichtes

 63
    http://blog.europepmc.org/2018/04/unlocking-open-europe-pmc-integrates.html
 64
    siehe hierzu https://unpaywall.org/integrations.
 65
    https://www.zotero.org/blog/improved-pdf-retrieval-with-unpaywall-integration/
 66
    https://unpaywall.org/products/extension
 67
    https://kopernio.com
 68
    https://www.oahelper.org
 69
    vgl. Voigt und Winterhalter 2016.
 70
    vgl. Voigt, Winterhalter u. a. 2018.
 71
    vgl. ebd., S. 3.

                                                                                  9
2.3 Unpaywall

für das Publikationsjahr 2016 wurden Daten aus 16 verschiedenen Literatur- und
Zitationsdatenbanken ausgewertet72 . Eine entsprechende Analyse von erhobenen
Publikationsdaten aus den untersuchten Einrichtungen fand nicht statt. Während
sich der erste Bericht auf den Anteil von Gold sowie Hybrid OA am Publikations-
aufkommen konzentrierte, wird im zweiten Bericht näher auf die Green OA-Quote
eingegangen. Hierbei wurden Informationen aus Unpaywall verwendet73 .

Neben dieser Studie wird Unpaywall im OAM Deutschland genutzt, welcher die
Analyse des gesamten Publikationsaufkommen deutscher akademischer Einrichtun-
gen in wissenschaftlichen Zeitschriften zum Ziel hat74 . Hierbei wird der OA-Status
sämtlicher Zeitsschriftenartikel über den Datenservice Unpaywall direkt ermittelt.
Der OA-Status von Zeitschriften wird allerdings über das DOAJ bestimmt. Weiterhin
wird Unpaywall bei der Bestimmung von Publikationszahlen im OAM genutzt.

Unpaywall dient auch als Datengrundlage für das Projekt HOAD, welches einen
Überblick über das hybride Publizieren auf nationaler Ebene bietet75 . Ferner nutzt
der Open Science Monitor der Europäischen Union Unpaywall zur OA-Bestimmung
von Publikationen auf EU-Ebene76 .

Hinzu kommen weitere nationale Bestrebungen, z.B. seitens Frankreich und Ös-
terreich, ein umfassendes und flächendeckendes Monitoring an wissenschaftlichen
Einrichtungen zu etablieren. Die OA-Monitore sowohl Frankreichs als auch Öster-
reichs sollen mit Daten aus Unpaywall interagieren7778 .

 72
    vgl.   Voigt, Winterhalter u. a. 2018, S. 4.
 73
    vgl.   ebd., S. 5.
 74
    vgl.   Mittermaier u. a. 2018, S. 84.
 75
    vgl.   SUB Göttingen 2020.
 76
    vgl.   European Commission 2019.
 77
    vgl.   Jeangirard 2019.
 78
    vgl.   Danowski u. a. 2020.

                                                                                10
3 Forschungsstand

Die Relevanz eines datengestützten Berichtswesens im Bereich des Open Access
hat sich durch die Transformation des wissenschaftlichen Publikationswesens in den
OA intensiviert. Im Zuge dessen sind die Anforderungen bei der Auswertung von
OA-Publikationsdaten gestiegen. So besteht nach Piwowar et al. eine Notwendigkeit
für skalierbare, reproduzierbare, hochaktuelle und hochwertige Daten im Hinblick auf
OA-Literatur79 . Auch Huang et al. weisen darauf hin, dass die Implementierung von
OA-Policies an wissenschaftlichen Einrichtungen auf einer verlässlichen und aktuellen
Datengrundlage beruhen muss80 . In diesem Kontext muss die Herangehensweise
vieler Studien, die dem OA-Publizieren gewidmet sind, kritisch betrachtet werden.
Van Leeuwen et al. führen an, dass zahlreiche Studien auf einer Datenbasis aufbau-
en, welche schwierig zu reproduzieren und zu skalieren ist81 . Zum Beispiel werden
Harvesting-Methoden eingesetzt, die zu zeitabhängigen Ergebnissen führen. Eine
weitere problembehaftete Methode ist das Erstellen von manuellen Datensätzen, die
sich nur schwierig aktualisieren lassen82 . Dem gegenüber steht das OA-Discovery-Tool
Unpaywall, welches auf den oben angeführten Prinzipien von Piwowar et al. aufbaut,
kostenlos über das Internet genutzt werden kann und nunmehr in vielen Studien und
Projekten genutzt wird.

Nur wenige Studien haben sich mit der Entwicklung von Unpaywall auseinander-
gesetzt. Eine dem Ansatz dieser Arbeit vergleichbare Herangehensweise findet sich
in einem Artikel von Huang et al83 . In diesem Artikel wurden vier Datenbanksnap-
shots hinsichtlich der enthaltenen OA-Anteile kontrastiert. Hierbei wurden sowohl
ein genereller Anstieg von OA als auch von Green OA beobachtet. Eine darüber
hinausgehende Analyse der Entwicklung des Services wurde nicht durchgeführt.

Unter Mitwirkung des Autors dieser Arbeit wurde ein Zeitschriftenartikel verfasst,
welcher die Entwicklung des Datenbestandes und der Typologie Unpaywalls seit
2018 analysiert84 . Dabei wurden Abweichungen in der OA-Identifizierung sowie eine
variable Typologie festgestellt. Diese Arbeit baut auf den Ergebnissen dieser Arbeit
auf.

 79
    vgl.   Piwowar, Priem, Larivière u. a. 2018, S. 2.
 80
    vgl.   Huang u. a. 2020, S. 1.
 81
    vgl.   van Leeuwen, Tatum und Wouters 2018, S. 1.
 82
    vgl.   Huang u. a. 2020, S. 1.
 83
    vgl.   ebd.
 84
    vgl.   Hobert, Haupka und Jahn 2021.

                                                                                  11
4 Methode

Für die Analyse der Entwicklung des Datenservices Unpaywall seit 2018 wurden
elf Datenbanksnapshots des Dienstes analysiert. Die Snapshots enthalten eine um-
fassende Repräsentation der Unpaywall Datenbank zu fixen Zeitpunkten, wodurch,
im Vergleich zur angebotenen REST API, die eine begrenzte Anzahl an Abfragen
pro Tag erlaubt, eine wesentlich effizientere Auswertung vorgenommen werden kann.
Zum jetzigen Zeitpunkt stehen fünfzehn Snapshots zur Verfügung, die den Zeitraum
von 2018 bis 2020 abdecken. Aufgrund fehlerhafter Datensätze in einigen Dumps
hat das Unternehmen Our Research in den Monaten September 2018 und Oktober
2020 mehrere Snapshots veröffentlicht. Für diese Arbeit wurden die in den genannten
Monaten als letztes erschienenen Dateien herangezogen. Die Snapshots liegen kom-
primiert im JSON Newline-Format vor. Die verwendeten Snapshots sind in Tabelle 1
gelistet.

 Dateiname des Snapshots                                             Verfügbar seit
 unpaywall_snapshot_2018-03-29T113154.jsonl.gz                        29.03.2018
 unpaywall_snapshot_2018-04-28T230327.jsonl.gz                        28.04.2018
 unpaywall_snapshot_2018-06-21T164548_with_versions.jsonl.gz          21.06.2018
 unpaywall_snapshot_2018-09-27T192440.jsonl.gz                        27.09.2018
 unpaywall_snapshot_2019-02-21T031509.jsonl.gz                        21.02.2019
 unpaywall_snapshot_2019-04-19T193256.jsonl.gz                        19.04.2019
 unpaywall_snapshot_2019-08-16T155437.jsonl.gz                        16.08.2019
 unpaywall_snapshot_2019-11-22T074546.jsonl.gz                        22.11.2019
 unpaywall_snapshot_2020-02-25T115244.jsonl.gz                        25.02.2020
 unpaywall_snapshot_2020-04-27T153236.jsonl.gz                        27.04.2020
 unpaywall_snapshot_2020-10-09T153852.jsonl.gz                        09.10.2020

                Tabelle 1: Auflistung der genutzten Datenbanksnapshots

Die heruntergeladen Snapshots sind jeweils komprimiert ca. 20 GB groß (unkompri-
miert etwa 100 GB) und enthalten jeweils über hundert Millionen Publikationsdaten-
sätze, die mit einer DOI aus Crossref verknüpft sind.

Da sich die Analyse von derartig großen Datensätzen unter Benutzung herkömmli-
cher Computer als sehr umständlich erweist, wurde auf eine cloudbasierte Lösung
zurückgegriffen. Amazon, Microsoft und Google haben in den letzten Jahren intensiv
an der Entwicklung von Cloud-Plattformen gearbeitet, die enorme Rechenleistung
für einen niedrigen Preis bieten. Google bietet den Service BigQuery85 an, welcher
ein skalierbares Data Warehouse zum Speichern und Abfragen von großen Datenbe-

 85
      https://cloud.google.com/bigquery

                                                                                12
ständen ist. Für die sich anschließende Analyse der Unpaywall Snapshots wurde zu
diesem Zweck auf die BigQuery-Plattform zurückgegriffen.

Für die vorangegangene Datenextraktion aus den Snapshots wurden Serverkapa-
zitäten der Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen
(GWDG) in Anspruch genommen. Aus den Snapshots wurden jeweils die Publikatio-
nen von 2008 bis 2020 extrahiert. Hierfür wurde unter anderem das command line
tool jq86 verwendet, welches darüber hinaus zur Filterung von relevanten Metadaten-
feldern aus den Dumps dient. Der Auschluss von irrelevanten Feldern dient dazu, die
Größe des Datensatzes zu reduzieren. Zum Beispiel wird das speicherintensive Feld
für Autoren in dieser Arbeit nicht benötigt. Die zeitliche Restriktion der Publikati-
onsdaten hat folgende Gründe: 1) Publikationsmetadaten können ein fehlerhaftes
Datum aufweisen, welches erst in der Zukunft liegt. 2) Ältere Datensätze werden oft
nachträglich in Crossref ergänzt. Zum Teil kann die Qualität dieser Metadaten stark
schwanken. 3) Der Umfang der zu analysierenden Daten wird dadurch reduziert.
4) Durch die Betrachtung der letzten Publikationsjahre besteht sowohl ein höherer
Aktualitätsbezug als auch eine bessere Vergleichbarkeit mit aktuellen Studien.

Nachdem die Snapshots über die Server der GWDG verarbeitet worden waren, wurden
die veränderten Dumps in eine BigQuery-Instanz importiert und zur Verfügung
gestellt. Der beschriebene Workflow wird schematisch in Abbildung 1 abgebildet.

                                 Abbildung 1: Workflow
                         Quelle: Hobert, Haupka und Jahn 2021

 86
      https://stedolan.github.io/jq/

                                                                                  13
Die zugrunde liegende Datenanalyse dieser Arbeit wurde mithilfe der Programmier-
sprache Python erstellt. Die Analyse ist in einem Jupyter Notebook dokumentiert,
welches auf Github zur Verfügung gestellt wird87 . Für die Interaktion mit BigQuery
wurde der von Google entwickelte Python-Client genutzt88 . Bei der folgenden Ana-
lyse handelt es sich um eine Vollerhebung aller Zeitschriften von 2008 bis 2018 in
Unpaywall. Hierfür wurden sämtliche Texte mit dem Publikationstyp journal-article
untersucht. Der Vergleich mit anderen Studien, die in der Regel das OA-Aufkommen
anhand von Zeitschriftenartikeln messen89 , spielt hierbei eine wichtige Rolle. Tabelle 2
zeigt die Anzahl der Zeitschriftenartikel in den untersuchten Snapshots. Der leichte
Rückgang von Zeitschriftenartikeln in den Snapshots von Februar 2020, April 2020
und Oktober 2020 in Tabelle 2 ist auf die Entfernung von Paratexten zurückzuführen
(siehe Kapitel 5.8).

            Snapshot              Anzahl der enthaltenen Zeitschriftenartikel
            März 2018                                             27,498,666
            April 2018                                            27,268,179
            Juni 2018                                             28,201,468
            September 2018                                        29,908,032
            Februar 2019                                          31,159,960
            April 2019                                            31,341,794
            August 2019                                           31,602,128
            November 2019                                         31,827,129
            Februar 2020                                          31,611,299
            April 2020                                            31,482,103
            Oktober 2020                                          31,712,669

         Tabelle 2: Anzahl der Zeitschriftenartikel in Unpaywall Snapshots

Für die Analyse des Datenschemas in Kapitel 5.5 wurde ein zufälliges Sample
aus jedem Snapshot extrahiert. Anhand der erhaltenen JSON-Struktur wurde die
Datenstruktur älterer Unpaywall Dumps rekonstruiert. Grund dafür ist, dass auf der
offiziellen Webseite Unpaywalls nur auf das aktuell genutzte Datenschema verwiesen
wird90 . Veränderungen am Datenschema werden dabei selten dokumentiert und
kommentiert.

 87
    https://github.com/naustica/BA
 88
    https://pypi.org/project/google-cloud-bigquery/
 89
    z.B. Gargouri u. a. 2012; Archambault u. a. 2014; Piwowar, Priem, Larivière u. a. 2018.
 90
    https://unpaywall.org/data-format

                                                                                              14
5 Ergebnisse

Dieses Kapitel enthält die Ergebnisse der durchgeführten Datenerhebung91

5.1     Verbreitung von Open Access im Publikationsaufkommen
Nachfolgend wird der OA-Anteil an Zeitschriftenartikeln in den vorliegenden Snap-
shots für die Publikationsjahre 2008 bis 2018 untersucht (siehe Abbildung 2). Dabei
kann ein gleichmäßiger Anstieg von OA-Veröffentlichungen im Publikationsaufkom-
men zwischen den verschiedenen Snapshots beobachtet werden. Im März 2018 Snaps-
hot beläuft sich hierbei der Gesamtanteil von OA-Publikationen auf knapp 32%.
Dieser Anteil wächst zum Juni 2018 um 4%. Im darauf folgenden Jahr werden im
August 2019 Snapshot etwa 39% gemessen. Im November 2019 Snapshot steigt der
Anteil von OA im Publikationsaufkommen erstmals auf über 40% (42,63%). Der
aktuelle Snapshot von Oktober 2020 misst 43,44%.

Abbildung 2: Verbreitung von Open Access im Publikationsaufkommen in Unpaywall nach
Snapshots

 91
    Die Resultate aus den Kapiteln 5.1, 5.2, 5.3 und 5.5 decken sich zum Teil mit den Ergebnissen
aus dem vorangegangen Zeitschriftenartikel, dessen Datengrundlage die Snapshots von April 2018
bis April 2020 waren (vgl. Hobert, Haupka und Jahn 2021). Allerdings lässt sich die Datengrundlage
aufgrund des Erscheinens des Oktober 2020 Snapshots in dieser Arbeit neu bewerten.

                                                                                               15
5.2 Open Access-Varianten

5.2    Open Access-Varianten
Abbildung 3 zeigt für jeden Snapshot das Wachstum der vordefinierten OA-Typen,
gemessen an Zeitschriftenartikeln, verteilt auf die Publikationsjahre 2008 bis 2018.
Hierbei lassen sich deutliche Schwankungen bei der Identifikation von Gold OA
beobachten. Während im April 2019 Dump insgesamt 7% der Zeitschriftenartikel als
Gold OA erkannt werden, steigt dieser Wert im darauffolgenden Snapshot erheblich
an (auf 31%). Im aktuellen Snapshot werden 38% der als OA klassifizierten Artikel
als Gold OA identifiziert. Der Anteil von Hybrid OA fällt hingegen im Laufe der
Jahre. Im ersten Snapshot von April 2019 werden 38% aller OA-Publikationen als
Hybrid OA erkannt. Dieser Wert fällt im August 2019 Snapshot auf 19%. Im Oktober
2020 sind lediglich 10% zu verzeichnen. Der Anteil von Green OA steigt im Verlaufe
der sechs Snapshots von 18% auf 22%. Der Wert für Bronze OA fällt von 37% auf
30%.

 Abbildung 3: Verbreitung und Entwicklung von Open Access-Varianten in Unpaywall

                                                                                 16
5.3 Open Access-Nachweise in Unpaywall

5.3       Open Access-Nachweise in Unpaywall
Unpaywall liefert nicht nur den OA-Status einer Ressource, sondern hält auch deren
Fundort fest. Die Klassifikation des Fundortes findet sich in dem Feld evidence. Grob
unterscheidet Unpaywall dabei zwischen den Werten oa repository (Identifizierung
eines OA-Volltextes auf einem Repositorium), oa journal (Identifizierung eines OA-
Volltextes in einer OA-Zeitschrift) und open (allgemeine Identifizierung eines OA-
Volltextes). Ferner wird das Verfahren dokumentiert, welches bei der Bestimmung
des OA-Status herangezogen worden ist. oa journal (via doaj) bedeutet etwa, dass
der Artikel in einer Zeitschrift, die im DOAJ gelistet ist, publiziert ist. oa repository
(via pmcid lookup) würde bedeuten, dass der gesuchte Artikel im Index von PubMed
Central indexiert ist.

In Abbildung 4 sind alle bisher verwendeten Evidenztypen aufgelistet. Das Vorkom-
men eines Evidenztyps in einem Snapshot wird hierbei durch einen blauen Balken
repräsentiert. Die Länge eines Balken soll die Zeit in Monaten darstellen, in der
kein neuer Snapshot veröffentlicht wurde. Insgesamt existieren seit März 2018 29
verschiedene Evidenztypen. Während acht Evidenztypen mit dem Erscheinen des
Septemeber 2018 Snapshots entfernt wurden, wurden im Verlauf der drei Jahre sieben
neue Evidenztypen eingeführt (und teilweise wieder exkludiert). Auffällig ist die
Verwendung von DataCite92 sowie der Bielefeld Academic Search Engine (BASE)93
zur OA-Bestimmung in den ersten drei vorliegenden Snapshots. Diese Evidenztypen
finden sich ab September 2018 nicht mehr in den Unpaywall Snapshots. Darüber
hinaus wurden die Evidenztypen open, oa journal (via journal title in doaj) sowie
open (via cc license) entfernt. Mit Einführung des April 2019 Snapshots wird der
Evidenztyp hybrid genutzt. Außerdem wird seit November 2019 die Suchmaschine
Semantic Scholar zur Identifizierung von OA-Resourcen verwendet. Mit oa journal
(via manual setting) und oa journal (via observed oa rate) werden zudem seit August
2019 zwei weitere Verfahren genutzt, die eine OA-Klassifizierung von OA-Journalen
ermöglichen. Allerdings wird ersteres nur sporadisch in zwei Snapshots verwendet.

In Abbildung 5 ist zu erkennen, dass ein Großteil der OA-Publikationen über Re-
positorien identifiziert wird (44%). Über OAI-PMH, ein weit verbreitetes Protokoll
zum Austausch von Metadaten auf Dokumentenservern, werden dabei insgesamt
26% der OA-Artikel erkannt. 19% aller OA-Texte werden über ein frei erhältliches
PDF ausgemacht. In 14% aller Artikel fand eine OA-Ermittlung über das DOAJ
statt. Diese Werte gelten jeweils Snapshot-übergreifend. Auf Mikroebene, also bei
der Betrachtung einzelner Snapshots im Bezug auf das Publikationsvolumen pro
Evidenztyp, wurden im November 2019 der höchste Wert bei der Ermittlung von
 92
      https://datacite.org
 93
      https://www.base-search.net

                                                                                      17
5.3 Open Access-Nachweise in Unpaywall

OA-Versionen über Semantic Scholar gemessen (2,4%). Darauf folgt oa repository
(via OAI-PMH doi match) im Oktober 2020 Snapshot mit 2,1%. Einen konstanten
Wert erreicht open (via free pdf ), dessen Prozentzahl über mehrere Snapshots hinweg
gleich bleibt (etwa 1,9%).

         Abbildung 4: Verbreitung von Evidenztypen in Unpaywall-Snapshots

                                                                                 18
5.4 Verbreitung und Entwicklung von Repositorien und Verlagsangeboten

Abbildung 5: Anzahl der Zeitschriftenartikel für die Publikationsjahre 2008-2018 nach
Evidenztypen in Unpaywall Snapshots

5.4    Verbreitung und Entwicklung von Repositorien und Ver-
       lagsangeboten
Identifiziert Unpaywall einen OA-Volltext auf einem Repositorium oder auf der
Webseite eines Verlages wird ein Vermerk im entsprechenden Datensatz erstellt. Diese
Information ist im Feld host_type hinterlegt und kann den Wert repository oder
publisher annehmen. Unpaywall speichert sämtliche aufgefundenen OA-Volltexte
einer Ressource, wodurch sich die Verbreitung sowie die Überschneidung dieser
Angebote und Dienste messen lassen. Ferner lässt sich damit die Verbreitung von
Green OA, also der Veröffentlichung auf institutionellen und fachlichen Repositorien,
taxieren, deren Verteilung sich durch die Vergabe von exklusiven OA-Typen in
Unpaywall nur umständlich bestimmen lässt. Abbildung 6 zeigt die Entwicklung
sowie die Verbreitung von Repositorien und Verlagsangeboten im Verlauf von drei
Jahren und über zehn Snapshots hinweg. Deutlich erkennbar in der Abbildung ist das
erhöhte Publikationsaufkommen auf Seiten von Verlagen. So werden über 78% der

                                                                                  19
5.4 Verbreitung und Entwicklung von Repositorien und Verlagsangeboten

OA-Zeitschriftenartikel im März 2018 Snapshot von Verlagen angeboten (dabei 49%
ausschließlich von Verlagen). Lediglich knapp 21% der Publikationen sind exklusiv
auf Repositorien erhältlich. Dieser Trend lässt sich bis zum Snapshot von August 2019
verfolgen. Seit dem November 2019 Snapshot nimmt der Anteil von Publikationen
auf Repositorien zu. 27% der ermittelten OA-Volltexte sind demnach exklusiv auf
Repositorien erhältlich. Der Anteil von Publikationen, die sowohl über Verlage als
auch auf Repositorien verfügbar sind, ist auf fast 39% gestiegen. Insgesamt misst
das erfasste Publikationsaufkommen von OA-Zeitschriftenartikeln auf Repositorien
im November 2019 Snapshot demnach 66%. Im aktuellen Snapshot von Oktober
2020 werden 41% der OA-Volltexte ausschließlich über Verlage angeboten. Zum
November 2019 Snapshot entspricht das einer Steigerung von etwa 6 Prozentpunkten.
Parallel sinkt im aktuellen Snapshot die Menge der Publikationen, die exklusiv auf
Repositorien erhältlich sind um 5 Prozentpunkte.

Abbildung 6: Verbreitung und Entwicklung von Repositorien und Verlagsangeboten in
Unpaywall

                                                                                  20
5.5 Datenschema

5.5    Datenschema
Unpaywall verwendet in seinen verschiedenen Serviceangeboten (REST API, Snap-
shots und Data Feed) ein analog aufgebautes Datenschema, womit eine übergreifende
und invariante Metadatenstruktur existiert. Für die Datenübertragung nutzt Unpay-
wall in der Regel das JSON-Format. Das Datenformat lässt sich in zwei Komponenten
aufteilen (DOI Object sowie OA Location Object). Das DOI Object enthält sämtliche
beschreibende Information zur einer DOI zugewiesenen Ressource (z.B. Titel, Autor
und OA-Status). Das OA Location Object enthält die zur Ressource relevanten Fund-
orte von jedem von Unpaywall aufgefunden OA-Volltext. Das Objekt kann somit
leer sein oder mehrere Fundorte enthalten. Existieren z.B. zu einer Publikation zwei
unterschiedliche Versionen, wobei die eine in einer OA-Zeitschrift und die andere in
einem Repositorium veröffentlicht wurde, registriert Unpaywall zwei verschiedene
Fundorte. Im Falle, dass Unpaywall keinen OA-Volltext zu einer Publikation findet,
würde das OA Location Object leer erscheinen.

Abbildung 7 zeigt das von Unpaywall verwendete Metadatenschema im Verlauf von
drei Jahren. Insgesamt kann zwischen 35 verschiedenen Metadatenfeldern differenziert
werden. Der aktuelle Snapshot von Oktober 2020 beinhaltet die höchste Anzahl an
deskriptiven Metaelementen (34). Die Snapshots von Juni 2018 und September 2018
enthalten mit 26 Feldern die geringste Anzahl an Elementen. Seit dem April 2018
Snapshot wurden acht neue Felder in das Datenschema integriert.

Das Datenfeld x_reported_noncompliant_copies wurde mit dem Erscheinen des Juni
2018 Snapshots entfernt. Obwohl zu diesem Feld keine Beschreibung von Seiten der
Entwickler existiert, kann angenommen werden, dass damit die Anzahl der Textver-
sionen pro DOI gemeint ist, die in einem nicht OA-konformen Format erhältlich ist.
Zum Beispiel können Verlage oder einzelne Zeitschriften keine Optionen zu einer
OA-Veröffentlichung anbieten oder verbieten explizit die Selbstarchivierung einer
Publikation. Werden demnach frei verfügbare Volltexte gefunden, werden diese nicht
konformen Versionen gezählt und tauchen in dem genannten Feld auf.

Die Objekte best_oa_location und first_oa_location enthalten jeweils eine exakte
Kopie eines OA-Fundortes aus dem OA Location object. Ein ausgewählter OA-Fundort,
welcher nach den Kriterien von Unpaywall als „best“ eingestuft wird, findet sich in dem
Objekt best_oa_location wieder. Unpaywall verwendet dabei einen deterministischen
Algorithmus, welcher Verlagsangebote vor Versionen auf Repositorien priorisiert. Mit
diesem Verfahren möchte Unpaywall die aktuellste und zuverlässigste Version einer
Publikation hervorheben.

                                                                                    21
5.5 Datenschema

Die Vorgehensweise zur Bestimmung der is_best-Version eines Textes ist dabei wie
folgt94 :

   1. host_type: „publisher“ ist besser als „repository“.
   2. version: „publishedVersion“ ist besser als „acceptedVersion“, was wiederum
      besser ist als „submittedVersion“.
   3. url_for_pdf : Ein Fundort mit einem Link zu einem frei verfügbaren PDF ist
      besser als ohne.
   4. Für repository locations, evidence: Ein Dokument auf einem Repsoitorium,
      welches über eine DOI zugeordnet wird, ist besser als eines, das über einen
      Titel gefunden wird.
   5. Ranking von Repositorien: Bedeutende Repositorien wie PubMed Central und
      arXiv werden bevorzugt behandelt.

Das Objekt first_oa_location enthält den OA-Fundort mit der frühsten Veröffentli-
chung einer OA-Ressource. Unpaywall bestimmt den Zeitpunkt der Veröffentlichung
einer Ressource auf Repositorien und Verlagsangeboten unterschiedlich. Wird z.B.
ein Artikel als Gold OA identifiziert, wird das Datum der Erstveröffentlichung für
das Feld oa_date übernommen. Das Datum der OA-Veröffentlichung eines Textes
auf einem Repositorium kann unter anderem über OAI-PMH ermittelt werden. Al-
lerdings kann dieses Datum vom eigentlichen Erscheinungsdatum abweichen, da die
Möglichkeit besteht, dass die Ressource in der Zwischenzeit modifiziert wurde.

Seit der Einführung des Feldes oa_status im April 2019 ist es möglich, den OA-Typen
einer Publikation abzufragen. Das Feld kann dabei die Werte gold, hybrid, bronze,
green und closed annehmen. Die Kategorisierung erfolgt dabei exklusiv und basiert auf
dem OA-Typ der als is_best klassifizierten Textversion. Weiterhin existiert seit dem
Februar 2020 Snapshot das Feld is_paratext. Damit wird die Identifikation von Para-
texten unterstützt, worauf in Kapitel 5.8 näher eingegangen wird. Zusätzlich wurden
mit dem Snapshot von August 2019 und November 2019 die Felder repository_insti-
tution und has_repository_copy ergänzt. Diese erweitern den Informationsgehalt für
Publikationen auf Repositorien und damit die Analysemöglichkeiten von Green OA.

 94
    Frei übersetzt nach https://support.unpaywall.org/support/solutions/articles/44001
943223-how-is-the-best-oa-location-determined-

                                                                                   22
5.5 Datenschema

Abbildung 7: Metadatenschema von Unpaywall seit 2018

                                                             23
5.6 Metadatenaktualisierungen

5.6    Metadatenaktualisierungen
Sobald ein Datensatz einer Ressource in Unpaywall verändert wird, nimmt das Feld
updated das Datum der Aktualisierung an. Mögliche Gründe für eine Aktualisierung
können zum Beispiel die Übernahme von modifizierten Metadaten aus Crossref,
verbesserte Methoden in der von Unpaywall angewandten OA-Identifizierung oder
das unvermittelte Fehlen von OA-Publikation auf Verlagsseiten oder Repositorien
sein. Zusätzlich können auch neu hinzugekommene Fundorte und DOIs das Feld
beeinflussen.

Abbildung 8 zeigt die von Unpaywall durchgeführten Updates von 2017 bis 2020
anhand der vorliegenden untersuchten Snapshots. Für das Jahr 2017 kann bis auf den
März 2018 Snapshot eine gleichbleibende Tendenz festgestellt werden. So existiert
ein beständiger Datensatz von Juni 2018 (3806 Ressourcen) bis November 2019 (2712
Ressourcen), welcher mit keinen Metadatenupdates versorgt wird. Für das Jahr 2018
kann aus den Snapshots für März 2018 (27,464,590 Ressourcen) bis Februar 2019
(29,840,169 Ressourcen) ein ähnliches Kontingent an nicht aktualisierten Datensätzen
attestiert werden. Dieser Wert sinkt mit dem August 2019 Snapshot auf 23,103,497.
Im April 2020 Snapshot sind erstmalig keine von 2018 aktualisierten Datensätze mehr
enthalten. Eine ähnliche Entwicklung kann für das Jahr 2019 beobachtet werden.
Während im August 2019 Snapshot noch 8,487,985 Datensätze aus 2019 stammen,
sind im aktuellen Snapshot von Oktober 2020 nur noch 45 Ressourcen zu zählen.
Datensätze, die in 2020 aktualisiert oder entstanden sind, finden sich in den Snapshots
von Februar 2020, April 2020 und Oktober 2020. Bemerkenswert ist ein Schwund
von in 2020 aktualisierten Datensätzen vom Februar 2020 Snapshot (31,609,142
Ressourcen) zu dessen nachfolgenden von April 2020 (31,482,063 Ressourcen). Insge-
samt finden sich 127,079 Ressourcen weniger im Snapshot von April. Der Oktober
2020 Snapshot enthält derweil insgesamt 31,712,624 Datensätze, die 2020 modifiziert
worden sind.

Abbildung 9 stellt die Anzahl der Metadatenaktualisierungen von Zeitschriftenartikeln
nach Monaten für die Snapshots März 2018 bis Oktober 2020 dar. Dabei kann
festgestellt werden, dass der Großteil der Aktualisierungen in den Snapshots von
März 2018, Juni 2018 sowie Februar 2020 nicht älter als ein Monat ist. Diese
Beobachtung ist vor allem interessant im Hinblick auf den März und Juni 2018
Snapshot, da hier die Dumps nur vier Monate auseinander liegen. Die Snapshots von
September 2018, April 2020 und Oktober 2020 weisen jeweils einen großen Anteil von
Publikationensmetadaten auf, die innerhalb der letzten drei Monate seit Erscheinen
des Dumps aktualisiert worden sind. Wesentlich ältere Metadaten finden sich in den
Snapshots von Februar 2019, April 2019, August 2019 und November 2019. Hier

                                                                                    24
Sie können auch lesen