Big Scholarly Data im Open Access Monitor: ein Werkstattbericht

 
WEITER LESEN
Big Scholarly Data im Open Access Monitor: ein Werkstattbericht
F. Stanzel, I. Barbers, P. Pollack, B. Lindstrot
LIBREAS. Library Ideas, 41 (2022). https://doi.org/10.18452/24797                           1

     Big Scholarly Data im Open Access Monitor: ein
                    Werkstattbericht
         Franziska Stanzel            Irene Barbers             Philipp Pollack
                                   Barbara Lindstrot

     Zusammenfassung: Im Zusammenhang mit der Open-Access-Transformation rückt
     die Auswertung großer Datenmengen immer mehr in den Fokus von Bibliotheken,
     da die Anzahl der wissenschaftlichen Publikationen beständig ansteigt. Diese ste-
     tig anwachsende Datenmenge muss zuerst nutzbar gemacht werden, bevor fundier-
     te Aussagen beispielsweise zu einrichtungsbezogenen Publikationsoutputs möglich
     sind. Hier setzt der Open Access Monitor (OAM) an, welcher als Schnittstelle zur Zu-
     sammenführung diverser Quellsysteme wie Unpaywall, Dimensions, Web of Science
     und Scopus fungiert. Dazu ist der OAM strukturell dreigeteilt: Die Daten befinden
     sich in der Datenbank (Backend), welche über die REST-Schnittstelle (API) abgefragt
     oder über die Weboberfläche (Frontend) präsentiert und visualisiert werden können.
        Durch die Nachnutzung einer Vielzahl an Quellsystemen müssen die Daten homo-
     genisiert werden, um vollständige Datenbestände ohne Dubletten zu realisieren. Da-
     für müssen Zeitschriftentitel oder Einrichtungsbezeichnungen vereinheitlicht wer-
     den, um die ursprünglichen Einträge aus den Quellsysteme den entsprechenden Da-
     tensätzen im OAM zuordnen zu können. Im Falle der Einrichtungsnamen werden
     diese mit persistenten Identifikatoren (PID) angereichert. Für die Daten von man-
     chen Datenbanken können die dort hinterlegten Einrichtungsnormierungen nicht di-
     rekt auf Organisations-Identifier (ROR-IDs) gemappt werden, weshalb der Umweg
     über die Rohformen der Affiliationsangaben der Autor*innen gewählt wird.
        Dieses Mapping der Affiliationsangaben ist eine umfangreiche und komplexe Auf-
     gabe, da zum einen die gelieferten Angaben häufig nicht eindeutig sind und zum an-
     deren eine klare Trennung der Einrichtungen, insbesondere bei Universitätskliniken,
     eine intellektuelle Bearbeitung erfordert. Der hochkomplexe Vorgang, aus einer Viel-
     zahl an Datenquellen einen einheitlichen Datensatz zu generieren, wird im Beitrag
     aufgezeigt, wobei ein besonderer Schwerpunkt auf die Normierungsprozesse sowie
     die Vergabe der Open-Access-Kategorien gelegt wird.
        Die Metadatenqualität bleibt eine beständige Herausforderung, gleiches gilt für
     das Thema der Verfügbarkeit und Nachhaltigkeit der angebundenen Quellsysteme.
     Die Anbindung offener Datenquelle wäre wünschenswert – es entspräche den Zie-
     len der uneingeschränkten (Nach-)Nutzbarkeit der OAM-Daten. Ob beispielsweise
     OpenAlex als nicht-kommerzielle Datenbank als weiteres Quellsystem für den OAM
     in Frage kommt, wird abschließend diskutiert.

cb Creative Commons BY 4.0                                                    ISSN: 1860-7950
F. Stanzel, I. Barbers, P. Pollack, B. Lindstrot
LIBREAS. Library Ideas, 41 (2022). https://doi.org/10.18452/24797                                2

     Abstract: In the light of the Open Access transformation, the analysis of large amounts
     of data is increasingly important for libraries, whereas the number of scholarly pu-
     blications is constantly growing. Large amounts of data must first be made usable
     before any substantiated analysis can be made, e.g. regarding institution-related pu-
     blication outputs. This is where the Open Access Monitor (OAM) comes in, which
     acts as an interface for merging data from various source systems such as Unpaywall,
     Dimensions, Web of Science and Scopus. For this purpose, the OAM is structurally
     divided into three parts: the backend hosts the data, which can be queried via the
     API, and is presented and visualized in the frontend.
        All data, coming from various source systems, must be homogenized in order to
     realize complete data sets without creating duplicates. Journal titles or institution na-
     mes have to be standardized to allow assigning the original entries from the source
     systems to the corresponding data records in the OAM. In the case of institution na-
     mes, these are enriched with persistent identifiers. Given the way the data is organi-
     zed in some of the source databases, the institution names cannot be mapped directly
     to organization identifiers (ROR-IDs) in some cases. Therefore, the raw forms of the
     author’s affiliation information are used in the mapping process.
        Affiliation mapping is an extensive and complex task, since the data provided are
     often ambiguous and at the same time a clear distinction of institutions, especially in
     the case of university hospitals, requires intellectual processing. The highly complex
     process of generating a uniform data set from a multitude of data sources will be
     demonstrated, with a special focus on the normalization processes as well as the
     assignment of Open Access categories.
        Metadata quality remains a constant challenge, as does the issue of availability
     and sustainability of the connected source systems. The use and integration of open
     data sources is generally desirable – it would be in line with the OAM’s goal of unre-
     stricted (re-) usability of the OAM data. The pros and cons of using non-commercial
     databases are discussed using OpenAlex as an example.

Einleitung

Big Data ist in den vergangenen Jahren zu einem allgegenwärtigen Begriff geworden und ist in
vielen Wissenschaftsbereichen als Anwendung präsent. Mit der Metapher, wonach Daten das
neue Öl sind, wird Daten als neues Treibmittel der digitalen Revolution eine ähnliche Rolle zu-
gesprochen, wie es einst das Öl für das Fortschreiten der Industrialisierung war (Hirsch 2014).
Öl ist die Grundlage vieler verarbeiteter Produkte wie Kunststoffe, chemischer Verbindungen
oder Antriebsmittel zur Fortbewegung. Analog dazu kann Big Data in aufbereiteter Form eben-
falls zu vielen Produkten verarbeitet werden wie Steuerungsoptimierungen, Modellrechnungen
oder Kundenprofilen (Manyika et al. 2011; Günther et al. 2017). Der Vergleich lässt sich wei-
terführen mit der Überlegung, dass die reine Existenz von Daten noch nicht ausreichend ist,
sondern dass diese stetig anwachsenden Datenmengen nutzbar gemacht werden müssen (No-
lin 2019; Couldry und Jun Yu 2018). So kommt Öl in der Erdkruste nicht ubiquitär vor, sondern
muss als erstes lokalisiert, anschließend gefördert und schließlich durch Raffinationsprozesse
aufbereitet werden. Ähnlich verhält es sich mit Daten. Ohne ihren jeweiligen Kontext können sie

cb Creative Commons BY 4.0                                                        ISSN: 1860-7950
F. Stanzel, I. Barbers, P. Pollack, B. Lindstrot
 LIBREAS. Library Ideas, 41 (2022). https://doi.org/10.18452/24797                                         3

 schnell an Bedeutung verlieren. Dementsprechend komplex kann das Auffinden der gewünsch-
 ten Datenmenge sein, wie es auch bei der Suche nach Öl der Fall ist (Kharlamov et al. 2018; Hey
 et al. 2009).
 Die Anzahl der in Publikationsdatenbanken nachgewiesenen Veröffentlichungen steigt bestän-
 dig und für Bibliotheken spielt die Auswertung großer Datenmengen eine immer wichtigere
 Rolle. So werden beispielsweise in der Datenbank Dimensions für das Jahr 2000 circa 90.000 Pu-
 blikationen mit mindestens einer deutschen Affiliation nachgewiesen, während es im Jahr 2020
 bereits 236.000 sind. Der Gesamtdatenbestand der Datenbank erreicht derzeit 126 Millionen Pu-
 blikationen.1 Im Gebiet der Informationsbereitstellung stellt sich bei dieser großen Datenmenge
 für Nutzende zunächst das Problem der Auffindbarkeit einzelner Informationen. Bei der Bereit-
 stellung von Publikationsdienstleistungen und auch bei der Unterstützung der Open-Access-
 Transformation ist zudem die Schaffung einer Datengrundlage vonnöten. Diese Datengrundla-
 ge muss zusammengetragen sowie auswertbar gemacht werden und außerdem so aufbereitet
 sein, dass daraus Informationen gewonnen werden können, die der Unterstützung des Wissen-
 schaftsmanagements dienen.
 Zur Erhebung des Publikationsaufkommens wissenschaftlicher Einrichtungen gibt es mehrere
 in Frage kommende Datenbanken wie Web of Science, Scopus, Dimensions oder institutionelle
 Repositorien. Diese Datenbanken nutzen nur zum Teil offene persistente Identifikatoren (PID)
 für Organisationen. Zusätzlich kann keine der genannten kommerziellen Datenbanken das In-
 dexieren aller erschienen Veröffentlichungen garantieren. Insbesondere wird in Web of Science
 und in Scopus durch Kurationsprozesse eine Selektion der zu indexierenden Quellen vorgenom-
 men.
 Deshalb bedarf es geeigneter Suchstrategien, um an die gewünschten Daten zu gelangen. Hier-
 für werden optimalerweise mehrere Datenbestände mit einbezogen, vorausgesetzt die entspre-
 chenden Datenbanken sind lizenziert. Nach dieser Förderung der Rohdaten ist häufig noch ei-
 ne händische Nacharbeit nötig, um die erhaltenen Daten zu vereinheitlichen und Dubletten zu
 vermeiden. Dies könnte als der Raffinationsprozess der Daten bezeichnet werden, auf welcher
 Grundlage im Anschluss die erforderlichen Auswertungen vorgenommen werden können. Das
 Monitoring des eigenen Publikationsoutputs stellt also einen beachtlichen Aufwand für eine
 einzelne Einrichtung dar und ist mit vorhandenen Ressourcen oftmals nicht zu leisten.
 Ein Monitoring auf nationaler Ebene, wie es beispielsweise für nationale Transformationsverträ-
 ge oder für Evaluationen von Förderprogrammen erforderlich ist, bedeutet sogar ein Vielfaches
 an Arbeit. Es existieren mehrere Möglichkeiten, an die benötigten Daten zu gelangen. So können
 zum einen die Daten von den einzelnen Einrichtungen erhoben und zentral zusammengeführt
 werden. Voraussetzung hierfür wäre, dass die entsprechenden Daten den einzelnen Einrichtun-
 gen vorliegen, was jedoch, wie bereits beschrieben, häufig nicht in ausreichendem Maße der Fall
 ist. Zudem muss bei einem solchen Verfahren ein Großteil der Zusammenstellung und Auswer-
 tung in manueller Arbeit erledigt werden, was zum einen große Ressourcen bindet und sich
 zum anderen nachteilig auf die Reproduzierbarkeit auswirkt. Als wesentlich ökonomischere
 und nachhaltigere Variante der Datenakquise können bereits existierende Quellen im größtmög-
 lichen Umfang nachgenutzt sowie dabei einheitliche Definitionen und Algorithmen verwendet
 werden. Dieses Prinzip verfolgt der Open Access Monitor (OAM), der so als Schnittstelle zur

1 Zeitreihe
         für Publikationen mit Country/Territory „Germany“: https://app.dimensions.ai/analytics/publication/
 overview/timeline?or_facet_research_org_country=DE&year_from=2000&year_to=2022 Abgerufen am 10.03.2022.

 cb Creative Commons BY 4.0                                                               ISSN: 1860-7950
F. Stanzel, I. Barbers, P. Pollack, B. Lindstrot
 LIBREAS. Library Ideas, 41 (2022). https://doi.org/10.18452/24797                                   4

 Zusammenführung mehrerer Quellsysteme fungiert. Dadurch wird das kontinuierliche Moni-
 toring auf nationaler Ebene ermöglicht und bietet damit die Grundlage zu faktenbasierten Ent-
 scheidungen und Handlungen.

 Die Struktur des OAM

 Der OAM ist strukturell dreigeteilt in Backend, API und Frontend. Die aufbereiteten Daten selbst
 liegen in einer Datenbank im Backend und können über die API oder das Frontend abgefragt
 werden. Die folgenden Abschnitte sollen einen kurzen Überblick über die jeweiligen Bestand-
 teile geben.

 Backend

 Im Backend läuft eine MongoDB-Instanz als Datenbankmanagementsystem, welche alle benö-
 tigten Daten für den OAM bereitstellt. Bei einer MongoDB handelt es sich um eine dokumenten-
 orientierte NoSQL-Datenbank. Diese ist auf große Datenmengen, wie bereits im vom englischen
 ‚humongous‘ (gigantisch) abgeleiteten Namen enthalten, und auf konkurrierenden Zugriff aus-
 gelegt. Des Weiteren kann die Datenbank über mehrere Server skaliert oder in mehrere Teile,
 sogenannte Collections, zerlegt werden. Auf diese Weise können Abfragen parallel ausgeführt
 und die Verfügbarkeit erhöht werden (Bradshaw et al. 2019).
 Zur Übersichtlichkeit sind die Daten je nach Art auf verschiedene Collections aufgeteilt, diese
 sind in Tabelle 1 aufgelistet.2 Die Daten des OAM sind nicht wie bei SQL-orientierten Daten-
 banken als Tabellen mit Relationen gespeichert, sondern werden als JSON-Dokumente abge-
 legt. Dabei muss kein festgelegtes Schema für die Daten eingehalten werden und somit existie-
 ren auch keine Pflichtfelder. Diese Dokumente können beliebig tief verschachtelt werden, die
 Normalformen einer relationalen Datenbank finden keine Anwendung. Die dabei auftretenden
 Redundanzen werden bewusst in Kauf genommen, um eine schnellere Abfragezeit zu erzielen.
 Die Abfrage-Performance kann durch eine Indexierung weiter erhöht werden, da somit nicht
 mehr alle Dokumente, sondern nur noch die Indizes durchsucht werden müssen (Bradshaw et
 al. 2019).
 Die Daten können über die umfangreiche Abfragesprache der MongoDB abgerufen oder auch
 aggregiert werden. Da die Datenbank allerdings nicht über das Internet erreichbar ist, bildet die
 API eine Schnittstelle, um Abfragen an die Datenbank zu stellen.

 API

 Der OAM besitzt als technische Schnittstelle eine REST-API (Representational State Transfer),3
 welche auf HTTP-basierten Standards beruht und mit deren Hilfe die Daten des OAM abgefragt

2 Detaillierte
             Informationen über den Aufbau der Collections sind zu finden unter:
  https://jugit.fz-juelich.de/synoa/oam-dokumentation/-/wikis/Open%20Access%20Monitor/Datenbankschema.
  Abgerufen am 17.03.2022.
3 API des OAM: https://api.open-access-monitor.de. Abgerufen am 17.03.2022.

 cb Creative Commons BY 4.0                                                          ISSN: 1860-7950
F. Stanzel, I. Barbers, P. Pollack, B. Lindstrot
 LIBREAS. Library Ideas, 41 (2022). https://doi.org/10.18452/24797                                              5

           Collection             Beschreibung
           Publications           Publikationsdaten inkl. Zitationszahlen
           PublicationCosts       Publikationskosten
           Journals               Alle Zeitschriften des OAM
           Publishers             Alle Verlage des OAM
           Organisations          Alle Einrichtungen des OAM
           Statistics             Statistische Zahlen zu den Daten (zuletzt aktualisiert, . . . )
           SubscriptionCosts      Zukünftig: Aggregierte Subskriptionskosten

                                Tabelle 1: Übersicht über die Collections

 werden können. Analog zur MongoDB nutzt auch die API JSON-Dokumente zur Kommunika-
 tion; eine Übersicht der wichtigsten Endpunkte zeigt Tabelle 2.4

    Endpunkt                                   Beschreibung
    /Data                                      Abfrage der verfügbaren Datenbanken.
    /Data/{database}                           Collections einer Datenbank abfragen.
    /Data/{database}?query={query}             Abfrage in einer Datenbank ausführen. Die Abfrage
                                               muss als MongoDB Command5 formuliert werden.

                                Tabelle 2: Die wichtigsten API Endpunkte

 Frontend

 Um die Daten des OAM einem breiten Kreis von Nutzenden zugänglich zu machen, gibt es
 ein Frontend. Dieses ist mittels der Open-Source-Entwicklungsplattform ASP.NET6 umgesetzt,
 wobei Blazor7 als Framework dient.
 Um die große Datenmenge möglichst übersichtlich zu präsentieren, ist die Website in mehrere
 Unterkategorien aufgeteilt. Über die Auswahl auf der linken Seite können die Bereiche der Pu-
 blikationsanalyse, der Kostenanalyse, der Zitationsanalyse und der Dokumentation aufgerufen
 werden. Die letzten Menüpunkte in der Navigationsleiste verweisen zur Dokumentation und
 bieten Links auf die Wiki-Seiten, wo zusätzliche Informationen zu den Quelldatenbanken, zur
 API oder als FAQ gefunden werden können.
 Die Aufteilung in die drei Auswertungsschwerpunkte Publikations-, Kosten- und Zitationsana-
 lyse dient dazu, die verschiedenen Datenbereiche voneinander getrennt zur Verfügung zu stel-
 len. Wird bei Publikationsanalyse der Menüpunkt Publikationen ausgewählt, erhält man eine
 Seite mit vielen Filtermöglichkeiten, wie in Abbildung 1 dargestellt.

4 Eine Übersicht aller Endpunkte ist unter https://open-access-monitor.de/api/swagger zu finden. Abgerufen am
  17.03.2022.
5 MongoDB-Commands: https://docs.mongodb.com/manual/reference/command/. Abgerufen am 17.03.2022.
6 ASP.NET: https://docs.microsoft.com/en-us/aspnet/core/. Abgerufen am 17.03.2022.
7 Blazor: https://dotnet.microsoft.com/apps/aspnet/web-apps/blazor. Abgerufen am 17.03.2022.

 cb Creative Commons BY 4.0                                                                  ISSN: 1860-7950
F. Stanzel, I. Barbers, P. Pollack, B. Lindstrot
 LIBREAS. Library Ideas, 41 (2022). https://doi.org/10.18452/24797                                               6

 Abbildung 1: Filtermöglichkeiten für die Publikationsanalyse sowie die Gruppierungsoptionen

 Diese Filter ermöglichen es den Nutzenden, diejenigen Daten zu selektieren, welche für ihre
 Fragestellungen relevant sind und die restlichen Daten ausblenden zu können. Dafür gibt es Fil-
 ter für die Umstellung der Datenquelle, die Auswahl des Landes und für Web of Science sowie
 Scopus die Limitierung auf Publikationen mit ‚Corresponding Author‘. Ferner ist eine Selekti-
 on nach Bundesland, Einrichtungen, Verlagen, Zeitschriften und Open Access (OA)-Modellen
 möglich, wobei die Namensangaben jeweils normiert sind. Die Auswahlmöglichkeit für OA-
 Kategorien erstreckt sich über die Ebene der Verlage, von Zeitschriften und schließlich auf die
 Artikelebene.8 Zusätzlich können über den Filter „Transformationsverträge“ die Artikel aus den
 Zeitschriften einzelner Transformationsverträge angezeigt werden, die in Deutschland auf na-
 tionaler Ebene bestehen. Eine weitere Einschränkung ist über das Veröffentlichungsdatum mög-
 lich, welches auch unterjährige Auswertungen unterstützt.
 Mit all diesen Filtern ist es möglich, die Treffermenge der gefundenen Artikel einzuschränken.
 Die Anzeige der ausgewählten Datenbankeinträge kann über die Gruppierungsoptionen weiter
 an die individuellen Bedürfnisse angepasst werden. So ist eine Gruppierung nach Einrichtung,
 Bundesland, Verlag, Zeitschrift, Jahr und OA-Kategorie sowie die nicht-gruppierte Ansicht der
 Artikel inklusive DOI (digital object identifier) auswählbar.
 Um die Zugänglichkeit zum Suchergebnis weiter zu erhöhen, gibt es neben der tabellarischen
 Auflistung zusätzlich die grafische Darstellung als Balken-, Linien- oder Kreisdiagramm. Diese
 Graphen können als PNG-Bilddateien heruntergeladen werden; ebenso stehen die Daten aus
 der jeweils darüber abgebildeten Tabelle als CSV-Datei zur Verfügung.

8 Filter   für OA-Kategorien:
      – Verlag Publikationsmodell: Closed/Hybrid bzw. Gold
      – Zeitschrift Publikationsmodell: Closed/Hybrid, Gold oder Diamond
      – OA-Status Publikation: Closed, Bronze, Green (submitted), Green (accepted), Green (published), Hybrid,
        Gold, Diamond

 cb Creative Commons BY 4.0                                                                    ISSN: 1860-7950
F. Stanzel, I. Barbers, P. Pollack, B. Lindstrot
 LIBREAS. Library Ideas, 41 (2022). https://doi.org/10.18452/24797                                      7

 Die Daten des OAM

 Im Folgenden wird der Workflow von den gesammelten Rohdaten zur einheitlichen Datenba-
 sis beschrieben. Dazu werden zunächst die verwendeten Quellsysteme des OAM vorgestellt.
 Um daraus einen homogenen Datenbestand zu erhalten, sind Normierungsprozesse notwen-
 dig. Diese werden im Anschluss exemplarisch gezeigt, wobei ein besonderer Schwerpunkt auf
 die Einrichtungsnormierung gelegt wird. Die so erhaltenen homogenen Daten können anschlie-
 ßend als aufbereiteter Gesamtdatenbestand zusammengefügt und die OA-Kategorien vergeben
 werden.
 Grundsätzlich ist anzumerken, dass im OAM ausschließlich Publikationen verzeichnet werden,
 für die ein DOI bei Crossref registriert wurde; entsprechend werden Publikationen ohne DOI
 ebenso wenig berücksichtigt wie Publikationen, für die DOIs bei anderen Agenturen registriert
 wurden. Das Vorliegen von DOIs ist essentiell für die Deduplizierung und die Identifikation des
 OA-Status.

 Quellsysteme

 Die für den OAM verwendeten Quellsysteme sind in Abbildung 2 dargestellt und werden hier
 im Folgenden eingehender besprochen. Der Datenbestand von Unpaywall9 ist Ausgangsbasis
 und primäre Datenquelle des OAM. Von dort kommen Publikationsmetadaten wie DOI, Zeit-
 schriftentitel und Verlag der jeweiligen Publikationen. Für die Zuordnung der OA-Kategorien
 wird ebenfalls Unpaywall verwendet sowie das Directory of Open Access Journals (DOAJ)10
 für die OA-Kategorie von Zeitschriften. Unpaywall ist eine Datenbank mit über 30 Millionen
 wissenschaftlichen OA-Artikeln, wobei diese ebenfalls aus weiteren Datenbanken wie Crossref
 und PubMed gespeist wird. Zusätzlich wird der Inhalt von über 50.000 OA-Repositorien direkt
 eingesammelt. Der gesamte Datenbestand von Unpaywall weist über 120 Millionen Datensätze
 nach.11 Zentral für die Nutzung ist die Vergabe eines DOI für einzelnen Artikel (Dhakal 2019).
 Das DOAJ registriert über 17.000 reine OA-Zeitschriften, Hybrid-Modelle sind davon ausge-
 nommen. 2014 wurden die Qualitätskriterien angepasst, um bei sich ändernden Rahmenbedin-
 gungen weiterhin das DOAJ als eine Art Positivliste aufrechtzuerhalten und „questionable pu-
 blishers“ (Olijhoek et al. 2015) nicht zu indexieren.
 Für die Zeitschriftennormierung wird Crossref12 verwendet: Crossref bietet die Verlinkung zwi-
 schen zitierender und zitierter Publikation über Verlagsgrenzen hinweg mittels PIDs an (Hen-
 dricks et al. 2020). Ferner bietet Crossref eine Titelliste über alle dort registrierten Zeitschriften
 an (Clark 2020), welche vom OAM zur Normierung nachgenutzt wird. Eine ausführlichere Be-
 schreibung findet sich nachfolgend im Abschnitt Zeitschriftennormierung.

9 Unpaywall:    http://unpaywall.org/. Abgerufen am 17.03.2022.
10 Directory of Open Access Journals (DOAJ): https://doaj.org/. Abgerufen am 17.03.2022.
11 Unpaywall: https://unpaywall.org/products/snapshot. Abgerufen am 17.03.2022.
12 Crossref: https://www.crossref.org/. Abgerufen am 17.03.2022.

 cb Creative Commons BY 4.0                                                                ISSN: 1860-7950
F. Stanzel, I. Barbers, P. Pollack, B. Lindstrot
  LIBREAS. Library Ideas, 41 (2022). https://doi.org/10.18452/24797                                            8

                Abbildung 2: Übersicht der verwendeten Quellsysteme für den OAM

  Weiterhin werden die Publikationsdaten des OAM durch folgende drei Datenquellen angerei-
  chert: Dimensions, Web of Science (WoS) und Scopus.13 Diese drei Datenbanken liefern als ganz
  wesentliches Element des OAM die Zuordnung der Publikationen zu den Einrichtungen über
  die Autorenaffiliationen und außerdem Zitationsnachweise. Dimensions weist eine frei zugäng-
  liche Version auf, welche weniger Funktionen als der kostenpflichtige Zugang enthält. Dimensi-
  ons indexiert Publikationen mit Crossref-DOIs. Es wird also weniger selektiert als bei den Kon-
  kurrenzprodukten, wodurch eine höhere Abdeckungsrate an Einträgen gegeben ist (Schonfeld
  2018). Im Gegensatz dazu verwendet das WoS einen Kurationsprozess, wodurch lediglich eine
  Auswahl von Zeitschriften in der Zitationsdatenbank indexiert ist. Bei Scopus gibt es ebenfalls
  einen Auswahlprozess, jedoch befindet sich die daraus resultierende Abdeckungsrate zwischen
  den anderen beiden vorgestellten Datenbanken. Für die Zwecke des OAM weisen WoS und Sco-
  pus den Vorteil des Nachweises der sogenannten Reprint Authors beziehungsweise Correspon-
  ding Authors auf, wobei in Scopus mehr Titel aus dem deutschsprachigen Raum enthalten sind
  (Singh et al. 2021). Die Anbindung aller drei Datenbanken an den OAM bietet den Einrichtungen
  die maximale Datenkonsistenz zu ihrer präferierten Datenquelle, so dass sich Uneinheitlichkei-
  ten für die Nutzenden reduzieren.
  Für Gold- und Hybrid-Open-Access-Publikationen entstehen für publizierende Einrichtungen
  beziehungsweise ihren Autor*innen Kosten, welche im Rahmen eines Open-Access-Monitorings
  berücksichtigt werden müssen. Dafür werden die Daten von OpenAPC14 nachgenutzt, die von
  den Einrichtungen dort gemeldet und mit Daten von Crossref, PubMed und DOAJ ergänzt wer-
  den. Damit ist der Datenbestand zum einen abhängig von den Beiträgen der jeweiligen Einrich-
  tungen und zum anderen von der Qualität sowie der Vollständigkeit der gemeldeten Daten.

13 DigitalScience: Dimensions. https://www.dimensions.ai/. Abgerufen am 17.03.2022.; Clarivate: Web of Science.
   https://clarivate.com/webofsciencegroup/solutions/web-of-science/. Abgerufen am 17.03.2022.; Elsevier: Scopus.
   https://www.elsevier.com/solutions/scopus. Abgerufen am 17.03.2022.
14 OpenAPC: https://openapc.net/. Abgerufen am 17.03.2022.

  cb Creative Commons BY 4.0                                                                  ISSN: 1860-7950
F. Stanzel, I. Barbers, P. Pollack, B. Lindstrot
 LIBREAS. Library Ideas, 41 (2022). https://doi.org/10.18452/24797                                        9

 Subskriptionskosten für Zeitschriftenlizenzen werden über LAS:eR15 bezogen. Bei LAS:eR han-
 delt es sich um ein Electronic Resource Management System (ERMS), mit dem konsortiale und
 lokale Lizenzen und Kosteninformationen in einem System verwaltet werden können. Einrich-
 tungen, die das System zur Erfassung Ihrer Lizenzkosten nutzen, können durch eine Zustim-
 mung zur Datenweitergabe diese Informationen automatisiert an den OAM abliefern lassen. Da
 in den Verträgen mit den Verlagen in der Regel Geheimhaltungsklauseln enthalten sind (Doen-
 ges 2017), können Kostenangaben nur in aggregierter Form öffentlich verfügbar gemacht wer-
 den. Um einzelnen Institutionen dennoch die Möglichkeit zu bieten, ihre gesamten Kosten mit-
 tels des OAM auswerten zu können, ist ein abgestuftes Rechtemanagement für den Zugriff nö-
 tig. Hierfür wird ein Authentifizierungsverfahren umgesetzt, sodass der Einblick in Subskripti-
 onskosten auf Einrichtungsebene nur der jeweiligen Einrichtung zur Verfügung steht. Der OAM
 ist abhängig von der Nutzung des Systems durch die Einrichtungen, der Zustimmung der Da-
 tenlieferung an den OAM sowie der Qualität der dort eingegebenen Daten. Um unabhängiger
 von der Verwendung eines bestimmten ERMS zu werden und weitere Einrichtungen mit dem
 Angebot eines Monitorings der Subskriptionskosten zu erreichen, ist die zusätzliche Anbindung
 von Bibliothekssystemen wie FOLIO16 und Alma17 geplant.

 Normierungsprozesse

 Aufgrund der Zusammenführung vieler verschiedener Quellsysteme im Backend des OAM be-
 darf es einer Vereinheitlichung der Begriffe: Zeitschriftentitel, Verlagsnamen und Einrichtungs-
 bezeichnungen müssen normiert werden, damit die Einträge aus den jeweiligen Quellsystemen
 den entsprechenden Datensätzen zugeordnet werden können. Nur so können vollständige Da-
 tenbestände realisiert und Dubletten mit Namensvarianten ausgeschlossen werden.

 Zeitschriftennormierung

 In den jeweiligen Datenbanken liegen die Zeitschriftentitel nicht immer in gleicher Schreibweise
 beziehungsweise mit gleichen Identifikatoren vor. Daher wird eine Normliste benötigt, auf wel-
 che gegebenenfalls abweichende Schreibweisen der Zeitschriftentitel gemappt werden können.
 Um diese nicht neu manuell anlegen zu müssen, sollte eine bereits existierende Auflistung nach-
 genutzt werden. Dafür wird die Titelliste von Crossref verwendet, da in dieser alle in Crossref
 registrierten Zeitschriften hinterlegt sind (Clark 2020). Dadurch kommt diese Zeitschriftenliste
 relativ nahe an den Idealzustand einer vollständigen Liste heran und ist zusätzlich gut für die
 automatische Weiterverarbeitung geeignet.
 Für den Abgleich mit den vom Quellsystem gelieferten Titelansetzungen wird zunächst per
 ISSN in der Titelliste gesucht, wobei nur eine der ISSNs übereinstimmen muss. Dementspre-
 chend könnten mehrere mögliche Kandidaten in der Titelliste gefunden werden. Je nach Treffer-
 menge wird wie in Tabelle 3 beschrieben vorgegangen:

15 Hochschulbibliothekszentrum   des Landes Nordrhein-Westfalen (hbz): LAS:eR.
   https://www.hbz-nrw.de/produkte/digitale-inhalte/las-er. Abgerufen am 17.03.2022.
16 FOLIO: https://www.folio.org/. Abgerufen am 17.03.2022.
17 Alma: https://exlibrisgroup.com/de/produkte/alma-cloudgestuetzte-bibliotheksplattform/. Abgerufen am

   17.03.2022.

 cb Creative Commons BY 4.0                                                                ISSN: 1860-7950
F. Stanzel, I. Barbers, P. Pollack, B. Lindstrot
 LIBREAS. Library Ideas, 41 (2022). https://doi.org/10.18452/24797                                   10

              Trefferanzahl            Vorgehen
              Genau ein Treffer        Auswahl des eindeutigen Treffers
              Mehr als ein Treffer     Sortierung und Auswahl nach folgenden Kriterien:
                                       – Übereinstimmung der ISSN-L
                                       – Übereinstimmung einer ISSN
                                       – Übereinstimmung einer zusätzlichen ISSN18
                                       – Ähnlichkeit des Titels
              Kein Treffer             Exakte Titelsuche

                Tabelle 3: Abgleich der Zeitschriftentitel mit der Zeitschriftentitelliste

 Sind die Zeitschriftentitel normiert, werden diese direkt mit mehreren Informationen angerei-
 chert. Durch diese zusätzlichen Informationen wird beispielsweise der im Frontend implemen-
 tierte Filter nach Mirror Journals ermöglicht, um diese Zeitschriften selektieren oder auch aus-
 schließen zu können. Dafür gibt es jeweils eine statische Zeitschriftenliste für Mirror Journals so-
 wie eine für die bei DFG-Förderanträgen zu berücksichtigenden Zeitschriften. Letztere besteht
 aus den Zeitschriften aus dem DOAJ, ergänzt um die ISSN-Gold-OA-Zeitschriftenliste aus Bie-
 lefeld (Bruns et al. 2022), und um Mirror-Journals bereinigt. Zeitschriften, welche in einer dieser
 Listen vorkommen, wird automatisch die OA-Kategorie „Gold“ zugewiesen, da von vornherein
 nur OA-Zeitschriften in diese Listen aufgenommen werden.
 Darüber hinaus gibt es für jeden Transformationsvertrag eine eigene Liste mit den im Vertrag
 enthaltenen hybriden Zeitschriften, für die innerhalb des Vertrags Publikationsrechte bestehen.
 Alle Listen werden vom Team des OAM gepflegt und sind öffentlich zugänglich.19

 Verlagsnormierung

 Als Normliste für die Verlage werden im ersten Schritt die von Unpaywall gelieferten Angaben
 übernommen. Im zweiten Schritt werden mit Hilfe einer intern gepflegten Liste verschiedenen
 Schreibweisen eines Verlags auf eine gemeinsame Hauptschreibweise zusammengeführt.
 Dabei werden nicht nur unterschiedliche Schreibweisen wie „Elsevier B.V.“ oder „Elsevier Pub.
 Co.“ zu „Elsevier“ vereinheitlicht, sondern auch Imprints den übergeordneten Verlagen zuge-
 ordnet wie beispielsweise „Island Press“ zu „Springer Nature“.

 Einrichtungsnormierung

 Die Normierung der Einrichtungen erfolgte bisher über ihre GRID-ID. Die Global Research Iden-
 tifier Database20 (GRID) stattet Forschungsinstitutionen weltweit mit PIDs aus, der GRID-ID.
 Ausgehend von diesem Datenbestand hat sich die community-basierte Research Organization
 Registry21 (ROR) entwickelt (ROR Leadership Team 2021), welche seit Ende 2021 anstelle von
 GRID für Einrichtungen im OAM verwendet wird. Für die Normierungsarbeit im OAM wird
19 Open Access Monitor: Journal lists. https://doi.org/10.26165/JUELICH-DATA/VTQXLM.
20 Global Research Identifier Database: https://www.grid.ac/. Abgerufen am 17.03.2022.
21 Research Organization Registry: https://ror.org/. Abgerufen am 17.03.2022.

 cb Creative Commons BY 4.0                                                              ISSN: 1860-7950
F. Stanzel, I. Barbers, P. Pollack, B. Lindstrot
 LIBREAS. Library Ideas, 41 (2022). https://doi.org/10.18452/24797                            11

 allerdings im Hintergrund derzeit noch GRID mitsamt der bereitgestellten Rechercheoberfläche
 genutzt, da in der ROR-Oberfläche Beziehungen zwischen Organisationen noch nicht abgebildet
 werden.
 Einrichtungsnamen werden in den verwendeten Publikations- und Zitationsdatenbanken zwar
 normiert, es liegen jedoch unterschiedliche Mechanismen zu Grunde. So wird in Dimensions
 den Einrichtungen ihre GRID-ID zugeordnet, welche leicht in die ROR-ID überführt werden
 kann. Dementsprechend kann diese Normierung ohne größere manuelle Arbeiten übernommen
 werden.
 In WoS und Scopus werden die Einrichtungen jedoch nicht auf einen offenen PID normiert. Vor
 allem aber werden die Beziehungen und Abhängigkeiten jeweils unterschiedlich dargestellt.
 Beispielsweise werden in diesen Datenbanken die Universitätskliniken in der Regel den Univer-
 sitäten zugeordnet, für die Auswertungszwecke des OAM ist jedoch eine getrennte Behandlung
 erwünscht. Um eine eindeutige Zuordnung aller Datensätze gewährleisten zu können, müssen
 daher die Daten von Scopus und WoS mit PIDs angereichert werden. Dort, wo die an den OAM
 gelieferten Einrichtungsnormierungen der Datenbanken aus den eben genannten Gründen nicht
 direkt auf GRID-IDs gemappt werden können, werden die Rohformen der Affiliationsangaben
 der Autor*innen für die Zuordnung verwendet. Das Ergebnis dieses Verfahrens ermöglicht den
 nahtlosen Wechsel der Datenquellenauswahl in der Oberfläche des OAM. Im Folgenden wird
 das Vorgehen am Beispiel einer Universitätsklinik erläutert.
 Das „Universitätsklinikum Würzburg“ mit der GRID-ID grid.411760.522 ist in den Scopus-Daten
 unter folgenden Namen vertreten:

     – Universitätsklinik Würzburg
     – University Clinic Würzburg
     – Universitaetsklinik Wuerzburg
     – Chirurgische Universitätsklinik Würzburg
     – Med. Universitatsklinik Wurzburg

 Insgesamt 129 Treffer werden allein in den Scopus-Daten der deutschen Einrichtungen mit fol-
 gender SQL-SELECT-Abfrage nach „Universitätsklinik Würzburg“ gefunden (Abbildung 3):
 Im Anschluss kann diesen 129 Treffern der SELECT-Abfrage die GRID-ID grid.8379.5 zugeord-
 net werden. Diese SELECT-Abfrage ist komplex, da einerseits eine gewisse Unschärfe, beispiels-
 weise durch Trunkierung der Suchbegriffe, gegeben sein muss, um möglichst viele Schreibwei-
 sen abzudecken. Andererseits muss sie hinreichend selektiv sein, damit Einrichtungen mit ei-
 nem ähnlichen Namen nicht zusätzlich gefunden werden. Im obigen Beispiel wären dies Ein-
 richtungen aus Wuppertal sowie die dem Universitätsklinikums Würzburg (Parent-Institute)
 untergeordneten Einrichtungen (Child-Institutes), wie zum Beispiel die Universitäts-Kinderklinik
 Würzburg, welche jeweils eine eigene GRID-ID aufweisen (siehe Abbildung 4).

22 GRID   Instituts-Suche: https://grid.ac/institutes. Abgerufen am 17.03.2022.

 cb Creative Commons BY 4.0                                                       ISSN: 1860-7950
F. Stanzel, I. Barbers, P. Pollack, B. Lindstrot
LIBREAS. Library Ideas, 41 (2022). https://doi.org/10.18452/24797                        12

Abbildung 3: SQL-SELECT-Abfrage nach „Universitätsklinik Würzburg“ im Microsoft SQL Ser-
ver Management Studio; scopus_organisations ist die Tabelle mit dem Einrichtungs-Datensatz
von Scopus; sc_organisation ist die Spalte mit den verschiedenen Einrichtungs-Bezeichnungen.

Abbildung 4: Screenshot des GRID-Eintrages des Universitätsklinikums Würzburg (Datensatz
für das Universitätsklinikum Würzburg in GRID: https://grid.ac/institutes/grid.411760.5. Ab-
gerufen am 17.03.2022).

cb Creative Commons BY 4.0                                                  ISSN: 1860-7950
F. Stanzel, I. Barbers, P. Pollack, B. Lindstrot
LIBREAS. Library Ideas, 41 (2022). https://doi.org/10.18452/24797                               13

Um falsche Zuordnungen sowie fehlende Einträge zu vermeiden, werden die vergebenen IDs in-
tellektuell geprüft. Dabei hat sich ein mehrstufiges Vorgehen etabliert: Zu Beginn sind die SQL-
Abfragen eher weit gefasst. Anhand des Suchergebnisses werden weitere Filter zur SELECT-
Anweisung ergänzt, um ein präziseres Ergebnis zu erzielen. Je genauer (precision) die „Treffer-
quote“ (recall) und geringer der „Ausfall“ (fallout) ist, desto weniger aufwändig ist die intellek-
tuelle Durchsicht (Buckland und Gey 1994). Im Beispiel der SELECT-Abfrage nach „Uniklinik
Würzburg“ kommt es trotz präziser Formulierung zu einem Treffer wie „Competence Centre for
University Teaching in Medicine Baden-Wuerttemberg“. Ein solcher „Ausfall“ lässt sich nicht
ganz vermeiden und der entsprechende Eintrag muss bei einer intellektuellen Prüfung selbst-
verständlich eine andere ID erhalten als die der Uniklinik Würzburg. Teilweise ist die korrekte
Zuordnung der GRID-ID eine anspruchsvolle Aufgabe, da zum einen die Affiliationsangaben
oft nicht eindeutig sind und andererseits die klare Trennung der Einrichtungen insbesondere
bei Kliniken zusätzlicher Recherche bedarf. Aus der Trefferliste mit den 129 Bezeichnungen des
Universitätsklinikums Würzburg werden 129 SQL-UPDATE-Befehle erzeugt, wie zum Beispiel
folgender:

UPDATE scopus_organisations SET sc_grid = ’ grid.8379.5 ’ WHERE
sc_organisation =.’Universitätsklinik Würzburg’

Zur Erzeugung des UPDATE-Befehls wird die Ergebnistabelle der SQL-SELECT-Abfrage in eine
Excel-Tabelle kopiert und mittels „Verketten“-Funktion die GRID-ID und die Spalte mit den
verschiedenen Bezeichnungen zu einem UPDATE Befehl verknüpft. Anschließend werden die
Befehle im SQL Management Studio ausgeführt. Somit sind die GRID-IDs der Einrichtungen in
den Scopus-Datensätzen zugeordnet. Für das Mapping der WoS-Einrichtungsnamen wird ein
analoges Verfahren eingesetzt.
Ist dieser Prozess für alle Einrichtungen abgeschlossen, kann die normierte Einrichtungstabelle
durch ein Importverfahren in den OAM überführt werden. Da WoS und Scopus zwei eigenstän-
dige Datenbanken mit eigenen Rohdaten sind, muss dieses Verfahren für jede Datenquelle ein-
zeln erfolgen. Dementsprechend sind für die Einrichtungsnormierung zwei Tabellen im OAM
hinterlegt.
Für eine bessere Durchsuchbarkeit und Auswählbarkeit der Einrichtungen im Einrichtungsfilter
des OAM sind diese in Kategorien eingeteilt. Die Kategorien von ROR sind für die Zwecke des
OAM zu unscharf, sodass eine interne Zuordnungsliste gepflegt wird, welche jeder Einrichtung
eine Kategorie zuordnet (siehe Tabelle 4).

Zusammenführung der Quellsysteme

Zur Generierung einer gemeinsamen Datenbasis aus allen genannten Quellsystemen wird Un-
paywall als primäre Quelle verwendet. Dabei werden über den wöchentlichen Datenfeed für
alle Publikationen mit dem Dokumenttyp „journal article“ folgende Daten erfasst: DOI, Zeit-
schrift, Verlag, Veröffentlichungsdatum und OA-Modell. Eine Übersicht der genutzten Quell-
systeme und den daraus verwendeten Daten befindet sich in Abbildung 5.
Weitere Daten werden über den DOI aus Dimensions, Web of Science und Scopus wöchentlich
per Datenfeed importiert, dabei werden für jeden Artikel die involvierten Einrichtungen, die

cb Creative Commons BY 4.0                                                        ISSN: 1860-7950
F. Stanzel, I. Barbers, P. Pollack, B. Lindstrot
 LIBREAS. Library Ideas, 41 (2022). https://doi.org/10.18452/24797                                       14

                                       Einrichtungskategorie
                                       Universitäten
                                       Universitätskliniken
                                       Fachhochschulen
                                       Fraunhofer-Gesellschaft
                                       Helmholtz-Gemeinschaft
                                       Max-Planck-Gesellschaft
                                       Leibniz-Gemeinschaft
                                       Einrichtungen des Bundes
                                       Einrichtungen der Länder
                                       Sonstige

                              Tabelle 4: Einrichtungskategorien des OAM

 jeweilige ID der Datenbank und die Zitationszahlen zu den bereits vorhandenen Artikeldaten
 hinzugefügt. Für WoS und Scopus wird zudem die Information des Corresponding Authors
 ergänzt. Um eine möglichst genaue Zuordnung zu realisieren, werden die affiliierten Einrich-
 tungen mittels der ROR-ID zugeordnet. Ein weiterer Abgleich findet über die ISSNs der Zeit-
 schriften mit der Zeitschriftentitelliste von Crossref statt.
 Bis hierhin sind lediglich Informationen über den Publikationsoutput der einzelnen Einrichtun-
 gen deutschlandweit, ohne Nachweise über Kosten, verfügbar. Um die Publikationskosten zu
 erfassen, ist im Backend des OAM eine weitere Collection angelegt. Dafür werden Daten aus
 OpenAPC für die einzelnen Artikel verwendet, wie der Artikel-DOI, Publikationsjahr und die
 bezahlende Einrichtung, welche ebenfalls auf die ROR-ID gemappt wird. Ferner werden die
 Kosten erfasst, wobei zwischen APCs und Hybrid-Artikeln differenziert wird. Dieser Daten-
 bestand wird mit weiteren Daten aus Unpaywall angereichert, wobei die Zuordnung per DOI
 geschieht. Hier werden Verlag, Veröffentlichungsdatum, Zeitschrift und die OA Farbe der Zeit-
 schrift erfasst.
 Damit sind zwar die Kosten für OA-Publikationen ebenfalls in der Datenbank enthalten, aber es
 fehlen noch die Subskriptionskosten. Im Produktivsystem sind diese noch nicht implementiert,
 jedoch ist die Einbindung von LAS:eR im Testsystem bereits umgesetzt. Außerdem wird ein
 Authentifizierungsmechanismus eingerichtet, um der jeweiligen Einrichtung ihre Daten ohne
 Einsichtnahme von Dritten und langfristig ein individuelles OA-Barometer zur Verfügung zu
 stellen.
 Bei großen Datenmengen ist es nicht möglich, sämtliche Fehlerquellen vermeiden zu können.
 Allerdings kann durch ein gutes System sowie durch Korrekturschleifen die Datenqualität ver-
 bessert werden. Nähere Informationen hierzu sind im Wiki des OAM hinterlegt.23

23 Genauere
         Informationen zu den Korrekturroutinen unter: https://jugit.fz-juelich.de/synoa/oam-dokumentation/-
 /wikis/Quelldatenbanken/Anpassungen%20an%20den%20Quelldaten. Abgerufen am 17.03.2022.

 cb Creative Commons BY 4.0                                                               ISSN: 1860-7950
F. Stanzel, I. Barbers, P. Pollack, B. Lindstrot
 LIBREAS. Library Ideas, 41 (2022). https://doi.org/10.18452/24797                                           15

                     Abbildung 5: Zusammenführung der Quellsysteme des OAM

 Zuordnung der OA-Kategorien

 Für die OA Zuordnung einzelner Publikationen werden verschiedene Felder von Unpaywall
 ausgewertet. Dieser Datensatz beinhaltet nicht nur allgemeine Daten zum OA-Status der Pu-
 blikation respektive der zugehörigen Zeitschrift, sondern listet darüber hinaus alle Orte auf, an
 denen eine freie Version der Publikation gefunden werden konnte (OA Location).24 Mit Hilfe
 dieser Daten kann eine detaillierte OA-Zuordnung durchgeführt werden. Dazu werden die in
 Tabelle 5 dargestellten Prüfmechanismen in der abgebildeten Reihenfolge für jede OA Location
 abgearbeitet. Sobald eine Bedingung erfüllt ist, wird die OA Location mit der jeweiligen OA-
 Kategorie markiert und die Prüfung für die nächste OA Location fortgeführt. Schließlich wird
 die „beste“ vergebene OA-Kategorie für die Publikation erfasst.
 Die OA-Zuordnung für Zeitschriften erfolgt über einen ISSN-Abgleich mit den Daten des DOAJ,
 um das Publikationsmodell der Zeitschriften zu bestimmen. Dabei wird, analog zur Tabelle
 5, zwischen Diamond, Gold und Closed beziehungsweise Hybrid OA unterschieden. Zusätz-
 lich können auch intern gepflegte Listen Einfluss auf die OA-Zuordnung der Zeitschriften neh-
 men.25
 Bei den Verlagen wird nur zwischen Gold und Closed beziehungsweise Hybrid OA differen-
 ziert. Dazu wird eine intern hinterlegte, manuell generierte Liste genutzt und bei einer Über-
 einstimmung kann der Verlag als reiner OA-Verlag markiert werden. Während Verlage mit dem
 Publikationsmodell Gold ausschließlich Gold-OA-Zeitschriften publizieren, können Verlage mit

24 Unpaywall  FAQ. How is the best OA location determined?:
   https://support.unpaywall.org/support/solutions/articles/44001943223-how-is-the-best-oa-location-determined.
   Abgerufen am 17.03.2022.
25 Open Access Monitor: Journal lists. https://doi.org/10.26165/JUELICH-DATA/VTQXLM.

 cb Creative Commons BY 4.0                                                                  ISSN: 1860-7950
F. Stanzel, I. Barbers, P. Pollack, B. Lindstrot
LIBREAS. Library Ideas, 41 (2022). https://doi.org/10.18452/24797                           16

        Definition         Bedingungen
        Diamond            Gold-Veröffentlichung ohne APCs
        Gold               Veröffentlicht in einer Open-Access-Zeitschrift, die im
                           DOAJ indexiert ist.
        Hybrid             Frei unter einer offenen Lizenz in einer Subskriptions-
                           Zeitschrift veröffentlicht.
        Green published    Kostenpflichtiger Zugang auf der Verlagsseite, aber es gibt
                           eine freie Kopie der veröffentlichten Verlagsversion in ei-
                           nem Open-Access-Repositorium.
        Green accepted     Kostenpflichtiger Zugang auf der Verlagsseite, aber es gibt
                           eine freie Kopie des akzeptierten Manuskripts in einem
                           Open-Access-Repositorium (Postprint).
        Green submitted    Kostenpflichtiger Zugang auf der Verlagsseite, aber es gibt
                           eine freie Kopie des eingereichten Artikels in einem Open-
                           Access-Repositorium (Preprint).
        Green undefined    Version kann nicht bestimmt werden; wird im OAM wie
                           Green submitted behandelt
        Bronze             Frei zu lesen auf der Verlagsseite, aber ohne klar erkennba-
                           re Lizenz.
        Closed             Alle anderen Artikel. (Nicht frei zugänglich.)

Tabelle 5: Definitionen der Open-Access-Kategorien sowie die intern hinterlegten Bedingungen
für die Zuordnung

dem Modell „Closed/Hybrid“ sowohl Gold-, Hybrid-, als auch reine Subskriptionszeitschriften
herausgeben.

Zusammenfassung und Ausblick

Die Auswahl, Anbindung und Zusammenführung einer Vielzahl von Datenquellen stellt sich als
hoch komplexer Vorgang dar, der vor allem durch die Heterogenität der Daten erschwert wird.
Neben der Frage der Verfügbarkeit und Nachhaltigkeit der Quellsysteme bildet das Thema der
Metadatenqualität eine dauerhafte Herausforderung. An vielen Stellen, beispielsweise bei der
Normierung von Verlagsnamen oder bei der Kuratierung von Zeitschriftenlisten, können Auto-
matismen nur teilweise greifen und es muss dauerhaft manuell überwacht und nachgebessert
werden.
Die Verwendung der kommerziellen Datenbanken Dimensions, Web of Science und Scopus als
Quellen hat den Nachteil, dass sie von fortlaufenden Vereinbarungen und Diensten abhängig
ist. Die beiden letztgenannten haben zudem eine Einschränkung durch ihre Methode der Vor-
auswahl bei der Indexierung von Quellen und ihre Bevorzugung englischsprachiger Literatur.
Sie besitzen jedoch den Vorteil, als qualitätsgeprüft zu gelten und weitgehend als Referenz an-
erkannt zu sein. Durch die Angabe von IDs der Quellsysteme bietet der OAM bei allen Daten-
sätzen eine Verlinkung zur Ursprungsdatenbank. So können weitere Metadaten, die der OAM

cb Creative Commons BY 4.0                                                     ISSN: 1860-7950
F. Stanzel, I. Barbers, P. Pollack, B. Lindstrot
 LIBREAS. Library Ideas, 41 (2022). https://doi.org/10.18452/24797                                             17

 nicht auswertet, abgerufen werden. Bei Web of Science und Scopus steht dabei die Schranke der
 Lizenz vor der vollständigen Nachnutzung, jedoch sind diese beiden Datenbanken die einzigen
 bekannten Quellen, die Corresponding-Author-Informationen in ausreichendem Umfang lie-
 fern. Diese Information ist essentiell, da damit für die wissenschaftlichen Einrichtungen poten-
 tiell kostenpflichtige Publikationen identifiziert werden können, was wiederum für verlässliche
 Prognosen zur Budgetplanung unerlässlich ist.
 Unter Berücksichtigung aller Vor- und Nachteile der bereits integrierten Quellsysteme wird wei-
 terhin nach möglichen Alternativen beziehungsweise Ergänzungen in Form von vorzugsweise
 offenen Datenquellen Ausschau gehalten und die Möglichkeiten zur Integration ihrer Daten ge-
 prüft. Mit der Ankündigung von OurResearch, einen Nachfolger für den Ende 2021 eingestellten
 Dienst Microsoft Academic Graph aufzubauen26 , ist mit OpenAlex (https://openalex.org/) eine
 Alternative als nicht-kommerzielle Datenbank ins Blickfeld geraten.
 Für eine technische Implementierung als Quellsystem des OAM sind bei OpenAlex durch Ver-
 wendung von ROR grundsätzlich gute Voraussetzungen gegeben. Dies macht die Daten kom-
 patibel zur Institutionenkodierung des OAM. Als Nachteil für die Zwecke des OAM stellen sich
 die fehlenden Corresponding-Author-Informationen dar.
 Durch den Ansatz von OpenAlex, neben den Daten von Unpaywall, Crossref, Pubmed et cete-
 ra auch Daten von Repositorien zu harvesten, muss zudem die Frage der Deduplizierung von
 Publikationen untersucht werden. Für die Zwecke der Auswertungen, welche mit dem OAM er-
 stellt werden können, ist die möglichst korrekte und duplikatfreie Bildung von Aggregationen
 erforderlich. Bei Publikationen, zu denen ein DOI vorliegt, wird jedoch eine Deduplizierung
 weitgehend möglich sein, was aber umgekehrt bedeutet, dass das bekannte Problem der Unter-
 repräsentation mancher Publikationsformen fortbesteht.
 Eine umfassende Untersuchung von OpenAlex samt einem Vergleich mit anderen Systemen
 liegt angesichts der erst kürzlich erfolgten Freischaltung bisher noch nicht vor. Allerdings stel-
 len sich nach ersten Einblicken in die noch nicht offiziell freigegebene Weboberfläche noch ei-
 nige Fragen. So scheint es zum Beispiel bei den Datensätzen zu Autor*innen keine Mehrfachaf-
 filiationen zu geben und auch die Disambiguierung scheint noch nicht abgeschlossen zu sein.
 Beispielsweise finden sich in der Datenbank noch zahlreiche Mehrfacheinträge für Autor*innen
 sowie in Einzelfällen falsche Zuordnungen. Nach Selbstauskunft der Betreiber*innen sind noch
 Datenbereinigungen notwendig.27
 Insgesamt zeigt OpenAlex jedoch einen zukunftsweisenden Ansatz und eine Anbindung als
 weitere Quelldatenbank für den OAM wird mittelfristig geplant. Das Geschäftsmodell soll zu-
 künftig ähnlich wie bei den anderen OurResearch-Diensten Unpaywall und Unsub auf einem
 Freemium-Modell basieren, was sich laut eigener Aussage von OurResearch bisher als stabil er-
 wiesen hat. Die Nutzung freier Datenquellen erlangt mit der dadurch ermöglichten Ablösung
 der Abhängigkeit von kommerziellen Systemen sowie durch die komplett offene Nachnutzbar-
 keit immer größere Bedeutung. Allerdings stellt sich gleichzeitig die Frage der Nachhaltigkeit
 beziehungsweise dauerhaften Verfügbarkeit freier Quellen. Nur wenn diese unterstützt und ge-
 nutzt werden, bleiben sie erhalten. Letztendlich ist es aber auch notwendig, die eigenen Systeme

26 OurResearch Blog: https://blog.ourresearch.org/were-building-a-replacement-for-microsoft-academic-graph/.
   Abgerufen am 17.03.2022.
27 OpenAlex. Known Issues: https://docs.openalex.org/known-issues. Abgerufen am 17.03.2022.

 cb Creative Commons BY 4.0                                                                  ISSN: 1860-7950
F. Stanzel, I. Barbers, P. Pollack, B. Lindstrot
LIBREAS. Library Ideas, 41 (2022). https://doi.org/10.18452/24797                                18

technisch und organisatorisch so zu gestalten, dass bei Bedarf ein Wechsel von Quellsystemen
beziehungsweise der parallele Einsatz möglich ist.

Danksagung

Der Open Access Monitor wird durch das Bundesministerium für Bildung und Forschung (BMBF)
mit dem Förderkennzeichen 16OAMO001 gefördert. Die Nutzung der Web of Science-Daten
wird ermöglicht durch die Projektteilnahme am Kompetenznetzwerk Bibliometrie; gefördert
durch das Bundesministerium für Bildung und Forschung (Förderkennzeichen: 16WIK2101A).

Literaturverzeichnis

Barbers, Irene; Kalinna, Nadja; Mittermaier, Bernhard (2018): Data-Driven Transition: Joint Re-
porting of Subscription Expenditure and Publication Costs. In: Publications 6 (2), Nr. 19. https:
//doi.org/10.3390/publications6020019.
Bradshaw, Shannon; Brazil, Eoin; Chodorow, Kristina (2019): MongoDB: the definitive guide.
Powerful and scalable data storage. Third edition. Beijing, Boston, Farnham: O’Reilly. ISBN
9781491954461.
Bruns, Andre; Cakir, Yusuf; Kaya, Sibel; Beidaghi, Samaneh (2022): ISSN-Matching of Gold OA
Journals (ISSN-GOLD-OA) 5.0. https://doi.org/10.4119/unibi/2961544.
Buckland, Michael; Gey, Fredric (1994): The relationship between Recall and Precision. In: J. Am.
Soc. Inf. Sci. 45 (1), S. 12–19. https://doi.org/10.1002/(SICI)1097-4571(199401)45:1%3C12::AID-
ASI2%3E3.0.CO;2-L.
Clark, Rosa (2020): Browsable title list. Online verfügbar unter https://www.crossref.org/docu
mentation/reports/browsable-title-list/, zuletzt aktualisiert am 08.04.2020, zuletzt geprüft am
22.03.2022.
Couldry, Nick; Jun Yu (2018): Deconstructing datafication’s brave new world. In: New Media &
Society (12), S. 4473–4491. https://doi.org/10.1177/1461444818775968.
Dhakal, Kerry (2019): Unpaywall. In: Journal of the Medical Library Association : JMLA 107 (2), S.
286–288. https://doi.org/10.5195/jmla.2019.650.
Doenges, Hannah (2017): Non-Disclosure Clauses: the making, breaking, and remaking of re-
lationships. University of Washington, Washington D.C. School of Law. Online verfügbar unter
https://depts.washington.edu/uwlawlib/wordpress/wp-content/uploads/2018/01/Doenges
2017.pdf, zuletzt geprüft am 22.03.2022.
Günther, Wendy Arianne; Rezazade Mehrizi, Mohammad H.; Huysman, Marleen; Feldberg,
Frans (2017): Debating big data: A literature review on realizing value from big data. In: The Jour-
nal of Strategic Information Systems 26 (3), S. 191–209. https://doi.org/10.1016/j.jsis.2017.07.003.

cb Creative Commons BY 4.0                                                         ISSN: 1860-7950
F. Stanzel, I. Barbers, P. Pollack, B. Lindstrot
LIBREAS. Library Ideas, 41 (2022). https://doi.org/10.18452/24797                              19

Hendricks, Ginny; Tkaczyk, Dominika; Lin, Jennifer; Feeney, Patricia (2020): Crossref: The su-
stainable source of community-owned scholarly metadata. In: Quantitative Science Studies 1 (1),
S. 414–427.
Hey, Tony; Tansley, Stewart; Tolle, Kristin (2009): The Fourth Paradigm: Data-Intensive Scientific
Discovery: Microsoft Research. ISBN 9780982544204.
Hirsch, Dennis (2014): The Glass House Effect: Big Data, The New Oil, and the Power of Analogy.
In: Maine Law Review 66 (2), S. 373. Online verfügbar unter https://digitalcommons.mainelaw.
maine.edu/mlr/vol66/iss2/3, zuletzt geprüft am 22.03.2022.
Kharlamov, Evgeny; Skjaveland, Martin; Hovland, Dag; Mailis, Theofilos; Jimenez-Ruiz, Erne-
sto; Xiao, Guohui et al. (2018): Finding Data Should be Easier than Finding Oil. In: 2018 IEEE
International Conference on Big Data (Big Data). 2018 IEEE International Conference on Big Da-
ta (Big Data). Seattle, WA, USA, 10.12.2018 - 13.12.2018: IEEE, S. 1747–1756. https://doi.org/10.
1109/BigData.2018.8622035.
Manyika, James; Chui, Michael; Brown, Brad; Bughin, Jacques; Dobbs, Richard; Roxburgh, Charles;
Byers, Angela Hung (2011): Big data: The next frontier for innovation, competition, and pro-
ductivity. In: McKinsey & Company, 01.05.2011. Online verfügbar unter https://www.mckinsey.
com/business-functions/mckinsey-digital/our-insights/big-data-the-next-frontier-for-innovation,
zuletzt geprüft am 22.03.2022.
Nolin, Jan Michael (2019): Data as oil, infrastructure or asset? Three metaphors of data as econo-
mic value. In: JICES 18 (1), S. 28–43. https://doi.org/10.1108/JICES-04-2019-0044.
Olijhoek, Tom; Bjørnshauge, Lars; Mitchell, Dominic (2015): Criteria for Open Access and publis-
hing. In: ScienceOpen Research. https://www.doi.org/10.14293/S2199-1006.1.SOR-EDU.AMHUHV.
v1.
ROR Leadership Team (2021): ROR and GRID: The Way Forward. Online verfügbar unter https:
//ror.org/blog/2021-07-12-ror-grid-the-way-forward/, zuletzt aktualisiert am 22.10.2021, zu-
letzt geprüft am 22.03.2022.
Schonfeld, Roger C. (2018): A New Citation Database Launches Today: Dimensions. The Scholar-
ly Kitchen. Online verfügbar unter https://scholarlykitchen.sspnet.org/2018/01/15/new-citation-
database-dimensions/, zuletzt aktualisiert am 14.01.2018, zuletzt geprüft am 22.03.2022.
Singh, Vivek Kumar; Singh, Prashasti; Karmakar, Mousumi; Leta, Jacqueline; Mayr, Philipp
(2021): The journal coverage of Web of Science, Scopus and Dimensions: A comparative ana-
lysis. In: Scientometrics 126 (6), S. 5113–5142. https://doi.org/10.1007/s11192-021-03948-5.

Franziska Stanzel (https://orcid.org/0000-0003-0053-8604) ist seit Oktober 2021 Teamleiterin
des Open Access Monitors in der Zentralbibliothek des Forschungszentrums Jülich. Sie absol-
vierte das praktische Jahr des Bibliotheksreferendariates an der Bibliothek des kiz der Universi-
tät Ulm und die Theorie an der BSB München. Zuvor studierte sie Biochemie (Bachelor) an der
Universität Bayreuth sowie Chemische Biologie (Master of Science) an der Friedrich-Schiller-
Universität Jena.

cb Creative Commons BY 4.0                                                       ISSN: 1860-7950
Sie können auch lesen