Big Scholarly Data im Open Access Monitor: ein Werkstattbericht

Die Seite wird erstellt Uwe Meißner

Computer und Technik

Deutsch

Like
Teilen
Einbetten
Vollbild
Folien
HTML Herunterladen
PDF Herunterladen
Missbrauch

←

WEITER LESEN

→

Transkription von Seiteninhalten

Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten

F. Stanzel, I. Barbers, P. Pollack, B. Lindstrot
LIBREAS. Library Ideas, 41 (2022). https://doi.org/10.18452/24797 1

Big Scholarly Data im Open Access Monitor: ein
Werkstattbericht
Franziska Stanzel Irene Barbers Philipp Pollack
Barbara Lindstrot

Zusammenfassung: Im Zusammenhang mit der Open-Access-Transformation rückt
die Auswertung großer Datenmengen immer mehr in den Fokus von Bibliotheken,
da die Anzahl der wissenschaftlichen Publikationen beständig ansteigt. Diese ste-
tig anwachsende Datenmenge muss zuerst nutzbar gemacht werden, bevor fundier-
te Aussagen beispielsweise zu einrichtungsbezogenen Publikationsoutputs möglich
sind. Hier setzt der Open Access Monitor (OAM) an, welcher als Schnittstelle zur Zu-
sammenführung diverser Quellsysteme wie Unpaywall, Dimensions, Web of Science
und Scopus fungiert. Dazu ist der OAM strukturell dreigeteilt: Die Daten befinden
sich in der Datenbank (Backend), welche über die REST-Schnittstelle (API) abgefragt
oder über die Weboberfläche (Frontend) präsentiert und visualisiert werden können.
Durch die Nachnutzung einer Vielzahl an Quellsystemen müssen die Daten homo-
genisiert werden, um vollständige Datenbestände ohne Dubletten zu realisieren. Da-
für müssen Zeitschriftentitel oder Einrichtungsbezeichnungen vereinheitlicht wer-
den, um die ursprünglichen Einträge aus den Quellsysteme den entsprechenden Da-
tensätzen im OAM zuordnen zu können. Im Falle der Einrichtungsnamen werden
diese mit persistenten Identifikatoren (PID) angereichert. Für die Daten von man-
chen Datenbanken können die dort hinterlegten Einrichtungsnormierungen nicht di-
rekt auf Organisations-Identifier (ROR-IDs) gemappt werden, weshalb der Umweg
über die Rohformen der Affiliationsangaben der Autor*innen gewählt wird.
Dieses Mapping der Affiliationsangaben ist eine umfangreiche und komplexe Auf-
gabe, da zum einen die gelieferten Angaben häufig nicht eindeutig sind und zum an-
deren eine klare Trennung der Einrichtungen, insbesondere bei Universitätskliniken,
eine intellektuelle Bearbeitung erfordert. Der hochkomplexe Vorgang, aus einer Viel-
zahl an Datenquellen einen einheitlichen Datensatz zu generieren, wird im Beitrag
aufgezeigt, wobei ein besonderer Schwerpunkt auf die Normierungsprozesse sowie
die Vergabe der Open-Access-Kategorien gelegt wird.
Die Metadatenqualität bleibt eine beständige Herausforderung, gleiches gilt für
das Thema der Verfügbarkeit und Nachhaltigkeit der angebundenen Quellsysteme.
Die Anbindung offener Datenquelle wäre wünschenswert – es entspräche den Zie-
len der uneingeschränkten (Nach-)Nutzbarkeit der OAM-Daten. Ob beispielsweise
OpenAlex als nicht-kommerzielle Datenbank als weiteres Quellsystem für den OAM
in Frage kommt, wird abschließend diskutiert.

cb Creative Commons BY 4.0 ISSN: 1860-7950

F. Stanzel, I. Barbers, P. Pollack, B. Lindstrot
LIBREAS. Library Ideas, 41 (2022). https://doi.org/10.18452/24797 2

Abstract: In the light of the Open Access transformation, the analysis of large amounts
of data is increasingly important for libraries, whereas the number of scholarly pu-
blications is constantly growing. Large amounts of data must first be made usable
before any substantiated analysis can be made, e.g. regarding institution-related pu-
blication outputs. This is where the Open Access Monitor (OAM) comes in, which
acts as an interface for merging data from various source systems such as Unpaywall,
Dimensions, Web of Science and Scopus. For this purpose, the OAM is structurally
divided into three parts: the backend hosts the data, which can be queried via the
API, and is presented and visualized in the frontend.
All data, coming from various source systems, must be homogenized in order to
realize complete data sets without creating duplicates. Journal titles or institution na-
mes have to be standardized to allow assigning the original entries from the source
systems to the corresponding data records in the OAM. In the case of institution na-
mes, these are enriched with persistent identifiers. Given the way the data is organi-
zed in some of the source databases, the institution names cannot be mapped directly
to organization identifiers (ROR-IDs) in some cases. Therefore, the raw forms of the
author’s affiliation information are used in the mapping process.
Affiliation mapping is an extensive and complex task, since the data provided are
often ambiguous and at the same time a clear distinction of institutions, especially in
the case of university hospitals, requires intellectual processing. The highly complex
process of generating a uniform data set from a multitude of data sources will be
demonstrated, with a special focus on the normalization processes as well as the
assignment of Open Access categories.
Metadata quality remains a constant challenge, as does the issue of availability
and sustainability of the connected source systems. The use and integration of open
data sources is generally desirable – it would be in line with the OAM’s goal of unre-
stricted (re-) usability of the OAM data. The pros and cons of using non-commercial
databases are discussed using OpenAlex as an example.

Einleitung

Big Data ist in den vergangenen Jahren zu einem allgegenwärtigen Begriff geworden und ist in
vielen Wissenschaftsbereichen als Anwendung präsent. Mit der Metapher, wonach Daten das
neue Öl sind, wird Daten als neues Treibmittel der digitalen Revolution eine ähnliche Rolle zu-
gesprochen, wie es einst das Öl für das Fortschreiten der Industrialisierung war (Hirsch 2014).
Öl ist die Grundlage vieler verarbeiteter Produkte wie Kunststoffe, chemischer Verbindungen
oder Antriebsmittel zur Fortbewegung. Analog dazu kann Big Data in aufbereiteter Form eben-
falls zu vielen Produkten verarbeitet werden wie Steuerungsoptimierungen, Modellrechnungen
oder Kundenprofilen (Manyika et al. 2011; Günther et al. 2017). Der Vergleich lässt sich wei-
terführen mit der Überlegung, dass die reine Existenz von Daten noch nicht ausreichend ist,
sondern dass diese stetig anwachsenden Datenmengen nutzbar gemacht werden müssen (No-
lin 2019; Couldry und Jun Yu 2018). So kommt Öl in der Erdkruste nicht ubiquitär vor, sondern
muss als erstes lokalisiert, anschließend gefördert und schließlich durch Raffinationsprozesse
aufbereitet werden. Ähnlich verhält es sich mit Daten. Ohne ihren jeweiligen Kontext können sie

cb Creative Commons BY 4.0 ISSN: 1860-7950

F. Stanzel, I. Barbers, P. Pollack, B. Lindstrot
LIBREAS. Library Ideas, 41 (2022). https://doi.org/10.18452/24797 3

schnell an Bedeutung verlieren. Dementsprechend komplex kann das Auffinden der gewünsch-
ten Datenmenge sein, wie es auch bei der Suche nach Öl der Fall ist (Kharlamov et al. 2018; Hey
et al. 2009).
Die Anzahl der in Publikationsdatenbanken nachgewiesenen Veröffentlichungen steigt bestän-
dig und für Bibliotheken spielt die Auswertung großer Datenmengen eine immer wichtigere
Rolle. So werden beispielsweise in der Datenbank Dimensions für das Jahr 2000 circa 90.000 Pu-
blikationen mit mindestens einer deutschen Affiliation nachgewiesen, während es im Jahr 2020
bereits 236.000 sind. Der Gesamtdatenbestand der Datenbank erreicht derzeit 126 Millionen Pu-
blikationen.1 Im Gebiet der Informationsbereitstellung stellt sich bei dieser großen Datenmenge
für Nutzende zunächst das Problem der Auffindbarkeit einzelner Informationen. Bei der Bereit-
stellung von Publikationsdienstleistungen und auch bei der Unterstützung der Open-Access-
Transformation ist zudem die Schaffung einer Datengrundlage vonnöten. Diese Datengrundla-
ge muss zusammengetragen sowie auswertbar gemacht werden und außerdem so aufbereitet
sein, dass daraus Informationen gewonnen werden können, die der Unterstützung des Wissen-
schaftsmanagements dienen.
Zur Erhebung des Publikationsaufkommens wissenschaftlicher Einrichtungen gibt es mehrere
in Frage kommende Datenbanken wie Web of Science, Scopus, Dimensions oder institutionelle
Repositorien. Diese Datenbanken nutzen nur zum Teil offene persistente Identifikatoren (PID)
für Organisationen. Zusätzlich kann keine der genannten kommerziellen Datenbanken das In-
dexieren aller erschienen Veröffentlichungen garantieren. Insbesondere wird in Web of Science
und in Scopus durch Kurationsprozesse eine Selektion der zu indexierenden Quellen vorgenom-
men.
Deshalb bedarf es geeigneter Suchstrategien, um an die gewünschten Daten zu gelangen. Hier-
für werden optimalerweise mehrere Datenbestände mit einbezogen, vorausgesetzt die entspre-
chenden Datenbanken sind lizenziert. Nach dieser Förderung der Rohdaten ist häufig noch ei-
ne händische Nacharbeit nötig, um die erhaltenen Daten zu vereinheitlichen und Dubletten zu
vermeiden. Dies könnte als der Raffinationsprozess der Daten bezeichnet werden, auf welcher
Grundlage im Anschluss die erforderlichen Auswertungen vorgenommen werden können. Das
Monitoring des eigenen Publikationsoutputs stellt also einen beachtlichen Aufwand für eine
einzelne Einrichtung dar und ist mit vorhandenen Ressourcen oftmals nicht zu leisten.
Ein Monitoring auf nationaler Ebene, wie es beispielsweise für nationale Transformationsverträ-
ge oder für Evaluationen von Förderprogrammen erforderlich ist, bedeutet sogar ein Vielfaches
an Arbeit. Es existieren mehrere Möglichkeiten, an die benötigten Daten zu gelangen. So können
zum einen die Daten von den einzelnen Einrichtungen erhoben und zentral zusammengeführt
werden. Voraussetzung hierfür wäre, dass die entsprechenden Daten den einzelnen Einrichtun-
gen vorliegen, was jedoch, wie bereits beschrieben, häufig nicht in ausreichendem Maße der Fall
ist. Zudem muss bei einem solchen Verfahren ein Großteil der Zusammenstellung und Auswer-
tung in manueller Arbeit erledigt werden, was zum einen große Ressourcen bindet und sich
zum anderen nachteilig auf die Reproduzierbarkeit auswirkt. Als wesentlich ökonomischere
und nachhaltigere Variante der Datenakquise können bereits existierende Quellen im größtmög-
lichen Umfang nachgenutzt sowie dabei einheitliche Definitionen und Algorithmen verwendet
werden. Dieses Prinzip verfolgt der Open Access Monitor (OAM), der so als Schnittstelle zur

1 Zeitreihe
für Publikationen mit Country/Territory „Germany“: https://app.dimensions.ai/analytics/publication/
overview/timeline?or_facet_research_org_country=DE&year_from=2000&year_to=2022 Abgerufen am 10.03.2022.

cb Creative Commons BY 4.0 ISSN: 1860-7950

F. Stanzel, I. Barbers, P. Pollack, B. Lindstrot
LIBREAS. Library Ideas, 41 (2022). https://doi.org/10.18452/24797 4

Zusammenführung mehrerer Quellsysteme fungiert. Dadurch wird das kontinuierliche Moni-
toring auf nationaler Ebene ermöglicht und bietet damit die Grundlage zu faktenbasierten Ent-
scheidungen und Handlungen.

Die Struktur des OAM

Der OAM ist strukturell dreigeteilt in Backend, API und Frontend. Die aufbereiteten Daten selbst
liegen in einer Datenbank im Backend und können über die API oder das Frontend abgefragt
werden. Die folgenden Abschnitte sollen einen kurzen Überblick über die jeweiligen Bestand-
teile geben.

Backend

Im Backend läuft eine MongoDB-Instanz als Datenbankmanagementsystem, welche alle benö-
tigten Daten für den OAM bereitstellt. Bei einer MongoDB handelt es sich um eine dokumenten-
orientierte NoSQL-Datenbank. Diese ist auf große Datenmengen, wie bereits im vom englischen
‚humongous‘ (gigantisch) abgeleiteten Namen enthalten, und auf konkurrierenden Zugriff aus-
gelegt. Des Weiteren kann die Datenbank über mehrere Server skaliert oder in mehrere Teile,
sogenannte Collections, zerlegt werden. Auf diese Weise können Abfragen parallel ausgeführt
und die Verfügbarkeit erhöht werden (Bradshaw et al. 2019).
Zur Übersichtlichkeit sind die Daten je nach Art auf verschiedene Collections aufgeteilt, diese
sind in Tabelle 1 aufgelistet.2 Die Daten des OAM sind nicht wie bei SQL-orientierten Daten-
banken als Tabellen mit Relationen gespeichert, sondern werden als JSON-Dokumente abge-
legt. Dabei muss kein festgelegtes Schema für die Daten eingehalten werden und somit existie-
ren auch keine Pflichtfelder. Diese Dokumente können beliebig tief verschachtelt werden, die
Normalformen einer relationalen Datenbank finden keine Anwendung. Die dabei auftretenden
Redundanzen werden bewusst in Kauf genommen, um eine schnellere Abfragezeit zu erzielen.
Die Abfrage-Performance kann durch eine Indexierung weiter erhöht werden, da somit nicht
mehr alle Dokumente, sondern nur noch die Indizes durchsucht werden müssen (Bradshaw et
al. 2019).
Die Daten können über die umfangreiche Abfragesprache der MongoDB abgerufen oder auch
aggregiert werden. Da die Datenbank allerdings nicht über das Internet erreichbar ist, bildet die
API eine Schnittstelle, um Abfragen an die Datenbank zu stellen.

API

Der OAM besitzt als technische Schnittstelle eine REST-API (Representational State Transfer),3
welche auf HTTP-basierten Standards beruht und mit deren Hilfe die Daten des OAM abgefragt

2 Detaillierte
Informationen über den Aufbau der Collections sind zu finden unter:
https://jugit.fz-juelich.de/synoa/oam-dokumentation/-/wikis/Open%20Access%20Monitor/Datenbankschema.
Abgerufen am 17.03.2022.
3 API des OAM: https://api.open-access-monitor.de. Abgerufen am 17.03.2022.

cb Creative Commons BY 4.0 ISSN: 1860-7950

F. Stanzel, I. Barbers, P. Pollack, B. Lindstrot
LIBREAS. Library Ideas, 41 (2022). https://doi.org/10.18452/24797 5

Collection Beschreibung
Publications Publikationsdaten inkl. Zitationszahlen
PublicationCosts Publikationskosten
Journals Alle Zeitschriften des OAM
Publishers Alle Verlage des OAM
Organisations Alle Einrichtungen des OAM
Statistics Statistische Zahlen zu den Daten (zuletzt aktualisiert, . . . )
SubscriptionCosts Zukünftig: Aggregierte Subskriptionskosten

Tabelle 1: Übersicht über die Collections

werden können. Analog zur MongoDB nutzt auch die API JSON-Dokumente zur Kommunika-
tion; eine Übersicht der wichtigsten Endpunkte zeigt Tabelle 2.4

Endpunkt Beschreibung
/Data Abfrage der verfügbaren Datenbanken.
/Data/{database} Collections einer Datenbank abfragen.
/Data/{database}?query={query} Abfrage in einer Datenbank ausführen. Die Abfrage
muss als MongoDB Command5 formuliert werden.

Tabelle 2: Die wichtigsten API Endpunkte

Frontend

Um die Daten des OAM einem breiten Kreis von Nutzenden zugänglich zu machen, gibt es
ein Frontend. Dieses ist mittels der Open-Source-Entwicklungsplattform ASP.NET6 umgesetzt,
wobei Blazor7 als Framework dient.
Um die große Datenmenge möglichst übersichtlich zu präsentieren, ist die Website in mehrere
Unterkategorien aufgeteilt. Über die Auswahl auf der linken Seite können die Bereiche der Pu-
blikationsanalyse, der Kostenanalyse, der Zitationsanalyse und der Dokumentation aufgerufen
werden. Die letzten Menüpunkte in der Navigationsleiste verweisen zur Dokumentation und
bieten Links auf die Wiki-Seiten, wo zusätzliche Informationen zu den Quelldatenbanken, zur
API oder als FAQ gefunden werden können.
Die Aufteilung in die drei Auswertungsschwerpunkte Publikations-, Kosten- und Zitationsana-
lyse dient dazu, die verschiedenen Datenbereiche voneinander getrennt zur Verfügung zu stel-
len. Wird bei Publikationsanalyse der Menüpunkt Publikationen ausgewählt, erhält man eine
Seite mit vielen Filtermöglichkeiten, wie in Abbildung 1 dargestellt.

4 Eine Übersicht aller Endpunkte ist unter https://open-access-monitor.de/api/swagger zu finden. Abgerufen am
17.03.2022.
5 MongoDB-Commands: https://docs.mongodb.com/manual/reference/command/. Abgerufen am 17.03.2022.
6 ASP.NET: https://docs.microsoft.com/en-us/aspnet/core/. Abgerufen am 17.03.2022.
7 Blazor: https://dotnet.microsoft.com/apps/aspnet/web-apps/blazor. Abgerufen am 17.03.2022.

cb Creative Commons BY 4.0 ISSN: 1860-7950

F. Stanzel, I. Barbers, P. Pollack, B. Lindstrot
LIBREAS. Library Ideas, 41 (2022). https://doi.org/10.18452/24797 6

Abbildung 1: Filtermöglichkeiten für die Publikationsanalyse sowie die Gruppierungsoptionen

Diese Filter ermöglichen es den Nutzenden, diejenigen Daten zu selektieren, welche für ihre
Fragestellungen relevant sind und die restlichen Daten ausblenden zu können. Dafür gibt es Fil-
ter für die Umstellung der Datenquelle, die Auswahl des Landes und für Web of Science sowie
Scopus die Limitierung auf Publikationen mit ‚Corresponding Author‘. Ferner ist eine Selekti-
on nach Bundesland, Einrichtungen, Verlagen, Zeitschriften und Open Access (OA)-Modellen
möglich, wobei die Namensangaben jeweils normiert sind. Die Auswahlmöglichkeit für OA-
Kategorien erstreckt sich über die Ebene der Verlage, von Zeitschriften und schließlich auf die
Artikelebene.8 Zusätzlich können über den Filter „Transformationsverträge“ die Artikel aus den
Zeitschriften einzelner Transformationsverträge angezeigt werden, die in Deutschland auf na-
tionaler Ebene bestehen. Eine weitere Einschränkung ist über das Veröffentlichungsdatum mög-
lich, welches auch unterjährige Auswertungen unterstützt.
Mit all diesen Filtern ist es möglich, die Treffermenge der gefundenen Artikel einzuschränken.
Die Anzeige der ausgewählten Datenbankeinträge kann über die Gruppierungsoptionen weiter
an die individuellen Bedürfnisse angepasst werden. So ist eine Gruppierung nach Einrichtung,
Bundesland, Verlag, Zeitschrift, Jahr und OA-Kategorie sowie die nicht-gruppierte Ansicht der
Artikel inklusive DOI (digital object identifier) auswählbar.
Um die Zugänglichkeit zum Suchergebnis weiter zu erhöhen, gibt es neben der tabellarischen
Auflistung zusätzlich die grafische Darstellung als Balken-, Linien- oder Kreisdiagramm. Diese
Graphen können als PNG-Bilddateien heruntergeladen werden; ebenso stehen die Daten aus
der jeweils darüber abgebildeten Tabelle als CSV-Datei zur Verfügung.

8 Filter für OA-Kategorien:
– Verlag Publikationsmodell: Closed/Hybrid bzw. Gold
– Zeitschrift Publikationsmodell: Closed/Hybrid, Gold oder Diamond
– OA-Status Publikation: Closed, Bronze, Green (submitted), Green (accepted), Green (published), Hybrid,
Gold, Diamond

cb Creative Commons BY 4.0 ISSN: 1860-7950

F. Stanzel, I. Barbers, P. Pollack, B. Lindstrot
LIBREAS. Library Ideas, 41 (2022). https://doi.org/10.18452/24797 7

Die Daten des OAM

Im Folgenden wird der Workflow von den gesammelten Rohdaten zur einheitlichen Datenba-
sis beschrieben. Dazu werden zunächst die verwendeten Quellsysteme des OAM vorgestellt.
Um daraus einen homogenen Datenbestand zu erhalten, sind Normierungsprozesse notwen-
dig. Diese werden im Anschluss exemplarisch gezeigt, wobei ein besonderer Schwerpunkt auf
die Einrichtungsnormierung gelegt wird. Die so erhaltenen homogenen Daten können anschlie-
ßend als aufbereiteter Gesamtdatenbestand zusammengefügt und die OA-Kategorien vergeben
werden.
Grundsätzlich ist anzumerken, dass im OAM ausschließlich Publikationen verzeichnet werden,
für die ein DOI bei Crossref registriert wurde; entsprechend werden Publikationen ohne DOI
ebenso wenig berücksichtigt wie Publikationen, für die DOIs bei anderen Agenturen registriert
wurden. Das Vorliegen von DOIs ist essentiell für die Deduplizierung und die Identifikation des
OA-Status.

Quellsysteme

Die für den OAM verwendeten Quellsysteme sind in Abbildung 2 dargestellt und werden hier
im Folgenden eingehender besprochen. Der Datenbestand von Unpaywall9 ist Ausgangsbasis
und primäre Datenquelle des OAM. Von dort kommen Publikationsmetadaten wie DOI, Zeit-
schriftentitel und Verlag der jeweiligen Publikationen. Für die Zuordnung der OA-Kategorien
wird ebenfalls Unpaywall verwendet sowie das Directory of Open Access Journals (DOAJ)10
für die OA-Kategorie von Zeitschriften. Unpaywall ist eine Datenbank mit über 30 Millionen
wissenschaftlichen OA-Artikeln, wobei diese ebenfalls aus weiteren Datenbanken wie Crossref
und PubMed gespeist wird. Zusätzlich wird der Inhalt von über 50.000 OA-Repositorien direkt
eingesammelt. Der gesamte Datenbestand von Unpaywall weist über 120 Millionen Datensätze
nach.11 Zentral für die Nutzung ist die Vergabe eines DOI für einzelnen Artikel (Dhakal 2019).
Das DOAJ registriert über 17.000 reine OA-Zeitschriften, Hybrid-Modelle sind davon ausge-
nommen. 2014 wurden die Qualitätskriterien angepasst, um bei sich ändernden Rahmenbedin-
gungen weiterhin das DOAJ als eine Art Positivliste aufrechtzuerhalten und „questionable pu-
blishers“ (Olijhoek et al. 2015) nicht zu indexieren.
Für die Zeitschriftennormierung wird Crossref12 verwendet: Crossref bietet die Verlinkung zwi-
schen zitierender und zitierter Publikation über Verlagsgrenzen hinweg mittels PIDs an (Hen-
dricks et al. 2020). Ferner bietet Crossref eine Titelliste über alle dort registrierten Zeitschriften
an (Clark 2020), welche vom OAM zur Normierung nachgenutzt wird. Eine ausführlichere Be-
schreibung findet sich nachfolgend im Abschnitt Zeitschriftennormierung.

9 Unpaywall: http://unpaywall.org/. Abgerufen am 17.03.2022.
10 Directory of Open Access Journals (DOAJ): https://doaj.org/. Abgerufen am 17.03.2022.
11 Unpaywall: https://unpaywall.org/products/snapshot. Abgerufen am 17.03.2022.
12 Crossref: https://www.crossref.org/. Abgerufen am 17.03.2022.

cb Creative Commons BY 4.0 ISSN: 1860-7950

F. Stanzel, I. Barbers, P. Pollack, B. Lindstrot
LIBREAS. Library Ideas, 41 (2022). https://doi.org/10.18452/24797 8

Abbildung 2: Übersicht der verwendeten Quellsysteme für den OAM

Weiterhin werden die Publikationsdaten des OAM durch folgende drei Datenquellen angerei-
chert: Dimensions, Web of Science (WoS) und Scopus.13 Diese drei Datenbanken liefern als ganz
wesentliches Element des OAM die Zuordnung der Publikationen zu den Einrichtungen über
die Autorenaffiliationen und außerdem Zitationsnachweise. Dimensions weist eine frei zugäng-
liche Version auf, welche weniger Funktionen als der kostenpflichtige Zugang enthält. Dimensi-
ons indexiert Publikationen mit Crossref-DOIs. Es wird also weniger selektiert als bei den Kon-
kurrenzprodukten, wodurch eine höhere Abdeckungsrate an Einträgen gegeben ist (Schonfeld
2018). Im Gegensatz dazu verwendet das WoS einen Kurationsprozess, wodurch lediglich eine
Auswahl von Zeitschriften in der Zitationsdatenbank indexiert ist. Bei Scopus gibt es ebenfalls
einen Auswahlprozess, jedoch befindet sich die daraus resultierende Abdeckungsrate zwischen
den anderen beiden vorgestellten Datenbanken. Für die Zwecke des OAM weisen WoS und Sco-
pus den Vorteil des Nachweises der sogenannten Reprint Authors beziehungsweise Correspon-
ding Authors auf, wobei in Scopus mehr Titel aus dem deutschsprachigen Raum enthalten sind
(Singh et al. 2021). Die Anbindung aller drei Datenbanken an den OAM bietet den Einrichtungen
die maximale Datenkonsistenz zu ihrer präferierten Datenquelle, so dass sich Uneinheitlichkei-
ten für die Nutzenden reduzieren.
Für Gold- und Hybrid-Open-Access-Publikationen entstehen für publizierende Einrichtungen
beziehungsweise ihren Autor*innen Kosten, welche im Rahmen eines Open-Access-Monitorings
berücksichtigt werden müssen. Dafür werden die Daten von OpenAPC14 nachgenutzt, die von
den Einrichtungen dort gemeldet und mit Daten von Crossref, PubMed und DOAJ ergänzt wer-
den. Damit ist der Datenbestand zum einen abhängig von den Beiträgen der jeweiligen Einrich-
tungen und zum anderen von der Qualität sowie der Vollständigkeit der gemeldeten Daten.

13 DigitalScience: Dimensions. https://www.dimensions.ai/. Abgerufen am 17.03.2022.; Clarivate: Web of Science.
https://clarivate.com/webofsciencegroup/solutions/web-of-science/. Abgerufen am 17.03.2022.; Elsevier: Scopus.
https://www.elsevier.com/solutions/scopus. Abgerufen am 17.03.2022.
14 OpenAPC: https://openapc.net/. Abgerufen am 17.03.2022.

cb Creative Commons BY 4.0 ISSN: 1860-7950

F. Stanzel, I. Barbers, P. Pollack, B. Lindstrot
LIBREAS. Library Ideas, 41 (2022). https://doi.org/10.18452/24797 9

Subskriptionskosten für Zeitschriftenlizenzen werden über LAS:eR15 bezogen. Bei LAS:eR han-
delt es sich um ein Electronic Resource Management System (ERMS), mit dem konsortiale und
lokale Lizenzen und Kosteninformationen in einem System verwaltet werden können. Einrich-
tungen, die das System zur Erfassung Ihrer Lizenzkosten nutzen, können durch eine Zustim-
mung zur Datenweitergabe diese Informationen automatisiert an den OAM abliefern lassen. Da
in den Verträgen mit den Verlagen in der Regel Geheimhaltungsklauseln enthalten sind (Doen-
ges 2017), können Kostenangaben nur in aggregierter Form öffentlich verfügbar gemacht wer-
den. Um einzelnen Institutionen dennoch die Möglichkeit zu bieten, ihre gesamten Kosten mit-
tels des OAM auswerten zu können, ist ein abgestuftes Rechtemanagement für den Zugriff nö-
tig. Hierfür wird ein Authentifizierungsverfahren umgesetzt, sodass der Einblick in Subskripti-
onskosten auf Einrichtungsebene nur der jeweiligen Einrichtung zur Verfügung steht. Der OAM
ist abhängig von der Nutzung des Systems durch die Einrichtungen, der Zustimmung der Da-
tenlieferung an den OAM sowie der Qualität der dort eingegebenen Daten. Um unabhängiger
von der Verwendung eines bestimmten ERMS zu werden und weitere Einrichtungen mit dem
Angebot eines Monitorings der Subskriptionskosten zu erreichen, ist die zusätzliche Anbindung
von Bibliothekssystemen wie FOLIO16 und Alma17 geplant.

Normierungsprozesse

Aufgrund der Zusammenführung vieler verschiedener Quellsysteme im Backend des OAM be-
darf es einer Vereinheitlichung der Begriffe: Zeitschriftentitel, Verlagsnamen und Einrichtungs-
bezeichnungen müssen normiert werden, damit die Einträge aus den jeweiligen Quellsystemen
den entsprechenden Datensätzen zugeordnet werden können. Nur so können vollständige Da-
tenbestände realisiert und Dubletten mit Namensvarianten ausgeschlossen werden.

Zeitschriftennormierung

In den jeweiligen Datenbanken liegen die Zeitschriftentitel nicht immer in gleicher Schreibweise
beziehungsweise mit gleichen Identifikatoren vor. Daher wird eine Normliste benötigt, auf wel-
che gegebenenfalls abweichende Schreibweisen der Zeitschriftentitel gemappt werden können.
Um diese nicht neu manuell anlegen zu müssen, sollte eine bereits existierende Auflistung nach-
genutzt werden. Dafür wird die Titelliste von Crossref verwendet, da in dieser alle in Crossref
registrierten Zeitschriften hinterlegt sind (Clark 2020). Dadurch kommt diese Zeitschriftenliste
relativ nahe an den Idealzustand einer vollständigen Liste heran und ist zusätzlich gut für die
automatische Weiterverarbeitung geeignet.
Für den Abgleich mit den vom Quellsystem gelieferten Titelansetzungen wird zunächst per
ISSN in der Titelliste gesucht, wobei nur eine der ISSNs übereinstimmen muss. Dementspre-
chend könnten mehrere mögliche Kandidaten in der Titelliste gefunden werden. Je nach Treffer-
menge wird wie in Tabelle 3 beschrieben vorgegangen:

15 Hochschulbibliothekszentrum des Landes Nordrhein-Westfalen (hbz): LAS:eR.
https://www.hbz-nrw.de/produkte/digitale-inhalte/las-er. Abgerufen am 17.03.2022.
16 FOLIO: https://www.folio.org/. Abgerufen am 17.03.2022.
17 Alma: https://exlibrisgroup.com/de/produkte/alma-cloudgestuetzte-bibliotheksplattform/. Abgerufen am

17.03.2022.

cb Creative Commons BY 4.0 ISSN: 1860-7950

F. Stanzel, I. Barbers, P. Pollack, B. Lindstrot
LIBREAS. Library Ideas, 41 (2022). https://doi.org/10.18452/24797 10

Trefferanzahl Vorgehen
Genau ein Treffer Auswahl des eindeutigen Treffers
Mehr als ein Treffer Sortierung und Auswahl nach folgenden Kriterien:
– Übereinstimmung der ISSN-L
– Übereinstimmung einer ISSN
– Übereinstimmung einer zusätzlichen ISSN18
– Ähnlichkeit des Titels
Kein Treffer Exakte Titelsuche

Tabelle 3: Abgleich der Zeitschriftentitel mit der Zeitschriftentitelliste

Sind die Zeitschriftentitel normiert, werden diese direkt mit mehreren Informationen angerei-
chert. Durch diese zusätzlichen Informationen wird beispielsweise der im Frontend implemen-
tierte Filter nach Mirror Journals ermöglicht, um diese Zeitschriften selektieren oder auch aus-
schließen zu können. Dafür gibt es jeweils eine statische Zeitschriftenliste für Mirror Journals so-
wie eine für die bei DFG-Förderanträgen zu berücksichtigenden Zeitschriften. Letztere besteht
aus den Zeitschriften aus dem DOAJ, ergänzt um die ISSN-Gold-OA-Zeitschriftenliste aus Bie-
lefeld (Bruns et al. 2022), und um Mirror-Journals bereinigt. Zeitschriften, welche in einer dieser
Listen vorkommen, wird automatisch die OA-Kategorie „Gold“ zugewiesen, da von vornherein
nur OA-Zeitschriften in diese Listen aufgenommen werden.
Darüber hinaus gibt es für jeden Transformationsvertrag eine eigene Liste mit den im Vertrag
enthaltenen hybriden Zeitschriften, für die innerhalb des Vertrags Publikationsrechte bestehen.
Alle Listen werden vom Team des OAM gepflegt und sind öffentlich zugänglich.19

Verlagsnormierung

Als Normliste für die Verlage werden im ersten Schritt die von Unpaywall gelieferten Angaben
übernommen. Im zweiten Schritt werden mit Hilfe einer intern gepflegten Liste verschiedenen
Schreibweisen eines Verlags auf eine gemeinsame Hauptschreibweise zusammengeführt.
Dabei werden nicht nur unterschiedliche Schreibweisen wie „Elsevier B.V.“ oder „Elsevier Pub.
Co.“ zu „Elsevier“ vereinheitlicht, sondern auch Imprints den übergeordneten Verlagen zuge-
ordnet wie beispielsweise „Island Press“ zu „Springer Nature“.

Einrichtungsnormierung

Die Normierung der Einrichtungen erfolgte bisher über ihre GRID-ID. Die Global Research Iden-
tifier Database20 (GRID) stattet Forschungsinstitutionen weltweit mit PIDs aus, der GRID-ID.
Ausgehend von diesem Datenbestand hat sich die community-basierte Research Organization
Registry21 (ROR) entwickelt (ROR Leadership Team 2021), welche seit Ende 2021 anstelle von
GRID für Einrichtungen im OAM verwendet wird. Für die Normierungsarbeit im OAM wird
19 Open Access Monitor: Journal lists. https://doi.org/10.26165/JUELICH-DATA/VTQXLM.
20 Global Research Identifier Database: https://www.grid.ac/. Abgerufen am 17.03.2022.
21 Research Organization Registry: https://ror.org/. Abgerufen am 17.03.2022.

cb Creative Commons BY 4.0 ISSN: 1860-7950

F. Stanzel, I. Barbers, P. Pollack, B. Lindstrot
LIBREAS. Library Ideas, 41 (2022). https://doi.org/10.18452/24797 11

allerdings im Hintergrund derzeit noch GRID mitsamt der bereitgestellten Rechercheoberfläche
genutzt, da in der ROR-Oberfläche Beziehungen zwischen Organisationen noch nicht abgebildet
werden.
Einrichtungsnamen werden in den verwendeten Publikations- und Zitationsdatenbanken zwar
normiert, es liegen jedoch unterschiedliche Mechanismen zu Grunde. So wird in Dimensions
den Einrichtungen ihre GRID-ID zugeordnet, welche leicht in die ROR-ID überführt werden
kann. Dementsprechend kann diese Normierung ohne größere manuelle Arbeiten übernommen
werden.
In WoS und Scopus werden die Einrichtungen jedoch nicht auf einen offenen PID normiert. Vor
allem aber werden die Beziehungen und Abhängigkeiten jeweils unterschiedlich dargestellt.
Beispielsweise werden in diesen Datenbanken die Universitätskliniken in der Regel den Univer-
sitäten zugeordnet, für die Auswertungszwecke des OAM ist jedoch eine getrennte Behandlung
erwünscht. Um eine eindeutige Zuordnung aller Datensätze gewährleisten zu können, müssen
daher die Daten von Scopus und WoS mit PIDs angereichert werden. Dort, wo die an den OAM
gelieferten Einrichtungsnormierungen der Datenbanken aus den eben genannten Gründen nicht
direkt auf GRID-IDs gemappt werden können, werden die Rohformen der Affiliationsangaben
der Autor*innen für die Zuordnung verwendet. Das Ergebnis dieses Verfahrens ermöglicht den
nahtlosen Wechsel der Datenquellenauswahl in der Oberfläche des OAM. Im Folgenden wird
das Vorgehen am Beispiel einer Universitätsklinik erläutert.
Das „Universitätsklinikum Würzburg“ mit der GRID-ID grid.411760.522 ist in den Scopus-Daten
unter folgenden Namen vertreten:

– Universitätsklinik Würzburg
– University Clinic Würzburg
– Universitaetsklinik Wuerzburg
– Chirurgische Universitätsklinik Würzburg
– Med. Universitatsklinik Wurzburg

Insgesamt 129 Treffer werden allein in den Scopus-Daten der deutschen Einrichtungen mit fol-
gender SQL-SELECT-Abfrage nach „Universitätsklinik Würzburg“ gefunden (Abbildung 3):
Im Anschluss kann diesen 129 Treffern der SELECT-Abfrage die GRID-ID grid.8379.5 zugeord-
net werden. Diese SELECT-Abfrage ist komplex, da einerseits eine gewisse Unschärfe, beispiels-
weise durch Trunkierung der Suchbegriffe, gegeben sein muss, um möglichst viele Schreibwei-
sen abzudecken. Andererseits muss sie hinreichend selektiv sein, damit Einrichtungen mit ei-
nem ähnlichen Namen nicht zusätzlich gefunden werden. Im obigen Beispiel wären dies Ein-
richtungen aus Wuppertal sowie die dem Universitätsklinikums Würzburg (Parent-Institute)
untergeordneten Einrichtungen (Child-Institutes), wie zum Beispiel die Universitäts-Kinderklinik
Würzburg, welche jeweils eine eigene GRID-ID aufweisen (siehe Abbildung 4).

22 GRID Instituts-Suche: https://grid.ac/institutes. Abgerufen am 17.03.2022.

cb Creative Commons BY 4.0 ISSN: 1860-7950

F. Stanzel, I. Barbers, P. Pollack, B. Lindstrot
LIBREAS. Library Ideas, 41 (2022). https://doi.org/10.18452/24797                        12

Abbildung 3: SQL-SELECT-Abfrage nach „Universitätsklinik Würzburg“ im Microsoft SQL Ser-
ver Management Studio; scopus_organisations ist die Tabelle mit dem Einrichtungs-Datensatz
von Scopus; sc_organisation ist die Spalte mit den verschiedenen Einrichtungs-Bezeichnungen.

Abbildung 4: Screenshot des GRID-Eintrages des Universitätsklinikums Würzburg (Datensatz
für das Universitätsklinikum Würzburg in GRID: https://grid.ac/institutes/grid.411760.5. Ab-
gerufen am 17.03.2022).

cb Creative Commons BY 4.0                                                  ISSN: 1860-7950

F. Stanzel, I. Barbers, P. Pollack, B. Lindstrot
LIBREAS. Library Ideas, 41 (2022). https://doi.org/10.18452/24797 13

Um falsche Zuordnungen sowie fehlende Einträge zu vermeiden, werden die vergebenen IDs in-
tellektuell geprüft. Dabei hat sich ein mehrstufiges Vorgehen etabliert: Zu Beginn sind die SQL-
Abfragen eher weit gefasst. Anhand des Suchergebnisses werden weitere Filter zur SELECT-
Anweisung ergänzt, um ein präziseres Ergebnis zu erzielen. Je genauer (precision) die „Treffer-
quote“ (recall) und geringer der „Ausfall“ (fallout) ist, desto weniger aufwändig ist die intellek-
tuelle Durchsicht (Buckland und Gey 1994). Im Beispiel der SELECT-Abfrage nach „Uniklinik
Würzburg“ kommt es trotz präziser Formulierung zu einem Treffer wie „Competence Centre for
University Teaching in Medicine Baden-Wuerttemberg“. Ein solcher „Ausfall“ lässt sich nicht
ganz vermeiden und der entsprechende Eintrag muss bei einer intellektuellen Prüfung selbst-
verständlich eine andere ID erhalten als die der Uniklinik Würzburg. Teilweise ist die korrekte
Zuordnung der GRID-ID eine anspruchsvolle Aufgabe, da zum einen die Affiliationsangaben
oft nicht eindeutig sind und andererseits die klare Trennung der Einrichtungen insbesondere
bei Kliniken zusätzlicher Recherche bedarf. Aus der Trefferliste mit den 129 Bezeichnungen des
Universitätsklinikums Würzburg werden 129 SQL-UPDATE-Befehle erzeugt, wie zum Beispiel
folgender:

UPDATE scopus_organisations SET sc_grid = ’ grid.8379.5 ’ WHERE
sc_organisation =.’Universitätsklinik Würzburg’

Zur Erzeugung des UPDATE-Befehls wird die Ergebnistabelle der SQL-SELECT-Abfrage in eine
Excel-Tabelle kopiert und mittels „Verketten“-Funktion die GRID-ID und die Spalte mit den
verschiedenen Bezeichnungen zu einem UPDATE Befehl verknüpft. Anschließend werden die
Befehle im SQL Management Studio ausgeführt. Somit sind die GRID-IDs der Einrichtungen in
den Scopus-Datensätzen zugeordnet. Für das Mapping der WoS-Einrichtungsnamen wird ein
analoges Verfahren eingesetzt.
Ist dieser Prozess für alle Einrichtungen abgeschlossen, kann die normierte Einrichtungstabelle
durch ein Importverfahren in den OAM überführt werden. Da WoS und Scopus zwei eigenstän-
dige Datenbanken mit eigenen Rohdaten sind, muss dieses Verfahren für jede Datenquelle ein-
zeln erfolgen. Dementsprechend sind für die Einrichtungsnormierung zwei Tabellen im OAM
hinterlegt.
Für eine bessere Durchsuchbarkeit und Auswählbarkeit der Einrichtungen im Einrichtungsfilter
des OAM sind diese in Kategorien eingeteilt. Die Kategorien von ROR sind für die Zwecke des
OAM zu unscharf, sodass eine interne Zuordnungsliste gepflegt wird, welche jeder Einrichtung
eine Kategorie zuordnet (siehe Tabelle 4).

Zusammenführung der Quellsysteme

Zur Generierung einer gemeinsamen Datenbasis aus allen genannten Quellsystemen wird Un-
paywall als primäre Quelle verwendet. Dabei werden über den wöchentlichen Datenfeed für
alle Publikationen mit dem Dokumenttyp „journal article“ folgende Daten erfasst: DOI, Zeit-
schrift, Verlag, Veröffentlichungsdatum und OA-Modell. Eine Übersicht der genutzten Quell-
systeme und den daraus verwendeten Daten befindet sich in Abbildung 5.
Weitere Daten werden über den DOI aus Dimensions, Web of Science und Scopus wöchentlich
per Datenfeed importiert, dabei werden für jeden Artikel die involvierten Einrichtungen, die

cb Creative Commons BY 4.0 ISSN: 1860-7950

F. Stanzel, I. Barbers, P. Pollack, B. Lindstrot
LIBREAS. Library Ideas, 41 (2022). https://doi.org/10.18452/24797 14

Einrichtungskategorie
Universitäten
Universitätskliniken
Fachhochschulen
Fraunhofer-Gesellschaft
Helmholtz-Gemeinschaft
Max-Planck-Gesellschaft
Leibniz-Gemeinschaft
Einrichtungen des Bundes
Einrichtungen der Länder
Sonstige

Tabelle 4: Einrichtungskategorien des OAM

jeweilige ID der Datenbank und die Zitationszahlen zu den bereits vorhandenen Artikeldaten
hinzugefügt. Für WoS und Scopus wird zudem die Information des Corresponding Authors
ergänzt. Um eine möglichst genaue Zuordnung zu realisieren, werden die affiliierten Einrich-
tungen mittels der ROR-ID zugeordnet. Ein weiterer Abgleich findet über die ISSNs der Zeit-
schriften mit der Zeitschriftentitelliste von Crossref statt.
Bis hierhin sind lediglich Informationen über den Publikationsoutput der einzelnen Einrichtun-
gen deutschlandweit, ohne Nachweise über Kosten, verfügbar. Um die Publikationskosten zu
erfassen, ist im Backend des OAM eine weitere Collection angelegt. Dafür werden Daten aus
OpenAPC für die einzelnen Artikel verwendet, wie der Artikel-DOI, Publikationsjahr und die
bezahlende Einrichtung, welche ebenfalls auf die ROR-ID gemappt wird. Ferner werden die
Kosten erfasst, wobei zwischen APCs und Hybrid-Artikeln differenziert wird. Dieser Daten-
bestand wird mit weiteren Daten aus Unpaywall angereichert, wobei die Zuordnung per DOI
geschieht. Hier werden Verlag, Veröffentlichungsdatum, Zeitschrift und die OA Farbe der Zeit-
schrift erfasst.
Damit sind zwar die Kosten für OA-Publikationen ebenfalls in der Datenbank enthalten, aber es
fehlen noch die Subskriptionskosten. Im Produktivsystem sind diese noch nicht implementiert,
jedoch ist die Einbindung von LAS:eR im Testsystem bereits umgesetzt. Außerdem wird ein
Authentifizierungsmechanismus eingerichtet, um der jeweiligen Einrichtung ihre Daten ohne
Einsichtnahme von Dritten und langfristig ein individuelles OA-Barometer zur Verfügung zu
stellen.
Bei großen Datenmengen ist es nicht möglich, sämtliche Fehlerquellen vermeiden zu können.
Allerdings kann durch ein gutes System sowie durch Korrekturschleifen die Datenqualität ver-
bessert werden. Nähere Informationen hierzu sind im Wiki des OAM hinterlegt.23

23 Genauere
Informationen zu den Korrekturroutinen unter: https://jugit.fz-juelich.de/synoa/oam-dokumentation/-
/wikis/Quelldatenbanken/Anpassungen%20an%20den%20Quelldaten. Abgerufen am 17.03.2022.

cb Creative Commons BY 4.0 ISSN: 1860-7950

F. Stanzel, I. Barbers, P. Pollack, B. Lindstrot
LIBREAS. Library Ideas, 41 (2022). https://doi.org/10.18452/24797 15

Abbildung 5: Zusammenführung der Quellsysteme des OAM

Zuordnung der OA-Kategorien

Für die OA Zuordnung einzelner Publikationen werden verschiedene Felder von Unpaywall
ausgewertet. Dieser Datensatz beinhaltet nicht nur allgemeine Daten zum OA-Status der Pu-
blikation respektive der zugehörigen Zeitschrift, sondern listet darüber hinaus alle Orte auf, an
denen eine freie Version der Publikation gefunden werden konnte (OA Location).24 Mit Hilfe
dieser Daten kann eine detaillierte OA-Zuordnung durchgeführt werden. Dazu werden die in
Tabelle 5 dargestellten Prüfmechanismen in der abgebildeten Reihenfolge für jede OA Location
abgearbeitet. Sobald eine Bedingung erfüllt ist, wird die OA Location mit der jeweiligen OA-
Kategorie markiert und die Prüfung für die nächste OA Location fortgeführt. Schließlich wird
die „beste“ vergebene OA-Kategorie für die Publikation erfasst.
Die OA-Zuordnung für Zeitschriften erfolgt über einen ISSN-Abgleich mit den Daten des DOAJ,
um das Publikationsmodell der Zeitschriften zu bestimmen. Dabei wird, analog zur Tabelle
5, zwischen Diamond, Gold und Closed beziehungsweise Hybrid OA unterschieden. Zusätz-
lich können auch intern gepflegte Listen Einfluss auf die OA-Zuordnung der Zeitschriften neh-
men.25
Bei den Verlagen wird nur zwischen Gold und Closed beziehungsweise Hybrid OA differen-
ziert. Dazu wird eine intern hinterlegte, manuell generierte Liste genutzt und bei einer Über-
einstimmung kann der Verlag als reiner OA-Verlag markiert werden. Während Verlage mit dem
Publikationsmodell Gold ausschließlich Gold-OA-Zeitschriften publizieren, können Verlage mit

24 Unpaywall FAQ. How is the best OA location determined?:
https://support.unpaywall.org/support/solutions/articles/44001943223-how-is-the-best-oa-location-determined.
Abgerufen am 17.03.2022.
25 Open Access Monitor: Journal lists. https://doi.org/10.26165/JUELICH-DATA/VTQXLM.

cb Creative Commons BY 4.0 ISSN: 1860-7950

F. Stanzel, I. Barbers, P. Pollack, B. Lindstrot
LIBREAS. Library Ideas, 41 (2022). https://doi.org/10.18452/24797 16

Definition Bedingungen
Diamond Gold-Veröffentlichung ohne APCs
Gold Veröffentlicht in einer Open-Access-Zeitschrift, die im
DOAJ indexiert ist.
Hybrid Frei unter einer offenen Lizenz in einer Subskriptions-
Zeitschrift veröffentlicht.
Green published Kostenpflichtiger Zugang auf der Verlagsseite, aber es gibt
eine freie Kopie der veröffentlichten Verlagsversion in ei-
nem Open-Access-Repositorium.
Green accepted Kostenpflichtiger Zugang auf der Verlagsseite, aber es gibt
eine freie Kopie des akzeptierten Manuskripts in einem
Open-Access-Repositorium (Postprint).
Green submitted Kostenpflichtiger Zugang auf der Verlagsseite, aber es gibt
eine freie Kopie des eingereichten Artikels in einem Open-
Access-Repositorium (Preprint).
Green undefined Version kann nicht bestimmt werden; wird im OAM wie
Green submitted behandelt
Bronze Frei zu lesen auf der Verlagsseite, aber ohne klar erkennba-
re Lizenz.
Closed Alle anderen Artikel. (Nicht frei zugänglich.)

Tabelle 5: Definitionen der Open-Access-Kategorien sowie die intern hinterlegten Bedingungen
für die Zuordnung

dem Modell „Closed/Hybrid“ sowohl Gold-, Hybrid-, als auch reine Subskriptionszeitschriften
herausgeben.

Zusammenfassung und Ausblick

Die Auswahl, Anbindung und Zusammenführung einer Vielzahl von Datenquellen stellt sich als
hoch komplexer Vorgang dar, der vor allem durch die Heterogenität der Daten erschwert wird.
Neben der Frage der Verfügbarkeit und Nachhaltigkeit der Quellsysteme bildet das Thema der
Metadatenqualität eine dauerhafte Herausforderung. An vielen Stellen, beispielsweise bei der
Normierung von Verlagsnamen oder bei der Kuratierung von Zeitschriftenlisten, können Auto-
matismen nur teilweise greifen und es muss dauerhaft manuell überwacht und nachgebessert
werden.
Die Verwendung der kommerziellen Datenbanken Dimensions, Web of Science und Scopus als
Quellen hat den Nachteil, dass sie von fortlaufenden Vereinbarungen und Diensten abhängig
ist. Die beiden letztgenannten haben zudem eine Einschränkung durch ihre Methode der Vor-
auswahl bei der Indexierung von Quellen und ihre Bevorzugung englischsprachiger Literatur.
Sie besitzen jedoch den Vorteil, als qualitätsgeprüft zu gelten und weitgehend als Referenz an-
erkannt zu sein. Durch die Angabe von IDs der Quellsysteme bietet der OAM bei allen Daten-
sätzen eine Verlinkung zur Ursprungsdatenbank. So können weitere Metadaten, die der OAM

cb Creative Commons BY 4.0 ISSN: 1860-7950

F. Stanzel, I. Barbers, P. Pollack, B. Lindstrot
LIBREAS. Library Ideas, 41 (2022). https://doi.org/10.18452/24797 17

nicht auswertet, abgerufen werden. Bei Web of Science und Scopus steht dabei die Schranke der
Lizenz vor der vollständigen Nachnutzung, jedoch sind diese beiden Datenbanken die einzigen
bekannten Quellen, die Corresponding-Author-Informationen in ausreichendem Umfang lie-
fern. Diese Information ist essentiell, da damit für die wissenschaftlichen Einrichtungen poten-
tiell kostenpflichtige Publikationen identifiziert werden können, was wiederum für verlässliche
Prognosen zur Budgetplanung unerlässlich ist.
Unter Berücksichtigung aller Vor- und Nachteile der bereits integrierten Quellsysteme wird wei-
terhin nach möglichen Alternativen beziehungsweise Ergänzungen in Form von vorzugsweise
offenen Datenquellen Ausschau gehalten und die Möglichkeiten zur Integration ihrer Daten ge-
prüft. Mit der Ankündigung von OurResearch, einen Nachfolger für den Ende 2021 eingestellten
Dienst Microsoft Academic Graph aufzubauen26 , ist mit OpenAlex (https://openalex.org/) eine
Alternative als nicht-kommerzielle Datenbank ins Blickfeld geraten.
Für eine technische Implementierung als Quellsystem des OAM sind bei OpenAlex durch Ver-
wendung von ROR grundsätzlich gute Voraussetzungen gegeben. Dies macht die Daten kom-
patibel zur Institutionenkodierung des OAM. Als Nachteil für die Zwecke des OAM stellen sich
die fehlenden Corresponding-Author-Informationen dar.
Durch den Ansatz von OpenAlex, neben den Daten von Unpaywall, Crossref, Pubmed et cete-
ra auch Daten von Repositorien zu harvesten, muss zudem die Frage der Deduplizierung von
Publikationen untersucht werden. Für die Zwecke der Auswertungen, welche mit dem OAM er-
stellt werden können, ist die möglichst korrekte und duplikatfreie Bildung von Aggregationen
erforderlich. Bei Publikationen, zu denen ein DOI vorliegt, wird jedoch eine Deduplizierung
weitgehend möglich sein, was aber umgekehrt bedeutet, dass das bekannte Problem der Unter-
repräsentation mancher Publikationsformen fortbesteht.
Eine umfassende Untersuchung von OpenAlex samt einem Vergleich mit anderen Systemen
liegt angesichts der erst kürzlich erfolgten Freischaltung bisher noch nicht vor. Allerdings stel-
len sich nach ersten Einblicken in die noch nicht offiziell freigegebene Weboberfläche noch ei-
nige Fragen. So scheint es zum Beispiel bei den Datensätzen zu Autor*innen keine Mehrfachaf-
filiationen zu geben und auch die Disambiguierung scheint noch nicht abgeschlossen zu sein.
Beispielsweise finden sich in der Datenbank noch zahlreiche Mehrfacheinträge für Autor*innen
sowie in Einzelfällen falsche Zuordnungen. Nach Selbstauskunft der Betreiber*innen sind noch
Datenbereinigungen notwendig.27
Insgesamt zeigt OpenAlex jedoch einen zukunftsweisenden Ansatz und eine Anbindung als
weitere Quelldatenbank für den OAM wird mittelfristig geplant. Das Geschäftsmodell soll zu-
künftig ähnlich wie bei den anderen OurResearch-Diensten Unpaywall und Unsub auf einem
Freemium-Modell basieren, was sich laut eigener Aussage von OurResearch bisher als stabil er-
wiesen hat. Die Nutzung freier Datenquellen erlangt mit der dadurch ermöglichten Ablösung
der Abhängigkeit von kommerziellen Systemen sowie durch die komplett offene Nachnutzbar-
keit immer größere Bedeutung. Allerdings stellt sich gleichzeitig die Frage der Nachhaltigkeit
beziehungsweise dauerhaften Verfügbarkeit freier Quellen. Nur wenn diese unterstützt und ge-
nutzt werden, bleiben sie erhalten. Letztendlich ist es aber auch notwendig, die eigenen Systeme

26 OurResearch Blog: https://blog.ourresearch.org/were-building-a-replacement-for-microsoft-academic-graph/.
Abgerufen am 17.03.2022.
27 OpenAlex. Known Issues: https://docs.openalex.org/known-issues. Abgerufen am 17.03.2022.

cb Creative Commons BY 4.0 ISSN: 1860-7950

F. Stanzel, I. Barbers, P. Pollack, B. Lindstrot
LIBREAS. Library Ideas, 41 (2022). https://doi.org/10.18452/24797                                18

technisch und organisatorisch so zu gestalten, dass bei Bedarf ein Wechsel von Quellsystemen
beziehungsweise der parallele Einsatz möglich ist.

Danksagung

Der Open Access Monitor wird durch das Bundesministerium für Bildung und Forschung (BMBF)
mit dem Förderkennzeichen 16OAMO001 gefördert. Die Nutzung der Web of Science-Daten
wird ermöglicht durch die Projektteilnahme am Kompetenznetzwerk Bibliometrie; gefördert
durch das Bundesministerium für Bildung und Forschung (Förderkennzeichen: 16WIK2101A).

Literaturverzeichnis

Barbers, Irene; Kalinna, Nadja; Mittermaier, Bernhard (2018): Data-Driven Transition: Joint Re-
porting of Subscription Expenditure and Publication Costs. In: Publications 6 (2), Nr. 19. https:
//doi.org/10.3390/publications6020019.
Bradshaw, Shannon; Brazil, Eoin; Chodorow, Kristina (2019): MongoDB: the definitive guide.
Powerful and scalable data storage. Third edition. Beijing, Boston, Farnham: O’Reilly. ISBN
9781491954461.
Bruns, Andre; Cakir, Yusuf; Kaya, Sibel; Beidaghi, Samaneh (2022): ISSN-Matching of Gold OA
Journals (ISSN-GOLD-OA) 5.0. https://doi.org/10.4119/unibi/2961544.
Buckland, Michael; Gey, Fredric (1994): The relationship between Recall and Precision. In: J. Am.
Soc. Inf. Sci. 45 (1), S. 12–19. https://doi.org/10.1002/(SICI)1097-4571(199401)45:1%3C12::AID-
ASI2%3E3.0.CO;2-L.
Clark, Rosa (2020): Browsable title list. Online verfügbar unter https://www.crossref.org/docu
mentation/reports/browsable-title-list/, zuletzt aktualisiert am 08.04.2020, zuletzt geprüft am
22.03.2022.
Couldry, Nick; Jun Yu (2018): Deconstructing datafication’s brave new world. In: New Media &
Society (12), S. 4473–4491. https://doi.org/10.1177/1461444818775968.
Dhakal, Kerry (2019): Unpaywall. In: Journal of the Medical Library Association : JMLA 107 (2), S.
286–288. https://doi.org/10.5195/jmla.2019.650.
Doenges, Hannah (2017): Non-Disclosure Clauses: the making, breaking, and remaking of re-
lationships. University of Washington, Washington D.C. School of Law. Online verfügbar unter
https://depts.washington.edu/uwlawlib/wordpress/wp-content/uploads/2018/01/Doenges
2017.pdf, zuletzt geprüft am 22.03.2022.
Günther, Wendy Arianne; Rezazade Mehrizi, Mohammad H.; Huysman, Marleen; Feldberg,
Frans (2017): Debating big data: A literature review on realizing value from big data. In: The Jour-
nal of Strategic Information Systems 26 (3), S. 191–209. https://doi.org/10.1016/j.jsis.2017.07.003.

cb Creative Commons BY 4.0                                                         ISSN: 1860-7950

F. Stanzel, I. Barbers, P. Pollack, B. Lindstrot
LIBREAS. Library Ideas, 41 (2022). https://doi.org/10.18452/24797                              19

Hendricks, Ginny; Tkaczyk, Dominika; Lin, Jennifer; Feeney, Patricia (2020): Crossref: The su-
stainable source of community-owned scholarly metadata. In: Quantitative Science Studies 1 (1),
S. 414–427.
Hey, Tony; Tansley, Stewart; Tolle, Kristin (2009): The Fourth Paradigm: Data-Intensive Scientific
Discovery: Microsoft Research. ISBN 9780982544204.
Hirsch, Dennis (2014): The Glass House Effect: Big Data, The New Oil, and the Power of Analogy.
In: Maine Law Review 66 (2), S. 373. Online verfügbar unter https://digitalcommons.mainelaw.
maine.edu/mlr/vol66/iss2/3, zuletzt geprüft am 22.03.2022.
Kharlamov, Evgeny; Skjaveland, Martin; Hovland, Dag; Mailis, Theofilos; Jimenez-Ruiz, Erne-
sto; Xiao, Guohui et al. (2018): Finding Data Should be Easier than Finding Oil. In: 2018 IEEE
International Conference on Big Data (Big Data). 2018 IEEE International Conference on Big Da-
ta (Big Data). Seattle, WA, USA, 10.12.2018 - 13.12.2018: IEEE, S. 1747–1756. https://doi.org/10.
1109/BigData.2018.8622035.
Manyika, James; Chui, Michael; Brown, Brad; Bughin, Jacques; Dobbs, Richard; Roxburgh, Charles;
Byers, Angela Hung (2011): Big data: The next frontier for innovation, competition, and pro-
ductivity. In: McKinsey & Company, 01.05.2011. Online verfügbar unter https://www.mckinsey.
com/business-functions/mckinsey-digital/our-insights/big-data-the-next-frontier-for-innovation,
zuletzt geprüft am 22.03.2022.
Nolin, Jan Michael (2019): Data as oil, infrastructure or asset? Three metaphors of data as econo-
mic value. In: JICES 18 (1), S. 28–43. https://doi.org/10.1108/JICES-04-2019-0044.
Olijhoek, Tom; Bjørnshauge, Lars; Mitchell, Dominic (2015): Criteria for Open Access and publis-
hing. In: ScienceOpen Research. https://www.doi.org/10.14293/S2199-1006.1.SOR-EDU.AMHUHV.
v1.
ROR Leadership Team (2021): ROR and GRID: The Way Forward. Online verfügbar unter https:
//ror.org/blog/2021-07-12-ror-grid-the-way-forward/, zuletzt aktualisiert am 22.10.2021, zu-
letzt geprüft am 22.03.2022.
Schonfeld, Roger C. (2018): A New Citation Database Launches Today: Dimensions. The Scholar-
ly Kitchen. Online verfügbar unter https://scholarlykitchen.sspnet.org/2018/01/15/new-citation-
database-dimensions/, zuletzt aktualisiert am 14.01.2018, zuletzt geprüft am 22.03.2022.
Singh, Vivek Kumar; Singh, Prashasti; Karmakar, Mousumi; Leta, Jacqueline; Mayr, Philipp
(2021): The journal coverage of Web of Science, Scopus and Dimensions: A comparative ana-
lysis. In: Scientometrics 126 (6), S. 5113–5142. https://doi.org/10.1007/s11192-021-03948-5.

Franziska Stanzel (https://orcid.org/0000-0003-0053-8604) ist seit Oktober 2021 Teamleiterin
des Open Access Monitors in der Zentralbibliothek des Forschungszentrums Jülich. Sie absol-
vierte das praktische Jahr des Bibliotheksreferendariates an der Bibliothek des kiz der Universi-
tät Ulm und die Theorie an der BSB München. Zuvor studierte sie Biochemie (Bachelor) an der
Universität Bayreuth sowie Chemische Biologie (Master of Science) an der Friedrich-Schiller-
Universität Jena.

cb Creative Commons BY 4.0                                                       ISSN: 1860-7950

Sie können auch lesen