Big Scholarly Data im Open Access Monitor: ein Werkstattbericht
←
→
Transkription von Seiteninhalten
Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten
F. Stanzel, I. Barbers, P. Pollack, B. Lindstrot LIBREAS. Library Ideas, 41 (2022). https://doi.org/10.18452/24797 1 Big Scholarly Data im Open Access Monitor: ein Werkstattbericht Franziska Stanzel Irene Barbers Philipp Pollack Barbara Lindstrot Zusammenfassung: Im Zusammenhang mit der Open-Access-Transformation rückt die Auswertung großer Datenmengen immer mehr in den Fokus von Bibliotheken, da die Anzahl der wissenschaftlichen Publikationen beständig ansteigt. Diese ste- tig anwachsende Datenmenge muss zuerst nutzbar gemacht werden, bevor fundier- te Aussagen beispielsweise zu einrichtungsbezogenen Publikationsoutputs möglich sind. Hier setzt der Open Access Monitor (OAM) an, welcher als Schnittstelle zur Zu- sammenführung diverser Quellsysteme wie Unpaywall, Dimensions, Web of Science und Scopus fungiert. Dazu ist der OAM strukturell dreigeteilt: Die Daten befinden sich in der Datenbank (Backend), welche über die REST-Schnittstelle (API) abgefragt oder über die Weboberfläche (Frontend) präsentiert und visualisiert werden können. Durch die Nachnutzung einer Vielzahl an Quellsystemen müssen die Daten homo- genisiert werden, um vollständige Datenbestände ohne Dubletten zu realisieren. Da- für müssen Zeitschriftentitel oder Einrichtungsbezeichnungen vereinheitlicht wer- den, um die ursprünglichen Einträge aus den Quellsysteme den entsprechenden Da- tensätzen im OAM zuordnen zu können. Im Falle der Einrichtungsnamen werden diese mit persistenten Identifikatoren (PID) angereichert. Für die Daten von man- chen Datenbanken können die dort hinterlegten Einrichtungsnormierungen nicht di- rekt auf Organisations-Identifier (ROR-IDs) gemappt werden, weshalb der Umweg über die Rohformen der Affiliationsangaben der Autor*innen gewählt wird. Dieses Mapping der Affiliationsangaben ist eine umfangreiche und komplexe Auf- gabe, da zum einen die gelieferten Angaben häufig nicht eindeutig sind und zum an- deren eine klare Trennung der Einrichtungen, insbesondere bei Universitätskliniken, eine intellektuelle Bearbeitung erfordert. Der hochkomplexe Vorgang, aus einer Viel- zahl an Datenquellen einen einheitlichen Datensatz zu generieren, wird im Beitrag aufgezeigt, wobei ein besonderer Schwerpunkt auf die Normierungsprozesse sowie die Vergabe der Open-Access-Kategorien gelegt wird. Die Metadatenqualität bleibt eine beständige Herausforderung, gleiches gilt für das Thema der Verfügbarkeit und Nachhaltigkeit der angebundenen Quellsysteme. Die Anbindung offener Datenquelle wäre wünschenswert – es entspräche den Zie- len der uneingeschränkten (Nach-)Nutzbarkeit der OAM-Daten. Ob beispielsweise OpenAlex als nicht-kommerzielle Datenbank als weiteres Quellsystem für den OAM in Frage kommt, wird abschließend diskutiert. cb Creative Commons BY 4.0 ISSN: 1860-7950
F. Stanzel, I. Barbers, P. Pollack, B. Lindstrot LIBREAS. Library Ideas, 41 (2022). https://doi.org/10.18452/24797 2 Abstract: In the light of the Open Access transformation, the analysis of large amounts of data is increasingly important for libraries, whereas the number of scholarly pu- blications is constantly growing. Large amounts of data must first be made usable before any substantiated analysis can be made, e.g. regarding institution-related pu- blication outputs. This is where the Open Access Monitor (OAM) comes in, which acts as an interface for merging data from various source systems such as Unpaywall, Dimensions, Web of Science and Scopus. For this purpose, the OAM is structurally divided into three parts: the backend hosts the data, which can be queried via the API, and is presented and visualized in the frontend. All data, coming from various source systems, must be homogenized in order to realize complete data sets without creating duplicates. Journal titles or institution na- mes have to be standardized to allow assigning the original entries from the source systems to the corresponding data records in the OAM. In the case of institution na- mes, these are enriched with persistent identifiers. Given the way the data is organi- zed in some of the source databases, the institution names cannot be mapped directly to organization identifiers (ROR-IDs) in some cases. Therefore, the raw forms of the author’s affiliation information are used in the mapping process. Affiliation mapping is an extensive and complex task, since the data provided are often ambiguous and at the same time a clear distinction of institutions, especially in the case of university hospitals, requires intellectual processing. The highly complex process of generating a uniform data set from a multitude of data sources will be demonstrated, with a special focus on the normalization processes as well as the assignment of Open Access categories. Metadata quality remains a constant challenge, as does the issue of availability and sustainability of the connected source systems. The use and integration of open data sources is generally desirable – it would be in line with the OAM’s goal of unre- stricted (re-) usability of the OAM data. The pros and cons of using non-commercial databases are discussed using OpenAlex as an example. Einleitung Big Data ist in den vergangenen Jahren zu einem allgegenwärtigen Begriff geworden und ist in vielen Wissenschaftsbereichen als Anwendung präsent. Mit der Metapher, wonach Daten das neue Öl sind, wird Daten als neues Treibmittel der digitalen Revolution eine ähnliche Rolle zu- gesprochen, wie es einst das Öl für das Fortschreiten der Industrialisierung war (Hirsch 2014). Öl ist die Grundlage vieler verarbeiteter Produkte wie Kunststoffe, chemischer Verbindungen oder Antriebsmittel zur Fortbewegung. Analog dazu kann Big Data in aufbereiteter Form eben- falls zu vielen Produkten verarbeitet werden wie Steuerungsoptimierungen, Modellrechnungen oder Kundenprofilen (Manyika et al. 2011; Günther et al. 2017). Der Vergleich lässt sich wei- terführen mit der Überlegung, dass die reine Existenz von Daten noch nicht ausreichend ist, sondern dass diese stetig anwachsenden Datenmengen nutzbar gemacht werden müssen (No- lin 2019; Couldry und Jun Yu 2018). So kommt Öl in der Erdkruste nicht ubiquitär vor, sondern muss als erstes lokalisiert, anschließend gefördert und schließlich durch Raffinationsprozesse aufbereitet werden. Ähnlich verhält es sich mit Daten. Ohne ihren jeweiligen Kontext können sie cb Creative Commons BY 4.0 ISSN: 1860-7950
F. Stanzel, I. Barbers, P. Pollack, B. Lindstrot LIBREAS. Library Ideas, 41 (2022). https://doi.org/10.18452/24797 3 schnell an Bedeutung verlieren. Dementsprechend komplex kann das Auffinden der gewünsch- ten Datenmenge sein, wie es auch bei der Suche nach Öl der Fall ist (Kharlamov et al. 2018; Hey et al. 2009). Die Anzahl der in Publikationsdatenbanken nachgewiesenen Veröffentlichungen steigt bestän- dig und für Bibliotheken spielt die Auswertung großer Datenmengen eine immer wichtigere Rolle. So werden beispielsweise in der Datenbank Dimensions für das Jahr 2000 circa 90.000 Pu- blikationen mit mindestens einer deutschen Affiliation nachgewiesen, während es im Jahr 2020 bereits 236.000 sind. Der Gesamtdatenbestand der Datenbank erreicht derzeit 126 Millionen Pu- blikationen.1 Im Gebiet der Informationsbereitstellung stellt sich bei dieser großen Datenmenge für Nutzende zunächst das Problem der Auffindbarkeit einzelner Informationen. Bei der Bereit- stellung von Publikationsdienstleistungen und auch bei der Unterstützung der Open-Access- Transformation ist zudem die Schaffung einer Datengrundlage vonnöten. Diese Datengrundla- ge muss zusammengetragen sowie auswertbar gemacht werden und außerdem so aufbereitet sein, dass daraus Informationen gewonnen werden können, die der Unterstützung des Wissen- schaftsmanagements dienen. Zur Erhebung des Publikationsaufkommens wissenschaftlicher Einrichtungen gibt es mehrere in Frage kommende Datenbanken wie Web of Science, Scopus, Dimensions oder institutionelle Repositorien. Diese Datenbanken nutzen nur zum Teil offene persistente Identifikatoren (PID) für Organisationen. Zusätzlich kann keine der genannten kommerziellen Datenbanken das In- dexieren aller erschienen Veröffentlichungen garantieren. Insbesondere wird in Web of Science und in Scopus durch Kurationsprozesse eine Selektion der zu indexierenden Quellen vorgenom- men. Deshalb bedarf es geeigneter Suchstrategien, um an die gewünschten Daten zu gelangen. Hier- für werden optimalerweise mehrere Datenbestände mit einbezogen, vorausgesetzt die entspre- chenden Datenbanken sind lizenziert. Nach dieser Förderung der Rohdaten ist häufig noch ei- ne händische Nacharbeit nötig, um die erhaltenen Daten zu vereinheitlichen und Dubletten zu vermeiden. Dies könnte als der Raffinationsprozess der Daten bezeichnet werden, auf welcher Grundlage im Anschluss die erforderlichen Auswertungen vorgenommen werden können. Das Monitoring des eigenen Publikationsoutputs stellt also einen beachtlichen Aufwand für eine einzelne Einrichtung dar und ist mit vorhandenen Ressourcen oftmals nicht zu leisten. Ein Monitoring auf nationaler Ebene, wie es beispielsweise für nationale Transformationsverträ- ge oder für Evaluationen von Förderprogrammen erforderlich ist, bedeutet sogar ein Vielfaches an Arbeit. Es existieren mehrere Möglichkeiten, an die benötigten Daten zu gelangen. So können zum einen die Daten von den einzelnen Einrichtungen erhoben und zentral zusammengeführt werden. Voraussetzung hierfür wäre, dass die entsprechenden Daten den einzelnen Einrichtun- gen vorliegen, was jedoch, wie bereits beschrieben, häufig nicht in ausreichendem Maße der Fall ist. Zudem muss bei einem solchen Verfahren ein Großteil der Zusammenstellung und Auswer- tung in manueller Arbeit erledigt werden, was zum einen große Ressourcen bindet und sich zum anderen nachteilig auf die Reproduzierbarkeit auswirkt. Als wesentlich ökonomischere und nachhaltigere Variante der Datenakquise können bereits existierende Quellen im größtmög- lichen Umfang nachgenutzt sowie dabei einheitliche Definitionen und Algorithmen verwendet werden. Dieses Prinzip verfolgt der Open Access Monitor (OAM), der so als Schnittstelle zur 1 Zeitreihe für Publikationen mit Country/Territory „Germany“: https://app.dimensions.ai/analytics/publication/ overview/timeline?or_facet_research_org_country=DE&year_from=2000&year_to=2022 Abgerufen am 10.03.2022. cb Creative Commons BY 4.0 ISSN: 1860-7950
F. Stanzel, I. Barbers, P. Pollack, B. Lindstrot LIBREAS. Library Ideas, 41 (2022). https://doi.org/10.18452/24797 4 Zusammenführung mehrerer Quellsysteme fungiert. Dadurch wird das kontinuierliche Moni- toring auf nationaler Ebene ermöglicht und bietet damit die Grundlage zu faktenbasierten Ent- scheidungen und Handlungen. Die Struktur des OAM Der OAM ist strukturell dreigeteilt in Backend, API und Frontend. Die aufbereiteten Daten selbst liegen in einer Datenbank im Backend und können über die API oder das Frontend abgefragt werden. Die folgenden Abschnitte sollen einen kurzen Überblick über die jeweiligen Bestand- teile geben. Backend Im Backend läuft eine MongoDB-Instanz als Datenbankmanagementsystem, welche alle benö- tigten Daten für den OAM bereitstellt. Bei einer MongoDB handelt es sich um eine dokumenten- orientierte NoSQL-Datenbank. Diese ist auf große Datenmengen, wie bereits im vom englischen ‚humongous‘ (gigantisch) abgeleiteten Namen enthalten, und auf konkurrierenden Zugriff aus- gelegt. Des Weiteren kann die Datenbank über mehrere Server skaliert oder in mehrere Teile, sogenannte Collections, zerlegt werden. Auf diese Weise können Abfragen parallel ausgeführt und die Verfügbarkeit erhöht werden (Bradshaw et al. 2019). Zur Übersichtlichkeit sind die Daten je nach Art auf verschiedene Collections aufgeteilt, diese sind in Tabelle 1 aufgelistet.2 Die Daten des OAM sind nicht wie bei SQL-orientierten Daten- banken als Tabellen mit Relationen gespeichert, sondern werden als JSON-Dokumente abge- legt. Dabei muss kein festgelegtes Schema für die Daten eingehalten werden und somit existie- ren auch keine Pflichtfelder. Diese Dokumente können beliebig tief verschachtelt werden, die Normalformen einer relationalen Datenbank finden keine Anwendung. Die dabei auftretenden Redundanzen werden bewusst in Kauf genommen, um eine schnellere Abfragezeit zu erzielen. Die Abfrage-Performance kann durch eine Indexierung weiter erhöht werden, da somit nicht mehr alle Dokumente, sondern nur noch die Indizes durchsucht werden müssen (Bradshaw et al. 2019). Die Daten können über die umfangreiche Abfragesprache der MongoDB abgerufen oder auch aggregiert werden. Da die Datenbank allerdings nicht über das Internet erreichbar ist, bildet die API eine Schnittstelle, um Abfragen an die Datenbank zu stellen. API Der OAM besitzt als technische Schnittstelle eine REST-API (Representational State Transfer),3 welche auf HTTP-basierten Standards beruht und mit deren Hilfe die Daten des OAM abgefragt 2 Detaillierte Informationen über den Aufbau der Collections sind zu finden unter: https://jugit.fz-juelich.de/synoa/oam-dokumentation/-/wikis/Open%20Access%20Monitor/Datenbankschema. Abgerufen am 17.03.2022. 3 API des OAM: https://api.open-access-monitor.de. Abgerufen am 17.03.2022. cb Creative Commons BY 4.0 ISSN: 1860-7950
F. Stanzel, I. Barbers, P. Pollack, B. Lindstrot LIBREAS. Library Ideas, 41 (2022). https://doi.org/10.18452/24797 5 Collection Beschreibung Publications Publikationsdaten inkl. Zitationszahlen PublicationCosts Publikationskosten Journals Alle Zeitschriften des OAM Publishers Alle Verlage des OAM Organisations Alle Einrichtungen des OAM Statistics Statistische Zahlen zu den Daten (zuletzt aktualisiert, . . . ) SubscriptionCosts Zukünftig: Aggregierte Subskriptionskosten Tabelle 1: Übersicht über die Collections werden können. Analog zur MongoDB nutzt auch die API JSON-Dokumente zur Kommunika- tion; eine Übersicht der wichtigsten Endpunkte zeigt Tabelle 2.4 Endpunkt Beschreibung /Data Abfrage der verfügbaren Datenbanken. /Data/{database} Collections einer Datenbank abfragen. /Data/{database}?query={query} Abfrage in einer Datenbank ausführen. Die Abfrage muss als MongoDB Command5 formuliert werden. Tabelle 2: Die wichtigsten API Endpunkte Frontend Um die Daten des OAM einem breiten Kreis von Nutzenden zugänglich zu machen, gibt es ein Frontend. Dieses ist mittels der Open-Source-Entwicklungsplattform ASP.NET6 umgesetzt, wobei Blazor7 als Framework dient. Um die große Datenmenge möglichst übersichtlich zu präsentieren, ist die Website in mehrere Unterkategorien aufgeteilt. Über die Auswahl auf der linken Seite können die Bereiche der Pu- blikationsanalyse, der Kostenanalyse, der Zitationsanalyse und der Dokumentation aufgerufen werden. Die letzten Menüpunkte in der Navigationsleiste verweisen zur Dokumentation und bieten Links auf die Wiki-Seiten, wo zusätzliche Informationen zu den Quelldatenbanken, zur API oder als FAQ gefunden werden können. Die Aufteilung in die drei Auswertungsschwerpunkte Publikations-, Kosten- und Zitationsana- lyse dient dazu, die verschiedenen Datenbereiche voneinander getrennt zur Verfügung zu stel- len. Wird bei Publikationsanalyse der Menüpunkt Publikationen ausgewählt, erhält man eine Seite mit vielen Filtermöglichkeiten, wie in Abbildung 1 dargestellt. 4 Eine Übersicht aller Endpunkte ist unter https://open-access-monitor.de/api/swagger zu finden. Abgerufen am 17.03.2022. 5 MongoDB-Commands: https://docs.mongodb.com/manual/reference/command/. Abgerufen am 17.03.2022. 6 ASP.NET: https://docs.microsoft.com/en-us/aspnet/core/. Abgerufen am 17.03.2022. 7 Blazor: https://dotnet.microsoft.com/apps/aspnet/web-apps/blazor. Abgerufen am 17.03.2022. cb Creative Commons BY 4.0 ISSN: 1860-7950
F. Stanzel, I. Barbers, P. Pollack, B. Lindstrot LIBREAS. Library Ideas, 41 (2022). https://doi.org/10.18452/24797 6 Abbildung 1: Filtermöglichkeiten für die Publikationsanalyse sowie die Gruppierungsoptionen Diese Filter ermöglichen es den Nutzenden, diejenigen Daten zu selektieren, welche für ihre Fragestellungen relevant sind und die restlichen Daten ausblenden zu können. Dafür gibt es Fil- ter für die Umstellung der Datenquelle, die Auswahl des Landes und für Web of Science sowie Scopus die Limitierung auf Publikationen mit ‚Corresponding Author‘. Ferner ist eine Selekti- on nach Bundesland, Einrichtungen, Verlagen, Zeitschriften und Open Access (OA)-Modellen möglich, wobei die Namensangaben jeweils normiert sind. Die Auswahlmöglichkeit für OA- Kategorien erstreckt sich über die Ebene der Verlage, von Zeitschriften und schließlich auf die Artikelebene.8 Zusätzlich können über den Filter „Transformationsverträge“ die Artikel aus den Zeitschriften einzelner Transformationsverträge angezeigt werden, die in Deutschland auf na- tionaler Ebene bestehen. Eine weitere Einschränkung ist über das Veröffentlichungsdatum mög- lich, welches auch unterjährige Auswertungen unterstützt. Mit all diesen Filtern ist es möglich, die Treffermenge der gefundenen Artikel einzuschränken. Die Anzeige der ausgewählten Datenbankeinträge kann über die Gruppierungsoptionen weiter an die individuellen Bedürfnisse angepasst werden. So ist eine Gruppierung nach Einrichtung, Bundesland, Verlag, Zeitschrift, Jahr und OA-Kategorie sowie die nicht-gruppierte Ansicht der Artikel inklusive DOI (digital object identifier) auswählbar. Um die Zugänglichkeit zum Suchergebnis weiter zu erhöhen, gibt es neben der tabellarischen Auflistung zusätzlich die grafische Darstellung als Balken-, Linien- oder Kreisdiagramm. Diese Graphen können als PNG-Bilddateien heruntergeladen werden; ebenso stehen die Daten aus der jeweils darüber abgebildeten Tabelle als CSV-Datei zur Verfügung. 8 Filter für OA-Kategorien: – Verlag Publikationsmodell: Closed/Hybrid bzw. Gold – Zeitschrift Publikationsmodell: Closed/Hybrid, Gold oder Diamond – OA-Status Publikation: Closed, Bronze, Green (submitted), Green (accepted), Green (published), Hybrid, Gold, Diamond cb Creative Commons BY 4.0 ISSN: 1860-7950
F. Stanzel, I. Barbers, P. Pollack, B. Lindstrot LIBREAS. Library Ideas, 41 (2022). https://doi.org/10.18452/24797 7 Die Daten des OAM Im Folgenden wird der Workflow von den gesammelten Rohdaten zur einheitlichen Datenba- sis beschrieben. Dazu werden zunächst die verwendeten Quellsysteme des OAM vorgestellt. Um daraus einen homogenen Datenbestand zu erhalten, sind Normierungsprozesse notwen- dig. Diese werden im Anschluss exemplarisch gezeigt, wobei ein besonderer Schwerpunkt auf die Einrichtungsnormierung gelegt wird. Die so erhaltenen homogenen Daten können anschlie- ßend als aufbereiteter Gesamtdatenbestand zusammengefügt und die OA-Kategorien vergeben werden. Grundsätzlich ist anzumerken, dass im OAM ausschließlich Publikationen verzeichnet werden, für die ein DOI bei Crossref registriert wurde; entsprechend werden Publikationen ohne DOI ebenso wenig berücksichtigt wie Publikationen, für die DOIs bei anderen Agenturen registriert wurden. Das Vorliegen von DOIs ist essentiell für die Deduplizierung und die Identifikation des OA-Status. Quellsysteme Die für den OAM verwendeten Quellsysteme sind in Abbildung 2 dargestellt und werden hier im Folgenden eingehender besprochen. Der Datenbestand von Unpaywall9 ist Ausgangsbasis und primäre Datenquelle des OAM. Von dort kommen Publikationsmetadaten wie DOI, Zeit- schriftentitel und Verlag der jeweiligen Publikationen. Für die Zuordnung der OA-Kategorien wird ebenfalls Unpaywall verwendet sowie das Directory of Open Access Journals (DOAJ)10 für die OA-Kategorie von Zeitschriften. Unpaywall ist eine Datenbank mit über 30 Millionen wissenschaftlichen OA-Artikeln, wobei diese ebenfalls aus weiteren Datenbanken wie Crossref und PubMed gespeist wird. Zusätzlich wird der Inhalt von über 50.000 OA-Repositorien direkt eingesammelt. Der gesamte Datenbestand von Unpaywall weist über 120 Millionen Datensätze nach.11 Zentral für die Nutzung ist die Vergabe eines DOI für einzelnen Artikel (Dhakal 2019). Das DOAJ registriert über 17.000 reine OA-Zeitschriften, Hybrid-Modelle sind davon ausge- nommen. 2014 wurden die Qualitätskriterien angepasst, um bei sich ändernden Rahmenbedin- gungen weiterhin das DOAJ als eine Art Positivliste aufrechtzuerhalten und „questionable pu- blishers“ (Olijhoek et al. 2015) nicht zu indexieren. Für die Zeitschriftennormierung wird Crossref12 verwendet: Crossref bietet die Verlinkung zwi- schen zitierender und zitierter Publikation über Verlagsgrenzen hinweg mittels PIDs an (Hen- dricks et al. 2020). Ferner bietet Crossref eine Titelliste über alle dort registrierten Zeitschriften an (Clark 2020), welche vom OAM zur Normierung nachgenutzt wird. Eine ausführlichere Be- schreibung findet sich nachfolgend im Abschnitt Zeitschriftennormierung. 9 Unpaywall: http://unpaywall.org/. Abgerufen am 17.03.2022. 10 Directory of Open Access Journals (DOAJ): https://doaj.org/. Abgerufen am 17.03.2022. 11 Unpaywall: https://unpaywall.org/products/snapshot. Abgerufen am 17.03.2022. 12 Crossref: https://www.crossref.org/. Abgerufen am 17.03.2022. cb Creative Commons BY 4.0 ISSN: 1860-7950
F. Stanzel, I. Barbers, P. Pollack, B. Lindstrot LIBREAS. Library Ideas, 41 (2022). https://doi.org/10.18452/24797 8 Abbildung 2: Übersicht der verwendeten Quellsysteme für den OAM Weiterhin werden die Publikationsdaten des OAM durch folgende drei Datenquellen angerei- chert: Dimensions, Web of Science (WoS) und Scopus.13 Diese drei Datenbanken liefern als ganz wesentliches Element des OAM die Zuordnung der Publikationen zu den Einrichtungen über die Autorenaffiliationen und außerdem Zitationsnachweise. Dimensions weist eine frei zugäng- liche Version auf, welche weniger Funktionen als der kostenpflichtige Zugang enthält. Dimensi- ons indexiert Publikationen mit Crossref-DOIs. Es wird also weniger selektiert als bei den Kon- kurrenzprodukten, wodurch eine höhere Abdeckungsrate an Einträgen gegeben ist (Schonfeld 2018). Im Gegensatz dazu verwendet das WoS einen Kurationsprozess, wodurch lediglich eine Auswahl von Zeitschriften in der Zitationsdatenbank indexiert ist. Bei Scopus gibt es ebenfalls einen Auswahlprozess, jedoch befindet sich die daraus resultierende Abdeckungsrate zwischen den anderen beiden vorgestellten Datenbanken. Für die Zwecke des OAM weisen WoS und Sco- pus den Vorteil des Nachweises der sogenannten Reprint Authors beziehungsweise Correspon- ding Authors auf, wobei in Scopus mehr Titel aus dem deutschsprachigen Raum enthalten sind (Singh et al. 2021). Die Anbindung aller drei Datenbanken an den OAM bietet den Einrichtungen die maximale Datenkonsistenz zu ihrer präferierten Datenquelle, so dass sich Uneinheitlichkei- ten für die Nutzenden reduzieren. Für Gold- und Hybrid-Open-Access-Publikationen entstehen für publizierende Einrichtungen beziehungsweise ihren Autor*innen Kosten, welche im Rahmen eines Open-Access-Monitorings berücksichtigt werden müssen. Dafür werden die Daten von OpenAPC14 nachgenutzt, die von den Einrichtungen dort gemeldet und mit Daten von Crossref, PubMed und DOAJ ergänzt wer- den. Damit ist der Datenbestand zum einen abhängig von den Beiträgen der jeweiligen Einrich- tungen und zum anderen von der Qualität sowie der Vollständigkeit der gemeldeten Daten. 13 DigitalScience: Dimensions. https://www.dimensions.ai/. Abgerufen am 17.03.2022.; Clarivate: Web of Science. https://clarivate.com/webofsciencegroup/solutions/web-of-science/. Abgerufen am 17.03.2022.; Elsevier: Scopus. https://www.elsevier.com/solutions/scopus. Abgerufen am 17.03.2022. 14 OpenAPC: https://openapc.net/. Abgerufen am 17.03.2022. cb Creative Commons BY 4.0 ISSN: 1860-7950
F. Stanzel, I. Barbers, P. Pollack, B. Lindstrot LIBREAS. Library Ideas, 41 (2022). https://doi.org/10.18452/24797 9 Subskriptionskosten für Zeitschriftenlizenzen werden über LAS:eR15 bezogen. Bei LAS:eR han- delt es sich um ein Electronic Resource Management System (ERMS), mit dem konsortiale und lokale Lizenzen und Kosteninformationen in einem System verwaltet werden können. Einrich- tungen, die das System zur Erfassung Ihrer Lizenzkosten nutzen, können durch eine Zustim- mung zur Datenweitergabe diese Informationen automatisiert an den OAM abliefern lassen. Da in den Verträgen mit den Verlagen in der Regel Geheimhaltungsklauseln enthalten sind (Doen- ges 2017), können Kostenangaben nur in aggregierter Form öffentlich verfügbar gemacht wer- den. Um einzelnen Institutionen dennoch die Möglichkeit zu bieten, ihre gesamten Kosten mit- tels des OAM auswerten zu können, ist ein abgestuftes Rechtemanagement für den Zugriff nö- tig. Hierfür wird ein Authentifizierungsverfahren umgesetzt, sodass der Einblick in Subskripti- onskosten auf Einrichtungsebene nur der jeweiligen Einrichtung zur Verfügung steht. Der OAM ist abhängig von der Nutzung des Systems durch die Einrichtungen, der Zustimmung der Da- tenlieferung an den OAM sowie der Qualität der dort eingegebenen Daten. Um unabhängiger von der Verwendung eines bestimmten ERMS zu werden und weitere Einrichtungen mit dem Angebot eines Monitorings der Subskriptionskosten zu erreichen, ist die zusätzliche Anbindung von Bibliothekssystemen wie FOLIO16 und Alma17 geplant. Normierungsprozesse Aufgrund der Zusammenführung vieler verschiedener Quellsysteme im Backend des OAM be- darf es einer Vereinheitlichung der Begriffe: Zeitschriftentitel, Verlagsnamen und Einrichtungs- bezeichnungen müssen normiert werden, damit die Einträge aus den jeweiligen Quellsystemen den entsprechenden Datensätzen zugeordnet werden können. Nur so können vollständige Da- tenbestände realisiert und Dubletten mit Namensvarianten ausgeschlossen werden. Zeitschriftennormierung In den jeweiligen Datenbanken liegen die Zeitschriftentitel nicht immer in gleicher Schreibweise beziehungsweise mit gleichen Identifikatoren vor. Daher wird eine Normliste benötigt, auf wel- che gegebenenfalls abweichende Schreibweisen der Zeitschriftentitel gemappt werden können. Um diese nicht neu manuell anlegen zu müssen, sollte eine bereits existierende Auflistung nach- genutzt werden. Dafür wird die Titelliste von Crossref verwendet, da in dieser alle in Crossref registrierten Zeitschriften hinterlegt sind (Clark 2020). Dadurch kommt diese Zeitschriftenliste relativ nahe an den Idealzustand einer vollständigen Liste heran und ist zusätzlich gut für die automatische Weiterverarbeitung geeignet. Für den Abgleich mit den vom Quellsystem gelieferten Titelansetzungen wird zunächst per ISSN in der Titelliste gesucht, wobei nur eine der ISSNs übereinstimmen muss. Dementspre- chend könnten mehrere mögliche Kandidaten in der Titelliste gefunden werden. Je nach Treffer- menge wird wie in Tabelle 3 beschrieben vorgegangen: 15 Hochschulbibliothekszentrum des Landes Nordrhein-Westfalen (hbz): LAS:eR. https://www.hbz-nrw.de/produkte/digitale-inhalte/las-er. Abgerufen am 17.03.2022. 16 FOLIO: https://www.folio.org/. Abgerufen am 17.03.2022. 17 Alma: https://exlibrisgroup.com/de/produkte/alma-cloudgestuetzte-bibliotheksplattform/. Abgerufen am 17.03.2022. cb Creative Commons BY 4.0 ISSN: 1860-7950
F. Stanzel, I. Barbers, P. Pollack, B. Lindstrot LIBREAS. Library Ideas, 41 (2022). https://doi.org/10.18452/24797 10 Trefferanzahl Vorgehen Genau ein Treffer Auswahl des eindeutigen Treffers Mehr als ein Treffer Sortierung und Auswahl nach folgenden Kriterien: – Übereinstimmung der ISSN-L – Übereinstimmung einer ISSN – Übereinstimmung einer zusätzlichen ISSN18 – Ähnlichkeit des Titels Kein Treffer Exakte Titelsuche Tabelle 3: Abgleich der Zeitschriftentitel mit der Zeitschriftentitelliste Sind die Zeitschriftentitel normiert, werden diese direkt mit mehreren Informationen angerei- chert. Durch diese zusätzlichen Informationen wird beispielsweise der im Frontend implemen- tierte Filter nach Mirror Journals ermöglicht, um diese Zeitschriften selektieren oder auch aus- schließen zu können. Dafür gibt es jeweils eine statische Zeitschriftenliste für Mirror Journals so- wie eine für die bei DFG-Förderanträgen zu berücksichtigenden Zeitschriften. Letztere besteht aus den Zeitschriften aus dem DOAJ, ergänzt um die ISSN-Gold-OA-Zeitschriftenliste aus Bie- lefeld (Bruns et al. 2022), und um Mirror-Journals bereinigt. Zeitschriften, welche in einer dieser Listen vorkommen, wird automatisch die OA-Kategorie „Gold“ zugewiesen, da von vornherein nur OA-Zeitschriften in diese Listen aufgenommen werden. Darüber hinaus gibt es für jeden Transformationsvertrag eine eigene Liste mit den im Vertrag enthaltenen hybriden Zeitschriften, für die innerhalb des Vertrags Publikationsrechte bestehen. Alle Listen werden vom Team des OAM gepflegt und sind öffentlich zugänglich.19 Verlagsnormierung Als Normliste für die Verlage werden im ersten Schritt die von Unpaywall gelieferten Angaben übernommen. Im zweiten Schritt werden mit Hilfe einer intern gepflegten Liste verschiedenen Schreibweisen eines Verlags auf eine gemeinsame Hauptschreibweise zusammengeführt. Dabei werden nicht nur unterschiedliche Schreibweisen wie „Elsevier B.V.“ oder „Elsevier Pub. Co.“ zu „Elsevier“ vereinheitlicht, sondern auch Imprints den übergeordneten Verlagen zuge- ordnet wie beispielsweise „Island Press“ zu „Springer Nature“. Einrichtungsnormierung Die Normierung der Einrichtungen erfolgte bisher über ihre GRID-ID. Die Global Research Iden- tifier Database20 (GRID) stattet Forschungsinstitutionen weltweit mit PIDs aus, der GRID-ID. Ausgehend von diesem Datenbestand hat sich die community-basierte Research Organization Registry21 (ROR) entwickelt (ROR Leadership Team 2021), welche seit Ende 2021 anstelle von GRID für Einrichtungen im OAM verwendet wird. Für die Normierungsarbeit im OAM wird 19 Open Access Monitor: Journal lists. https://doi.org/10.26165/JUELICH-DATA/VTQXLM. 20 Global Research Identifier Database: https://www.grid.ac/. Abgerufen am 17.03.2022. 21 Research Organization Registry: https://ror.org/. Abgerufen am 17.03.2022. cb Creative Commons BY 4.0 ISSN: 1860-7950
F. Stanzel, I. Barbers, P. Pollack, B. Lindstrot LIBREAS. Library Ideas, 41 (2022). https://doi.org/10.18452/24797 11 allerdings im Hintergrund derzeit noch GRID mitsamt der bereitgestellten Rechercheoberfläche genutzt, da in der ROR-Oberfläche Beziehungen zwischen Organisationen noch nicht abgebildet werden. Einrichtungsnamen werden in den verwendeten Publikations- und Zitationsdatenbanken zwar normiert, es liegen jedoch unterschiedliche Mechanismen zu Grunde. So wird in Dimensions den Einrichtungen ihre GRID-ID zugeordnet, welche leicht in die ROR-ID überführt werden kann. Dementsprechend kann diese Normierung ohne größere manuelle Arbeiten übernommen werden. In WoS und Scopus werden die Einrichtungen jedoch nicht auf einen offenen PID normiert. Vor allem aber werden die Beziehungen und Abhängigkeiten jeweils unterschiedlich dargestellt. Beispielsweise werden in diesen Datenbanken die Universitätskliniken in der Regel den Univer- sitäten zugeordnet, für die Auswertungszwecke des OAM ist jedoch eine getrennte Behandlung erwünscht. Um eine eindeutige Zuordnung aller Datensätze gewährleisten zu können, müssen daher die Daten von Scopus und WoS mit PIDs angereichert werden. Dort, wo die an den OAM gelieferten Einrichtungsnormierungen der Datenbanken aus den eben genannten Gründen nicht direkt auf GRID-IDs gemappt werden können, werden die Rohformen der Affiliationsangaben der Autor*innen für die Zuordnung verwendet. Das Ergebnis dieses Verfahrens ermöglicht den nahtlosen Wechsel der Datenquellenauswahl in der Oberfläche des OAM. Im Folgenden wird das Vorgehen am Beispiel einer Universitätsklinik erläutert. Das „Universitätsklinikum Würzburg“ mit der GRID-ID grid.411760.522 ist in den Scopus-Daten unter folgenden Namen vertreten: – Universitätsklinik Würzburg – University Clinic Würzburg – Universitaetsklinik Wuerzburg – Chirurgische Universitätsklinik Würzburg – Med. Universitatsklinik Wurzburg Insgesamt 129 Treffer werden allein in den Scopus-Daten der deutschen Einrichtungen mit fol- gender SQL-SELECT-Abfrage nach „Universitätsklinik Würzburg“ gefunden (Abbildung 3): Im Anschluss kann diesen 129 Treffern der SELECT-Abfrage die GRID-ID grid.8379.5 zugeord- net werden. Diese SELECT-Abfrage ist komplex, da einerseits eine gewisse Unschärfe, beispiels- weise durch Trunkierung der Suchbegriffe, gegeben sein muss, um möglichst viele Schreibwei- sen abzudecken. Andererseits muss sie hinreichend selektiv sein, damit Einrichtungen mit ei- nem ähnlichen Namen nicht zusätzlich gefunden werden. Im obigen Beispiel wären dies Ein- richtungen aus Wuppertal sowie die dem Universitätsklinikums Würzburg (Parent-Institute) untergeordneten Einrichtungen (Child-Institutes), wie zum Beispiel die Universitäts-Kinderklinik Würzburg, welche jeweils eine eigene GRID-ID aufweisen (siehe Abbildung 4). 22 GRID Instituts-Suche: https://grid.ac/institutes. Abgerufen am 17.03.2022. cb Creative Commons BY 4.0 ISSN: 1860-7950
F. Stanzel, I. Barbers, P. Pollack, B. Lindstrot LIBREAS. Library Ideas, 41 (2022). https://doi.org/10.18452/24797 12 Abbildung 3: SQL-SELECT-Abfrage nach „Universitätsklinik Würzburg“ im Microsoft SQL Ser- ver Management Studio; scopus_organisations ist die Tabelle mit dem Einrichtungs-Datensatz von Scopus; sc_organisation ist die Spalte mit den verschiedenen Einrichtungs-Bezeichnungen. Abbildung 4: Screenshot des GRID-Eintrages des Universitätsklinikums Würzburg (Datensatz für das Universitätsklinikum Würzburg in GRID: https://grid.ac/institutes/grid.411760.5. Ab- gerufen am 17.03.2022). cb Creative Commons BY 4.0 ISSN: 1860-7950
F. Stanzel, I. Barbers, P. Pollack, B. Lindstrot LIBREAS. Library Ideas, 41 (2022). https://doi.org/10.18452/24797 13 Um falsche Zuordnungen sowie fehlende Einträge zu vermeiden, werden die vergebenen IDs in- tellektuell geprüft. Dabei hat sich ein mehrstufiges Vorgehen etabliert: Zu Beginn sind die SQL- Abfragen eher weit gefasst. Anhand des Suchergebnisses werden weitere Filter zur SELECT- Anweisung ergänzt, um ein präziseres Ergebnis zu erzielen. Je genauer (precision) die „Treffer- quote“ (recall) und geringer der „Ausfall“ (fallout) ist, desto weniger aufwändig ist die intellek- tuelle Durchsicht (Buckland und Gey 1994). Im Beispiel der SELECT-Abfrage nach „Uniklinik Würzburg“ kommt es trotz präziser Formulierung zu einem Treffer wie „Competence Centre for University Teaching in Medicine Baden-Wuerttemberg“. Ein solcher „Ausfall“ lässt sich nicht ganz vermeiden und der entsprechende Eintrag muss bei einer intellektuellen Prüfung selbst- verständlich eine andere ID erhalten als die der Uniklinik Würzburg. Teilweise ist die korrekte Zuordnung der GRID-ID eine anspruchsvolle Aufgabe, da zum einen die Affiliationsangaben oft nicht eindeutig sind und andererseits die klare Trennung der Einrichtungen insbesondere bei Kliniken zusätzlicher Recherche bedarf. Aus der Trefferliste mit den 129 Bezeichnungen des Universitätsklinikums Würzburg werden 129 SQL-UPDATE-Befehle erzeugt, wie zum Beispiel folgender: UPDATE scopus_organisations SET sc_grid = ’ grid.8379.5 ’ WHERE sc_organisation =.’Universitätsklinik Würzburg’ Zur Erzeugung des UPDATE-Befehls wird die Ergebnistabelle der SQL-SELECT-Abfrage in eine Excel-Tabelle kopiert und mittels „Verketten“-Funktion die GRID-ID und die Spalte mit den verschiedenen Bezeichnungen zu einem UPDATE Befehl verknüpft. Anschließend werden die Befehle im SQL Management Studio ausgeführt. Somit sind die GRID-IDs der Einrichtungen in den Scopus-Datensätzen zugeordnet. Für das Mapping der WoS-Einrichtungsnamen wird ein analoges Verfahren eingesetzt. Ist dieser Prozess für alle Einrichtungen abgeschlossen, kann die normierte Einrichtungstabelle durch ein Importverfahren in den OAM überführt werden. Da WoS und Scopus zwei eigenstän- dige Datenbanken mit eigenen Rohdaten sind, muss dieses Verfahren für jede Datenquelle ein- zeln erfolgen. Dementsprechend sind für die Einrichtungsnormierung zwei Tabellen im OAM hinterlegt. Für eine bessere Durchsuchbarkeit und Auswählbarkeit der Einrichtungen im Einrichtungsfilter des OAM sind diese in Kategorien eingeteilt. Die Kategorien von ROR sind für die Zwecke des OAM zu unscharf, sodass eine interne Zuordnungsliste gepflegt wird, welche jeder Einrichtung eine Kategorie zuordnet (siehe Tabelle 4). Zusammenführung der Quellsysteme Zur Generierung einer gemeinsamen Datenbasis aus allen genannten Quellsystemen wird Un- paywall als primäre Quelle verwendet. Dabei werden über den wöchentlichen Datenfeed für alle Publikationen mit dem Dokumenttyp „journal article“ folgende Daten erfasst: DOI, Zeit- schrift, Verlag, Veröffentlichungsdatum und OA-Modell. Eine Übersicht der genutzten Quell- systeme und den daraus verwendeten Daten befindet sich in Abbildung 5. Weitere Daten werden über den DOI aus Dimensions, Web of Science und Scopus wöchentlich per Datenfeed importiert, dabei werden für jeden Artikel die involvierten Einrichtungen, die cb Creative Commons BY 4.0 ISSN: 1860-7950
F. Stanzel, I. Barbers, P. Pollack, B. Lindstrot LIBREAS. Library Ideas, 41 (2022). https://doi.org/10.18452/24797 14 Einrichtungskategorie Universitäten Universitätskliniken Fachhochschulen Fraunhofer-Gesellschaft Helmholtz-Gemeinschaft Max-Planck-Gesellschaft Leibniz-Gemeinschaft Einrichtungen des Bundes Einrichtungen der Länder Sonstige Tabelle 4: Einrichtungskategorien des OAM jeweilige ID der Datenbank und die Zitationszahlen zu den bereits vorhandenen Artikeldaten hinzugefügt. Für WoS und Scopus wird zudem die Information des Corresponding Authors ergänzt. Um eine möglichst genaue Zuordnung zu realisieren, werden die affiliierten Einrich- tungen mittels der ROR-ID zugeordnet. Ein weiterer Abgleich findet über die ISSNs der Zeit- schriften mit der Zeitschriftentitelliste von Crossref statt. Bis hierhin sind lediglich Informationen über den Publikationsoutput der einzelnen Einrichtun- gen deutschlandweit, ohne Nachweise über Kosten, verfügbar. Um die Publikationskosten zu erfassen, ist im Backend des OAM eine weitere Collection angelegt. Dafür werden Daten aus OpenAPC für die einzelnen Artikel verwendet, wie der Artikel-DOI, Publikationsjahr und die bezahlende Einrichtung, welche ebenfalls auf die ROR-ID gemappt wird. Ferner werden die Kosten erfasst, wobei zwischen APCs und Hybrid-Artikeln differenziert wird. Dieser Daten- bestand wird mit weiteren Daten aus Unpaywall angereichert, wobei die Zuordnung per DOI geschieht. Hier werden Verlag, Veröffentlichungsdatum, Zeitschrift und die OA Farbe der Zeit- schrift erfasst. Damit sind zwar die Kosten für OA-Publikationen ebenfalls in der Datenbank enthalten, aber es fehlen noch die Subskriptionskosten. Im Produktivsystem sind diese noch nicht implementiert, jedoch ist die Einbindung von LAS:eR im Testsystem bereits umgesetzt. Außerdem wird ein Authentifizierungsmechanismus eingerichtet, um der jeweiligen Einrichtung ihre Daten ohne Einsichtnahme von Dritten und langfristig ein individuelles OA-Barometer zur Verfügung zu stellen. Bei großen Datenmengen ist es nicht möglich, sämtliche Fehlerquellen vermeiden zu können. Allerdings kann durch ein gutes System sowie durch Korrekturschleifen die Datenqualität ver- bessert werden. Nähere Informationen hierzu sind im Wiki des OAM hinterlegt.23 23 Genauere Informationen zu den Korrekturroutinen unter: https://jugit.fz-juelich.de/synoa/oam-dokumentation/- /wikis/Quelldatenbanken/Anpassungen%20an%20den%20Quelldaten. Abgerufen am 17.03.2022. cb Creative Commons BY 4.0 ISSN: 1860-7950
F. Stanzel, I. Barbers, P. Pollack, B. Lindstrot LIBREAS. Library Ideas, 41 (2022). https://doi.org/10.18452/24797 15 Abbildung 5: Zusammenführung der Quellsysteme des OAM Zuordnung der OA-Kategorien Für die OA Zuordnung einzelner Publikationen werden verschiedene Felder von Unpaywall ausgewertet. Dieser Datensatz beinhaltet nicht nur allgemeine Daten zum OA-Status der Pu- blikation respektive der zugehörigen Zeitschrift, sondern listet darüber hinaus alle Orte auf, an denen eine freie Version der Publikation gefunden werden konnte (OA Location).24 Mit Hilfe dieser Daten kann eine detaillierte OA-Zuordnung durchgeführt werden. Dazu werden die in Tabelle 5 dargestellten Prüfmechanismen in der abgebildeten Reihenfolge für jede OA Location abgearbeitet. Sobald eine Bedingung erfüllt ist, wird die OA Location mit der jeweiligen OA- Kategorie markiert und die Prüfung für die nächste OA Location fortgeführt. Schließlich wird die „beste“ vergebene OA-Kategorie für die Publikation erfasst. Die OA-Zuordnung für Zeitschriften erfolgt über einen ISSN-Abgleich mit den Daten des DOAJ, um das Publikationsmodell der Zeitschriften zu bestimmen. Dabei wird, analog zur Tabelle 5, zwischen Diamond, Gold und Closed beziehungsweise Hybrid OA unterschieden. Zusätz- lich können auch intern gepflegte Listen Einfluss auf die OA-Zuordnung der Zeitschriften neh- men.25 Bei den Verlagen wird nur zwischen Gold und Closed beziehungsweise Hybrid OA differen- ziert. Dazu wird eine intern hinterlegte, manuell generierte Liste genutzt und bei einer Über- einstimmung kann der Verlag als reiner OA-Verlag markiert werden. Während Verlage mit dem Publikationsmodell Gold ausschließlich Gold-OA-Zeitschriften publizieren, können Verlage mit 24 Unpaywall FAQ. How is the best OA location determined?: https://support.unpaywall.org/support/solutions/articles/44001943223-how-is-the-best-oa-location-determined. Abgerufen am 17.03.2022. 25 Open Access Monitor: Journal lists. https://doi.org/10.26165/JUELICH-DATA/VTQXLM. cb Creative Commons BY 4.0 ISSN: 1860-7950
F. Stanzel, I. Barbers, P. Pollack, B. Lindstrot LIBREAS. Library Ideas, 41 (2022). https://doi.org/10.18452/24797 16 Definition Bedingungen Diamond Gold-Veröffentlichung ohne APCs Gold Veröffentlicht in einer Open-Access-Zeitschrift, die im DOAJ indexiert ist. Hybrid Frei unter einer offenen Lizenz in einer Subskriptions- Zeitschrift veröffentlicht. Green published Kostenpflichtiger Zugang auf der Verlagsseite, aber es gibt eine freie Kopie der veröffentlichten Verlagsversion in ei- nem Open-Access-Repositorium. Green accepted Kostenpflichtiger Zugang auf der Verlagsseite, aber es gibt eine freie Kopie des akzeptierten Manuskripts in einem Open-Access-Repositorium (Postprint). Green submitted Kostenpflichtiger Zugang auf der Verlagsseite, aber es gibt eine freie Kopie des eingereichten Artikels in einem Open- Access-Repositorium (Preprint). Green undefined Version kann nicht bestimmt werden; wird im OAM wie Green submitted behandelt Bronze Frei zu lesen auf der Verlagsseite, aber ohne klar erkennba- re Lizenz. Closed Alle anderen Artikel. (Nicht frei zugänglich.) Tabelle 5: Definitionen der Open-Access-Kategorien sowie die intern hinterlegten Bedingungen für die Zuordnung dem Modell „Closed/Hybrid“ sowohl Gold-, Hybrid-, als auch reine Subskriptionszeitschriften herausgeben. Zusammenfassung und Ausblick Die Auswahl, Anbindung und Zusammenführung einer Vielzahl von Datenquellen stellt sich als hoch komplexer Vorgang dar, der vor allem durch die Heterogenität der Daten erschwert wird. Neben der Frage der Verfügbarkeit und Nachhaltigkeit der Quellsysteme bildet das Thema der Metadatenqualität eine dauerhafte Herausforderung. An vielen Stellen, beispielsweise bei der Normierung von Verlagsnamen oder bei der Kuratierung von Zeitschriftenlisten, können Auto- matismen nur teilweise greifen und es muss dauerhaft manuell überwacht und nachgebessert werden. Die Verwendung der kommerziellen Datenbanken Dimensions, Web of Science und Scopus als Quellen hat den Nachteil, dass sie von fortlaufenden Vereinbarungen und Diensten abhängig ist. Die beiden letztgenannten haben zudem eine Einschränkung durch ihre Methode der Vor- auswahl bei der Indexierung von Quellen und ihre Bevorzugung englischsprachiger Literatur. Sie besitzen jedoch den Vorteil, als qualitätsgeprüft zu gelten und weitgehend als Referenz an- erkannt zu sein. Durch die Angabe von IDs der Quellsysteme bietet der OAM bei allen Daten- sätzen eine Verlinkung zur Ursprungsdatenbank. So können weitere Metadaten, die der OAM cb Creative Commons BY 4.0 ISSN: 1860-7950
F. Stanzel, I. Barbers, P. Pollack, B. Lindstrot LIBREAS. Library Ideas, 41 (2022). https://doi.org/10.18452/24797 17 nicht auswertet, abgerufen werden. Bei Web of Science und Scopus steht dabei die Schranke der Lizenz vor der vollständigen Nachnutzung, jedoch sind diese beiden Datenbanken die einzigen bekannten Quellen, die Corresponding-Author-Informationen in ausreichendem Umfang lie- fern. Diese Information ist essentiell, da damit für die wissenschaftlichen Einrichtungen poten- tiell kostenpflichtige Publikationen identifiziert werden können, was wiederum für verlässliche Prognosen zur Budgetplanung unerlässlich ist. Unter Berücksichtigung aller Vor- und Nachteile der bereits integrierten Quellsysteme wird wei- terhin nach möglichen Alternativen beziehungsweise Ergänzungen in Form von vorzugsweise offenen Datenquellen Ausschau gehalten und die Möglichkeiten zur Integration ihrer Daten ge- prüft. Mit der Ankündigung von OurResearch, einen Nachfolger für den Ende 2021 eingestellten Dienst Microsoft Academic Graph aufzubauen26 , ist mit OpenAlex (https://openalex.org/) eine Alternative als nicht-kommerzielle Datenbank ins Blickfeld geraten. Für eine technische Implementierung als Quellsystem des OAM sind bei OpenAlex durch Ver- wendung von ROR grundsätzlich gute Voraussetzungen gegeben. Dies macht die Daten kom- patibel zur Institutionenkodierung des OAM. Als Nachteil für die Zwecke des OAM stellen sich die fehlenden Corresponding-Author-Informationen dar. Durch den Ansatz von OpenAlex, neben den Daten von Unpaywall, Crossref, Pubmed et cete- ra auch Daten von Repositorien zu harvesten, muss zudem die Frage der Deduplizierung von Publikationen untersucht werden. Für die Zwecke der Auswertungen, welche mit dem OAM er- stellt werden können, ist die möglichst korrekte und duplikatfreie Bildung von Aggregationen erforderlich. Bei Publikationen, zu denen ein DOI vorliegt, wird jedoch eine Deduplizierung weitgehend möglich sein, was aber umgekehrt bedeutet, dass das bekannte Problem der Unter- repräsentation mancher Publikationsformen fortbesteht. Eine umfassende Untersuchung von OpenAlex samt einem Vergleich mit anderen Systemen liegt angesichts der erst kürzlich erfolgten Freischaltung bisher noch nicht vor. Allerdings stel- len sich nach ersten Einblicken in die noch nicht offiziell freigegebene Weboberfläche noch ei- nige Fragen. So scheint es zum Beispiel bei den Datensätzen zu Autor*innen keine Mehrfachaf- filiationen zu geben und auch die Disambiguierung scheint noch nicht abgeschlossen zu sein. Beispielsweise finden sich in der Datenbank noch zahlreiche Mehrfacheinträge für Autor*innen sowie in Einzelfällen falsche Zuordnungen. Nach Selbstauskunft der Betreiber*innen sind noch Datenbereinigungen notwendig.27 Insgesamt zeigt OpenAlex jedoch einen zukunftsweisenden Ansatz und eine Anbindung als weitere Quelldatenbank für den OAM wird mittelfristig geplant. Das Geschäftsmodell soll zu- künftig ähnlich wie bei den anderen OurResearch-Diensten Unpaywall und Unsub auf einem Freemium-Modell basieren, was sich laut eigener Aussage von OurResearch bisher als stabil er- wiesen hat. Die Nutzung freier Datenquellen erlangt mit der dadurch ermöglichten Ablösung der Abhängigkeit von kommerziellen Systemen sowie durch die komplett offene Nachnutzbar- keit immer größere Bedeutung. Allerdings stellt sich gleichzeitig die Frage der Nachhaltigkeit beziehungsweise dauerhaften Verfügbarkeit freier Quellen. Nur wenn diese unterstützt und ge- nutzt werden, bleiben sie erhalten. Letztendlich ist es aber auch notwendig, die eigenen Systeme 26 OurResearch Blog: https://blog.ourresearch.org/were-building-a-replacement-for-microsoft-academic-graph/. Abgerufen am 17.03.2022. 27 OpenAlex. Known Issues: https://docs.openalex.org/known-issues. Abgerufen am 17.03.2022. cb Creative Commons BY 4.0 ISSN: 1860-7950
F. Stanzel, I. Barbers, P. Pollack, B. Lindstrot LIBREAS. Library Ideas, 41 (2022). https://doi.org/10.18452/24797 18 technisch und organisatorisch so zu gestalten, dass bei Bedarf ein Wechsel von Quellsystemen beziehungsweise der parallele Einsatz möglich ist. Danksagung Der Open Access Monitor wird durch das Bundesministerium für Bildung und Forschung (BMBF) mit dem Förderkennzeichen 16OAMO001 gefördert. Die Nutzung der Web of Science-Daten wird ermöglicht durch die Projektteilnahme am Kompetenznetzwerk Bibliometrie; gefördert durch das Bundesministerium für Bildung und Forschung (Förderkennzeichen: 16WIK2101A). Literaturverzeichnis Barbers, Irene; Kalinna, Nadja; Mittermaier, Bernhard (2018): Data-Driven Transition: Joint Re- porting of Subscription Expenditure and Publication Costs. In: Publications 6 (2), Nr. 19. https: //doi.org/10.3390/publications6020019. Bradshaw, Shannon; Brazil, Eoin; Chodorow, Kristina (2019): MongoDB: the definitive guide. Powerful and scalable data storage. Third edition. Beijing, Boston, Farnham: O’Reilly. ISBN 9781491954461. Bruns, Andre; Cakir, Yusuf; Kaya, Sibel; Beidaghi, Samaneh (2022): ISSN-Matching of Gold OA Journals (ISSN-GOLD-OA) 5.0. https://doi.org/10.4119/unibi/2961544. Buckland, Michael; Gey, Fredric (1994): The relationship between Recall and Precision. In: J. Am. Soc. Inf. Sci. 45 (1), S. 12–19. https://doi.org/10.1002/(SICI)1097-4571(199401)45:1%3C12::AID- ASI2%3E3.0.CO;2-L. Clark, Rosa (2020): Browsable title list. Online verfügbar unter https://www.crossref.org/docu mentation/reports/browsable-title-list/, zuletzt aktualisiert am 08.04.2020, zuletzt geprüft am 22.03.2022. Couldry, Nick; Jun Yu (2018): Deconstructing datafication’s brave new world. In: New Media & Society (12), S. 4473–4491. https://doi.org/10.1177/1461444818775968. Dhakal, Kerry (2019): Unpaywall. In: Journal of the Medical Library Association : JMLA 107 (2), S. 286–288. https://doi.org/10.5195/jmla.2019.650. Doenges, Hannah (2017): Non-Disclosure Clauses: the making, breaking, and remaking of re- lationships. University of Washington, Washington D.C. School of Law. Online verfügbar unter https://depts.washington.edu/uwlawlib/wordpress/wp-content/uploads/2018/01/Doenges 2017.pdf, zuletzt geprüft am 22.03.2022. Günther, Wendy Arianne; Rezazade Mehrizi, Mohammad H.; Huysman, Marleen; Feldberg, Frans (2017): Debating big data: A literature review on realizing value from big data. In: The Jour- nal of Strategic Information Systems 26 (3), S. 191–209. https://doi.org/10.1016/j.jsis.2017.07.003. cb Creative Commons BY 4.0 ISSN: 1860-7950
F. Stanzel, I. Barbers, P. Pollack, B. Lindstrot LIBREAS. Library Ideas, 41 (2022). https://doi.org/10.18452/24797 19 Hendricks, Ginny; Tkaczyk, Dominika; Lin, Jennifer; Feeney, Patricia (2020): Crossref: The su- stainable source of community-owned scholarly metadata. In: Quantitative Science Studies 1 (1), S. 414–427. Hey, Tony; Tansley, Stewart; Tolle, Kristin (2009): The Fourth Paradigm: Data-Intensive Scientific Discovery: Microsoft Research. ISBN 9780982544204. Hirsch, Dennis (2014): The Glass House Effect: Big Data, The New Oil, and the Power of Analogy. In: Maine Law Review 66 (2), S. 373. Online verfügbar unter https://digitalcommons.mainelaw. maine.edu/mlr/vol66/iss2/3, zuletzt geprüft am 22.03.2022. Kharlamov, Evgeny; Skjaveland, Martin; Hovland, Dag; Mailis, Theofilos; Jimenez-Ruiz, Erne- sto; Xiao, Guohui et al. (2018): Finding Data Should be Easier than Finding Oil. In: 2018 IEEE International Conference on Big Data (Big Data). 2018 IEEE International Conference on Big Da- ta (Big Data). Seattle, WA, USA, 10.12.2018 - 13.12.2018: IEEE, S. 1747–1756. https://doi.org/10. 1109/BigData.2018.8622035. Manyika, James; Chui, Michael; Brown, Brad; Bughin, Jacques; Dobbs, Richard; Roxburgh, Charles; Byers, Angela Hung (2011): Big data: The next frontier for innovation, competition, and pro- ductivity. In: McKinsey & Company, 01.05.2011. Online verfügbar unter https://www.mckinsey. com/business-functions/mckinsey-digital/our-insights/big-data-the-next-frontier-for-innovation, zuletzt geprüft am 22.03.2022. Nolin, Jan Michael (2019): Data as oil, infrastructure or asset? Three metaphors of data as econo- mic value. In: JICES 18 (1), S. 28–43. https://doi.org/10.1108/JICES-04-2019-0044. Olijhoek, Tom; Bjørnshauge, Lars; Mitchell, Dominic (2015): Criteria for Open Access and publis- hing. In: ScienceOpen Research. https://www.doi.org/10.14293/S2199-1006.1.SOR-EDU.AMHUHV. v1. ROR Leadership Team (2021): ROR and GRID: The Way Forward. Online verfügbar unter https: //ror.org/blog/2021-07-12-ror-grid-the-way-forward/, zuletzt aktualisiert am 22.10.2021, zu- letzt geprüft am 22.03.2022. Schonfeld, Roger C. (2018): A New Citation Database Launches Today: Dimensions. The Scholar- ly Kitchen. Online verfügbar unter https://scholarlykitchen.sspnet.org/2018/01/15/new-citation- database-dimensions/, zuletzt aktualisiert am 14.01.2018, zuletzt geprüft am 22.03.2022. Singh, Vivek Kumar; Singh, Prashasti; Karmakar, Mousumi; Leta, Jacqueline; Mayr, Philipp (2021): The journal coverage of Web of Science, Scopus and Dimensions: A comparative ana- lysis. In: Scientometrics 126 (6), S. 5113–5142. https://doi.org/10.1007/s11192-021-03948-5. Franziska Stanzel (https://orcid.org/0000-0003-0053-8604) ist seit Oktober 2021 Teamleiterin des Open Access Monitors in der Zentralbibliothek des Forschungszentrums Jülich. Sie absol- vierte das praktische Jahr des Bibliotheksreferendariates an der Bibliothek des kiz der Universi- tät Ulm und die Theorie an der BSB München. Zuvor studierte sie Biochemie (Bachelor) an der Universität Bayreuth sowie Chemische Biologie (Master of Science) an der Friedrich-Schiller- Universität Jena. cb Creative Commons BY 4.0 ISSN: 1860-7950
Sie können auch lesen