Broker-Software zwischen Content-Lieferanten und Open-Access-Repositorien - B.I.T.online
←
→
Transkription von Seiteninhalten
Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten
Hübbers | Steinberg | Gebert | Jakowatz FACHBEITRÄGE 405 Document Deposit Assistant (DDA) Broker-Software zwischen Content-Lieferanten und Open-Access-Repositorien Gerrit Hübbers, Jan Steinberg, Agathe Gebert und Stefan Jakowatz Hübbers | Steinberg | Gebert | Jakowatz 1. Open-Access-Content-Akquise der Fehlende bzw. ungenügend konfigurierte Schnittstellen, mangelnde Interoperabilität Repositorien: Das Problem mangelnder zwischen Systemen sowie Formatvielfalt erschweren einen strukturierten Import Interoperabilität und heterogener von Publikationsdaten in Repositorien. Der DDA löst diese Problematik, indem Formate – ein Lösungsansatz er als eigenständige Webanwendung zwischen Content-Providern und Ziel- ❱ Die Anforderungen an Forschungs- und Infrastruk- Repositorien vermittelt. Seine Datenverarbeitungs-Pipeline bezieht Daten aus tureinrichtungen wachsen mit der zunehmenden Quellsystemen oder per manuellem Dateiupload, transformiert diese Daten Verfügbarmachung wissenschaftlicher Publikationen entsprechend der Konventionen des Repositoriums und spielt sie dort ein. Zwar löst der DDA damit nicht die langfristig notwendige Standardisierung von Formaten, im Open Access ganz erheblich. Diesen neuen Anfor- aber er stellt kurz- bis mittelfristig eine große Erleichterung beim Import großer derungen haben sich Infrastruktureinrichtungen wie Datenmengen in Repositorien dar und leistet der Open-Access-Verfügbarkeit von GESIS1-Leibniz-Institut für Sozialwissenschaften früh Forschungspublikationen Vorschub. Der Einsatz dieser Softwareapplikation ist in gestellt und bieten mit disziplinären Open-Access- unterschiedlichen Kontexten denkbar. Dementsprechend ist eine Weiterentwicklung Repositorien wie dem Social Science Open Access des DDA mit unterschiedlichen Partnern avisiert. Repository (SSOAR)2 geeignete Systeme zur (Selbst-) Missing or insufficiently configured interfaces, lacking interoperability between Archivierung von Volltexten an. Im Rahmen der Ak- systems, as well as format variety complicate a structured import of publication data quise arbeitet SSOAR mit unterschiedlichen Content- into repositories. DDA provides a solution to these problems by acting as a stand- Providern aus der Community, insbesondere mit klei- alone web application between content providers and target repositories. DDA’s data nen und mittelständischen Verlagen, Forschungsein- processing pipeline collects data from source systems or via manual file upload, richtungen und redaktionellen Herausgebern zusam- transforms this data according to the target repository’s conventions, and uploads it into the repository. Even though DDA does not provide a solution to the format men.3 Der Vorteil dieser Zusammenarbeit besteht standardization required in the long term, it nevertheless significantly eases large darin, dass auf diesem Wege nicht nur Einzelexemp- data imports into repositories in the short and medium term and thereby accelerates lare, sondern im besten Fall vollständige Reihen- und open access availability of research publications. As this software is also useful in Zeitschriftenjahrgänge bereitgestellt werden können. different contexts, DDA’s ongoing development is planned with further partners. Die Nachfrage von Periodika, zur Erhöhung ihrer Sichtbarkeit in Repositorien nachgewiesen zu wer- den, steigt in den letzten Jahren kontinuierlich. Dar- schungsliteratur im freien Zugriff zur Verfügung stel- über hinaus wurden vor dem Hintergrund des 2014 len. Der Vorteil dieser strategischen Kooperationen in Kraft getretenen Zweitveröffentlichungsrechts wird jedoch erheblich in Frage gestellt, wenn sich in (ZVR) Vereinbarungen mit Bibliotheken zahlreicher der Praxis die strukturierte Integration von Metada- sozialwissenschaftlicher Einrichtungen dahingehend ten und Volltexten in großen Mengen in die jeweili- getroffen, dass sie die nach §38, 4 UrhG4 zweitver- gen Nachweissysteme und Repositorien oftmals als öffentlichungsfähigen Publikationen ihrer Mitarbei- undurchführbares Unterfangen darstellt. tenden sammeln und en gros nach SSOAR abliefern. Im Mittelpunkt gegenwärtiger Herausforderungen Über diese Vereinbarungen können Fachrepositorien stehen die mangelnde Interoperabilität von Daten- ihren Communities zusätzlich zu den umfassenden banken und die unzureichende Kompatibilität von Zeitschriftenbeständen zunehmend neueste For- Metadatenformaten bei der Akquise und Verarbei- tung von digitalen Volltexten und Metadaten zur Über- nahme in vorhandene Nachweissysteme. Grund dafür 1 https://www.gesis.org/home/ 2 https://www.gesis.org/ssoar/home/ sind wesentliche Hindernisse beim Datenexport bzw. 3 Vgl. Bambey, Doris/Gebert, Agathe: Open-Access-Kooperationen mit Ver- -import zwischen Content-Providern einerseits und lagen – Zwischenbilanz eines Experiments im Bereich der Erziehungswis- akquirierenden Open-Access-Repositorien anderer- senschaft. b.i.t.online 13 (2010) 4 386-390. https://www.b-i-t-online.de/ heft/2010-04-schwerpunkt4.pdf seits. Fehlende bzw. nicht ausreichend konfigurierte 4 https://www.gesetze-im-internet.de/urhg/38.html Schnittstellen, die mangelnde Interoperabilität der www.b-i-t-online.de 21 (2018) Nr. 5 online Bibliothek. Information. Technologie.
406 FACHBEITRÄGE Hübbers | Steinberg | Gebert | Jakowatz Systeme, die Formatvielfalt sowie mangelnde tech- angesichts der zu verarbeitenden Datenmengen und nische Expertise zum Aufsetzen und Betreiben einer vor dem Hintergrund eines effektiven Ressourcenma- harvestbaren Infrastruktur unter den Content-Provi- nagements nicht zielführend bewältigen. dern erschweren einen strukturierten Ex- und Import Für die Anforderung, große Mengen an Metadaten der Daten. In der Konsequenz erfolgt das Übertragen und Volltexten in handhabbaren Formaten zur Verfü- von Metadaten und Volltexten auf einer der beiden gung zu haben, um sie über – idealerweise einheit- Seiten manuell – also mit kaum vertretbarem, hohem liche – Web-Schnittstellen in die Informationsinfra- personellen und zeitlichen Aufwand. strukturen und Repositorien zu importieren, stehen Ein Lösungsansatz zur Bewältigung der genannten seit langem Standard-Protokolle wie bspw. OAI-PMH7, Herausforderungen besteht darin, eine Infrastruktur OAI-ORE8 oder auch das SWORD-Protokoll9 und REST- zu etablieren, die zwischen Content-Providern und Schnittstellen10 zur Verfügung. Diese sind auch in Repositorien geschaltet ist und eine Art Broker-Funk- den gängigen OA-Repositorium-Softwarepaketen tion5 einnimmt, bei der die verschiedenen Datenfor- DSpace11, Fedora12, EPrints13 etc. enthalten. Die Ana- mate vereinheitlicht und große Mengen an Metadaten lyse des Open Access Census aus dem Jahr 201414 über funktionierende Schnittstellen in Open-Access- zeigt allerdings, dass allein das Vorhandensein der Repositorien importiert werden können. entsprechenden Schnittstellen noch nichts über die Qualität der übertragenen Metadaten aussagt. Der breit angelegten Analyse der deutschen Repositori- umslandschaft15 zufolge sind bei vielen Repositorien zwar entsprechende Schnittstellen vorhanden, diese sind jedoch zumeist schlecht bis gar nicht konfigu- riert. In vielen Fällen führt eine fehlende Unterstüt- zung von Protokollen wie OAI-ORE oder SWORD sowie fehlende Compliance mit Metadaten-Qualitätsrichtli- nien und -Standards wie den Empfehlungen der DINI Abbildung 1: Konzeptionelle Übersicht des Brokers DDA zwischen Content- (siehe DINI-Validator16), den DRIVER-Guidelines17 Providern und Ziel-Repositorium oder den Richtlinien von OpenAIRE18 zur Abwertung.19 Vergleicht man die Situation der Repositoriums-Be- Im Rahmen des von der DFG geförderten Projekts Do- treiber mit der Situation der Content-Provider (kleine cument Deposit Assistant (DDA)6 hat GESIS im Jahr und mittelständische Verlage, Forschungseinheiten, 2015 mit dem Aufbau einer solchen Infrastruktur be- Herausgeber von Zeitschriften und Institutsreihen gonnen. Im Kontext der erfolgreichen Umsetzung des u.a.), so ist der Sachverhalt noch komplexer und Projekts unterstützt der DDA seit 2016 den Datenim- technisch unausgereifter. Möchte ein Fachreposito- port nach SSOAR. rium wie SSOAR bereits strukturiert vorgehaltenen Dieser Beitrag zeichnet die Entwicklung des DDA von der Konzeption bis hin zu seiner Inbetriebnahme nach 7 http://www.openarchives.org/pmh und benennt seine wesentlichen Funktionalitäten. 8 http://openarchives.org/ore Die Schwerpunkte liegen dabei auf der Darstellung 9 http://swordapp.org/about 10 Beispielsweise ermöglicht DSpaces webbasierte REST-Schnittstelle, den Da- des Softwareentwicklungsprozesses im Rahmen ei- tenbestand des Repositoriums programmatisch abzufragen und zu verändern. nes agilen Projektmanagements im SSOAR-Team bei https://wiki.duraspace.org/display/DSDOC6x/REST+API GESIS sowie auf einer kritischen Einschätzung des 11 https://duraspace.org/dspace/ 12 https://duraspace.org/fedora/ Tools im Rahmen der Bestandserweiterung von Re- 13 http://www.eprints.org/uk/ positorien. 14 Vierkant, Paul/Kindling, Maxi: Open-Access-Repositorien in den deutschen Bundesländern. Census on Open Access Repositories in Germany, Austria 2. Konzeption eines Brokers zwischen and Switzerland 2014. http://dx.doi.org/10.5281/zenodo.11608 Content-Providern und Repositorium 15 http://repositoryranking.org 16 http://oanet.cms.hu-berlin.de/validator/pages/validation_dini.xhtml Die allgegenwärtige Praxis des Hochladens von Einzel- 17 https://wiki.surfnet.nl/display/standards/DRIVER+use+of+OAI-PMH publikationen in ein Repositorium – sei es durch zu- 18 https://www.openaire.eu/guides/ liefernde Einrichtungen oder durch die Mitarbeiterin- 19 Dies zeigt sich auch in den konkreten Zahlen des OA-Census: 99% der Repo- nen und Mitarbeiter eines Repositoriums – lässt sich sitorien unterstützen Simple Dublin Core, allerdings nur 4% Qualified Dublin Core. Andere Formate wie METS oder RDF werden ebenfalls nur von geringen 13% bzw. 7% unterstützt. Ein Harvesting von Simple Dublin Core erlaubt es 5 Vgl. das Broker-Pattern: http://msdn.microsoft.com/en-us/library/ aber nur, ein Minimal-Set an Metadaten zu übernehmen, da die Ausdruckskraft ff648096.aspx von Simple Dublin Core nicht ausreicht, um bspw. eine laufende Heftnummer 6 https://www.gesis.org/ssoar/home/kooperieren-mit-ssoar/projekte/ oder ein Publikationsdatum eindeutig zu codieren. online Bibliothek. Information. Technologie. 21 (2018) Nr. 5 www.b-i-t-online.de
Hübbers | Steinberg | Gebert | Jakowatz FACHBEITRÄGE 407 Content nachnutzen, so findet sich dieser vorrangig in an- deren Repositorien wie bspw. OAPEN20, in institutionellen Repositorien und Systemen wie Bibsonomy21 oder dem Da- Die Boxen für Ihre Tonies tenshop der Deutschen Nationalbibliothek (DNB)22. Diese werden insbesondere durch kleinere Forschungseinheiten wie bspw. universitäre Sonderforschungsbereiche, das Na- NEU tionale Bildungspanel (NEPS)23 oder das Centrum für Hoch- Maxi-Box schulentwicklung (CHE)24 zur Archivierung genutzt. Während OAPEN die Formate ONIX-XML, MARCXML, CSV sowie ein für den Import in Excel optimiertes XML ausge- ben kann, speichert bspw. Bibsonomy die Publikationsdaten im BibTex-Format, die jedoch auch in den Formaten HTML, EndNote u.v.a.m. ausgeben werden können. Der Datenshop der DNB kann wiederum die Formate MARC21, MARC21- XML und RDF/XML ausliefern. Anfragen zur Aufnahme ins Repositorium kommen zudem verstärkt von Verlagen und Redaktionen, die ihre Zeitschrif- ten mit dem Publikations- und Verwaltungssystem Open Journal System (OJS)25 im Netz veröffentlichen, das über eine Web-Schnittstelle für den Datenaustausch verfügt.26 Der überwiegende Teil der potentiellen Content-Provider hat seine Daten jedoch bestenfalls in Bibliotheks- und Katalog- systemen oder selbst programmierten, nicht standardkon- formen Datenbanken ohne Web-Schnittstellen vorliegen, die die Metadaten lediglich als Datei-Exporte in Formaten wie PICA, RIS, ISBD und Excel ausgeben können. In vielen Fällen liegen die Daten und Volltexte (PDF) jedoch unstruk- Tonies gut aufbewahren und ausleihen – turiert auf den lokalen Systemen der Einrichtung vor. mit diesen Boxen ein Kinderspiel! Wie aufwändig, aber eben auch erfolgreich eine Infrastruk- tur ist, die zwischen Content-Providern und die Repositorien Ihre Vorteile: geschaltet wird, hat vor Jahren das von der Europäischen • Passend für Figuren und Beiheft Union finanzierte Forschungsprojekt „Publishing and the Ecology of European Research (PEER)“27 gezeigt. Die für • Jetzt in zwei verschiedenen Größen erhältlich dieses Projekt etablierte Infrastruktur sammelte Selbstar- • Maxi-Box geeignet für Sortieranlagen chivierungen und Verlagslieferungen der partizipierenden • Transparent, stabil, fest schließend, stapelbar Zeitschriften großer STM-Verlage zentral in einem Reposito- • Preiswert und platzsparend rium, dem „PEER Depot“. Nach erfolgter Aufbereitung und Komplettierung der Metadaten wurde der Content entspre- chend der mit dem Verlag vereinbarten Embargofrist und Infos und Preise im NORIS-Shop: mit einer DOI ausgestattet über eine SWORD-Schnittstelle automatisiert an die jeweiligen nationalen Repositorien aus- http://bit.ly/toniesaufbewahrung geliefert. 20 http://www.oapen.org/home Das NORIS-Team ist für Sie da! 21 https://www.bibsonomy.org Telefon 0911 444454 22 https://portal.dnb.de/metadataShop.htm 23 https://www.neps-data.de/ info@noris-transportverpackung.de 24 http://www.che.de/cms/?getObject=5&getLang=de www.noris-transportverpackung.de 25 http://www.ojs-de.net 26 https://pkp.sfu.ca/wiki/index.php?title=OJS_Documentation 27 Ziel des von 2008-2012 laufenden PEER-Projekts war die Beforschung einer umfassen- den Archivierung von zur Veröffentlichung akzeptierten peer-reviewed Autorenfassun- gen in Repositorien. Zwölf große STM-Verlage wie SAGE, Elsevier und Springer, 241 Zeitschriften und 6 Repositorien – unter anderen auch SSOAR – waren in das Projekt eingebunden. Insgesamt wurden im Untersuchungszeitraum über 53.000 Manuskripte archiviert. www.b-i-t-online.de 21 (2018) Nr. 5 online Bibliothek. Information. Technologie.
408 FACHBEITRÄGE Hübbers | Steinberg | Gebert | Jakowatz Abbildung 2: Der agile Ent- wicklungspro- zess des DDA Die SWORD-Schnittstellen der Version 1 und 2 zeich- die spätere Nachnutzung sicherstellt. Der Entwick- nen sich durch einen hohen Grad an Standardisierung lungsprozess bedient sich an Konzepten des Scrum- aus.28 Trotz ihrer schwergewichtigen Spezifikation Modells31 und ermöglicht so eine agile32 und feature- fehlen diesen Versionen jedoch Funktionen, die für getriebene33 Entwicklung. den zweckmäßigen Import in ein Repositorium not- Ein zentrales Element des Prozesses ist der intensive wendig sind. SWORD ermöglicht bspw. keine Dublet- Austausch aller Projektbeteiligten, den sogenannten tenprüfung vor dem Import in ein Repositorium. Dem- Stakeholdern34. Dazu gehören sowohl alle Personen, gegenüber haben sich REST-Schnittstellen als leicht- die an der Weiterentwicklung des Produktes inter- gewichtige Best Practices für den Datenaustausch essiert sind als auch der Projektmanager/Product zwischen Webdiensten etabliert.29 Vor diesem Hinter- Owner als Vertreter von Verlagen und Institutionen, grund wurde bei GESIS der DDA über eine erweiterte Nutzer (bspw. Bibliothekare) und Nachnutzer der REST-Schnittstelle an das mit DSpace betriebene Software (bspw. andere Repositorien) sowie die Soft- Repositorium SSOAR angebunden. In einer neuen wareentwickler. Version 330 werden derzeit die skizzierten Mängel der Über ein GitLab-basiertes Issue-Board35 reichen die SWORD-Schnittstelle aufgegriffen und optimiert, so- Stakeholder ihre Anliegen (Issues)36 darüber ein, was dass eine zukünftige Anbindung des DDA auch über die Software in einer zukünftigen Version leisten soll. SWORD zweckmäßig wird. Zu Beginn einer durchschnittlich zweiwöchigen Itera- tion wird diese Issue-To-Do-Liste (Backlog) im Rah- 3. Der agile Entwicklungsprozess des DDA men eines Teammeetings priorisiert und abgearbei- Zu Beginn der Entwicklung des DDA wurde ein prag- tet. Durch die Formulierung von und die Fokussierung matischer Entwicklungsprozess definiert, um zeit- auf möglichst konkrete Szenarien mit quantifizierba- nahe Umsetzungen von Anforderungen realisieren zu ren Ergebnissen, bspw. dem Harvesting aller aktuell können. Für die kontinuierliche Optimierung dieser verfügbaren Publikationen einer Datenquelle, wird Umsetzungen wurden iterative Schleifen und die Er- der kostspieligen Entwicklung unnötiger Funktionen stellung einer ausführlichen Dokumentation etabliert, entgegengesteuert (YAGNI-Prinzip)37. Neue Software-Entwicklungen erfolgen in einem ei- 28 Daher wird die SWORD-Schnittstelle auch immer wieder (bspw. von DINI) empfohlen. 31 https://www.scrum.org/resources/what-is-scrum 29 Vgl. Richardson, Leonard/Amundsen, Mike/Ruby, Sam: RESTful Web APIs, 32 https://de.wikipedia.org/wiki/Agile_Softwareentwicklung Sebastopol 2013 und Webber, Jim/Parastidis, Savas/Robinson, Ian: REST 33 https://de.wikipedia.org/wiki/Feature_Driven_Development in Practice: Hypermedia and Systems Architecture, Sebastopol 2012. REST- 34 http://agiles-projektmanagement.org/scrum-stakeholder/ Schnittstellen ermöglichen die wünschenswerte lose Kopplung verteilter Com- putersysteme mit allgemein akzeptierter und bekannter Semantik. Zudem 35 https://git.gesis.org/dda/dda-wizard/boards ist REST programmiersprachen-unabhängig. Aus diesen Eigenschaften ergibt 36 Issues sind neue Features, bspw. die Anbindung einer noch nicht erschlos- sich Flexibilität und Unabhängigkeit bei der Entwicklung alternativer Client- senen (Meta-)Datenschnittstelle oder Bugfixes, bspw. die Korrektur eines und Server-Komponenten. fehlerhaften Datenquellen-Harvestings. 30 http://swordapp.org/swordv3/ 37 https://de.wikipedia.org/wiki/YAGNI online Bibliothek. Information. Technologie. 21 (2018) Nr. 5 www.b-i-t-online.de
Hübbers | Steinberg | Gebert | Jakowatz FACHBEITRÄGE 409 genen git-Issue-/Feature-Branch38. Automatische hohe Zufriedenheit mit der agilen Arbeitsweise ein- Software-Tests (Unit- und Integrationstests) dienen stellt, ist die höhere Produktivität, welche ein Resul- als Sicherheitsnetz vor Software-Regressionen39. tat der höheren Arbeitsqualität des Teams darstellt Beim Hochladen des aktuellen Stands der Entwick- (bspw. durch Pair Programming, Code-Refactoring lung (git push) installiert eine Jenkins-Instanz40 diese und automatisierten Tests42). Hinzu kommt, dass Software-Version im Rahmen einer „Build Automa- bestenfalls nur ein Issue pro Person aktiv bis zum tion mit Continuous Delivery“ automatisch auf einem Abschluss bearbeitet wird. So können die Entwickler dedizierten Staging-Server41. Stakeholder können ihre zugewiesenen Aufgaben schneller und störungs- diese Software-Version nun testen und mitteilen, ob freier ohne Kontextwechsel und Multitasking-Verluste sie ihren Bedarfen entspricht oder nicht und Verbes- abarbeiten. Einerseits bieten diese Eigenschaften serungsvorschläge einbringen. Jede Iteration endet zeitnah motivierende Erfolgserlebnisse, andererseits mit einer Retrospektive, in der sich die Stakeholder aber auch eine frühzeitige Möglichkeit zur Beurteilung gegenseitig über ihre Erkenntnisse der vergangenen und Kurskorrektur.43 Wochen austauschen und so voneinander über ihre Fachdomänen lernen. Direkt im Anschluss folgt die 4. Aufbau und Funktion des DDA Planung der nächsten Iteration. Als Startpunkt für die Entwicklung des DDA diente Ein Grund, weshalb sich bei den Stakeholdern eine eine mit dem Scaffolding-Tool44 JHipster45 generierte Quelltext-Basis. JHipster erzeugt Quelltexte, die sich 38 https://en.wikipedia.org/wiki/Branching_(version_control)#Development_ branch 39 Code-Änderungen können Fehler in zuvor korrekt funktionierenden Software- 42 Vgl. dazu Mah, Michael/ Lunt, Mike: How agile projects measure up, and Komponenten verursachen. Solche Fehler nennt man Regressionen. what this means to you. Cutter Consortium 2008 (Agile Product & Project Management Executive Report Band 9). 40 Jenkins ist eine Software, die wiederkehrende und zeitaufwändige Arbeits- schritte in der Software-Entwicklung automatisiert. Dazu gehören das Prüfen 43 Vgl. Cohn, Mike: Succeeding with Agile: Software Development using Scrum. von Programmfehlern sowie das Kompilieren und Installieren auf dem Zielsy- Upper Saddle River, NJ 2010. stem (Continiuos Deployment) https://jenkins.io/ 44 https://en.wikipedia.org/wiki/Scaffold_(programming) 41 https://de.wikipedia.org/wiki/Bereitstellungsumgebung 45 https://www.jhipster.tech/ Persönlicher und kompetenter Service unter +49 911 / 600 17 33 Entdecken Sie unser vielfältiges Etikettensortiment auf www.peter-haase.de Interessenaufkleber, Antolin-Etiketten, Barcode-Etiketten, Sicherheitsetiketten, Markierungspunkte, Folie, Papier, Sonderanfertigungen, u.v.m. www.b-i-t-online.de 21 (2018) Nr. 5 online Bibliothek. Information. Technologie.
410 FACHBEITRÄGE Hübbers | Steinberg | Gebert | Jakowatz Abbildung 3: an aktuellen Best Practices der Webanwendung-Ent- dass durch Entwicklung von Adaptern beliebige Quell- DDA ermöglicht wicklung orientieren: Serverseitig wird das Java-ba- und Zielsysteme angesprochen werden können. Da durch seine Ad- apter-Architektur, sierte Webframework Spring verwendet. Außerdem der Datenaustausch zwischen den Pipeline-Stufen Datenbezug, generiert JHipster eine Angular-basierte Single-Page- außerdem über definierte Schnittstellen erfolgt, kön- -transformation Webanwendung46, die als Webbrowser-Benutzer- nen Adapter für den Datenbezug, die Transformation und -einspielung schnittstelle dient und mit der serverseitigen Spring- und den Repositoriums-Import vielfältig miteinander flexibel zu konfigu- rieren. Aufgrund Anwendung interagiert. Diese generische Software- kombiniert werden. der standardisier- Grundlage diente anschließend als Ausgangsbasis Die Benutzer einer DDA-Instanz sind Mitarbeiterinnen ten Schnittstellen zur Erweiterung um die gewünschten Anforderungen und Mitarbeiter des Ziel-Repositoriums, die über das können Adapter an den DDA. Fachwissen, welche Publikationen für das Reposi- beliebig miteinan- Der DDA fungiert als Mittler zwischen Content-Pro- torium geeignet sind und welche Metadaten in wel- der kombiniert werden. vidern und dem Ziel-Repositorium und läuft als ei- cher Konvention eingespielt werden sollen, verfügen. genständige Webanwendung unabhängig von diesen Die DDA-Bedienung erfolgt über einen Webbrowser. Systemen. Herzstück ist seine Datenverarbeitungs- Autorisierte Benutzer können hierüber neue Daten- Pipeline: Sie bezieht Daten aus Quellsystemen oder quellen hinzufügen, Metadaten-Transformationen per manuellem Dateiupload, transformiert diese für diese Datenquellen einrichten und aktualisieren, Daten entsprechend der Konventionen des Ziel-Re- den aktuellen Harvesting-Stand begutachten und den positoriums, um sie dort abschließend einzuspielen. Import von Publikationen in das Ziel-Repositorium Der Aufbau der Pipeline folgt damit einer dreistufigen initiieren. Neben Adaptern für XML-Dateien und po- Verarbeitungskette aus Datenbezug Datentransfor- puläre Web-Schnittstellen wie OAI-PMH existieren mation Dateneinspielung, die sich unter dem Na- auch bereits Adapter für weniger gebräuchliche Da- men ETL47 in vielen anderen Softwaresystemen eben- tenquellen wie bspw. unAPI-Schnittstellen und Excel- falls bewährt hat. Um den vielfältigen Standards und Tabellen. Neben dem Bezug der Rohdaten erfüllen die Schnittstellen der Open-Access-Landschaft zu begeg- Datenbezug-Adapter die Aufgabe, Metadaten in ein nen, wurden die drei Pipeline-Stufen so entworfen, einheitliches Format zwecks standardisierter Weiter- verarbeitung umzuwandeln. 46 https://en.wikipedia.org/wiki/Single-page_application 47 https://de.wikipedia.org/wiki/ETL-Prozess online Bibliothek. Information. Technologie. 21 (2018) Nr. 5 www.b-i-t-online.de
Hübbers | Steinberg | Gebert | Jakowatz FACHBEITRÄGE 411 Bsp.: die auf die entsprechenden Dokumente im Netz Für eine XML-Datei-Ablieferung mit dem Inhalt (HTTP, FTP) verweisen. In vielen Fällen führen diese Metadaten-Felder zuerst auf eine HTML-Landing- Page, weshalb eine Content-Resolver-Komponente49 Smith entwickelt wurde, die durch verschiedene Heuristiken Jolene und Strategien die Volltexte findet und diese dem zu importierenden Metadatensatz hinzufügt. Der DDA ist in der Lage, die gewonnenen Publikatio- konvertiert DDAs XML-Datei-Datenbezug-Adapter nen einschließlich der Metadaten in verschiedene Re- den Metadatensatz in folgendes Format: positorium-Systeme abzuliefern. Im SSOAR-Kontext authors.author[0].last-name = ”Smith“ entstand vor diesem Hintergrund ein Adapter zur Da- authors.author[0].first-name = ”Jolene“ teneinspielung in DSpace-5-Repositorien mit aktivier- ter REST-Schnittstelle. Darüber hinaus wird im Rah- Nachdem die Metadaten in das vom DDA verarbeit- men von Kooperationen mit weiteren Repositorien die bare Format umgewandelt wurden, erfolgt durch Entwicklung von Adaptern zwecks Ablieferung insbe- den Einsatz von Transformationsregeln eine entspre- sondere an Fachrepositorien angestrebt, die zumeist chende Anpassung auf die Konventionen des Ziel-Re- mit den Open-Source-Repositorien-Software DSpace, positoriums, wozu einmalig eine passende Transfor- Fedora, OPUS50, MyCoRe51 oder EPrints betrieben mationsregel pro Ablieferer hinterlegt wird. Um den werden. Zudem ist eine Anbindung über SWORD- Content-Providern unterstützend entgegenzukommen Schnittstellen geplant. und die Massenablieferungen in Gang zu bringen, Bei der Entwicklung des DDA wurde auf einen konse- wurde bereits zu Beginn der Entwicklung des DDA ent- quenten Einsatz von frei verfügbaren Software-Biblio- schieden, der Formatvielfalt individuell und mit flexi- theken geachtet. Da im Java-Umfeld keine geeignete bel konfigurierbaren Transformern zu begegnen. Eine Bibliothek zur Interaktion mit OAI-PMH-Schnittstel- positive Folge dieses Vorgehens ist, dass während der len existierte, entstand im DDA-Kontext der Open- Programmierung individueller Transformationsregeln Source-OAI-PMH-Harvester ZOAI52. Er kann als Java- eine Software-Sammlung mit Regeln entsteht, auf die Bibliothek in anderen Software-Projekten unabhängig man bei der Erschließung weiterer Ablieferer-Quellen vom DDA nachgenutzt werden. Weiterhin wurde die zurückgreifen kann. Mit diesen Transformationsregeln DSpace-5-REST-Schnittstelle um Endpunkte erwei- lassen sich bspw. Umformungen von Feldinhalten, Ex- tert, um bspw. Suchanfragen nach Metadaten im Re- traktionen von Details aus Zitationen, Abgleiche mit positoriums-Bestand zu ermöglichen. Der DDA nutzt kontrollierten Vokabularlisten oder Harmonisierungen diese Funktion, um den Import von Dubletten zu ver- von ISBN- und ISSN-Nummern durchführen. meiden. Diese Erweiterung steht ebenfalls als einbind- Um der Heterogenität von Metadatenformaten und bare Software-Bibliothek für DSpace-5-Repositorien Feldwerten zu begegnen, können Transformations- zur Verfügung53 und kann so auch im Rahmen neuar- regeln auf verschiedene Weisen angelegt werden. So tiger REST-Client-Entwicklungen eingesetzt werden. steht es frei, die Umformungen mit XSLT, Java oder einer eigenentwickelten, domänenspezifischen Spra- 5. Kritische Einschätzung: Metadaten, che (DSL) für die Transformation von Metadaten zu Transformation und Standardisierung formulieren. Beispiele für die Nutzung sowie Erläute- Als eine Softwareentwicklung, die Metadaten und rungen stehen für alle Varianten als dokumentierter Volltexte harvesten, annehmen, konvertieren und ins Quelltext48 zur Verfügung. Die Erfahrung zeigt, dass Repositorium importieren kann, hat der DDA auf den Mappings und Transformationen am effektivsten in einschlägigen Konferenzen54 und bei den Koopera- iterativen Prozessen erarbeitet werden; dazu gehört tionspartnern große Aufmerksamkeit erhalten. Für dementsprechend auch die Möglichkeit umfassender intellektueller Tests im DDA. 49 https://git.gesis.org/dda/dda-wizard/blob/master/src/main/java/org/ gesis/dda/publishing/domain/impl/ContentResolver.java Zusätzlich zu den Metadaten müssen auch die zu- 50 https://de.wikipedia.org/wiki/OPUS_(Dokumentenserver) gehörigen Volltexte ihren Weg ins Ziel-Repositorium 51 http://www.mycore.de/ finden. Dies geschieht über die in den Metadaten vor- 52 https://git.gesis.org/dda/zoai handenen URLs oder Persistent Identifier (DOI, URN), 53 https://git.gesis.org/dspace/rest-additions 54 Open-Access-Tagen 2016 (Session 6, https://open-access.net/community/ open-access-tage/open-access-tage-2016-muenchen/programm/) und 48 https://git.gesis.org/dda/dda-wizard/tree/master/src/test/java/org/ 2017 (Tool-Marktplatz, https://open-access.net/community/open-access- gesis/dda/transformer/impl tage/open-access-tage-2017-dresden/programm/toolmarktplatz/#c2940) www.b-i-t-online.de 21 (2018) Nr. 5 online Bibliothek. Information. Technologie.
412 FACHBEITRÄGE Hübbers | Steinberg | Gebert | Jakowatz SSOAR wird der DDA als Infrastruktur für Massena- ben, indem vormals wenig zusammenhängende und blieferungen der Partner in das Fachrepositorium größtenteils manuelle Tätigkeiten in einem nunmehr genutzt und befördert ganz entscheidend die Open- integrierten Workflow entlang der dreistufigen Verar- Access-Verfügbarmachung von Publikationsreihen, beitungskette aus Datenbezug Datentransforma- Mitarbeiterpublikationen und Zeitschriften. Die An- tion Dateneinspielung zusammengefasst und auto- bindung des DDA sowohl an Content-Provider als matisiert werden. Dadurch entstehen systematisierte auch an archivierende Repositorien wurde über unab- und deutlich schlankere Arbeitsprozesse. Letztlich hängige, modifizier- und erweiterbare Softwarekom- wird durch die weitgehend automatisierten Verarbei- ponenten bzw. Adapter realisiert. Alle Softwareent- tungsprozesse die Bereitstellung von gut erschlosse- wicklungen wurden ausführlich dokumentiert und nen und gut auffindbaren Open-Access-Publikationen stehen als Quelltext auf dem GitLab der GESIS unter ganz entscheidend beschleunigt. https://git.gesis.org/dda/dda-wizard zur Nachnutzung Ungeachtet der großen Erleichterungen, die der DDA zur Verfügung. Dadurch kann der DDA mit überschau- für die Integration von umfangreichen Datenbestän- barem Aufwand an andere Systeme angebunden und den und Volltexten in die Repositorien für einmal in anderen Kontexten zur Datentransformation sowie angebundene Content-Provider mitbringt, entsteht für Datenexporte und -importe eingesetzt werden. durch die Anbindung des DDA auch ein ambivalenter Eine bleibende Herausforderung stellt die Konvertie- Nutzungsaspekt, der einer eingehenden Kritik unter- rung der Daten in das für SSOAR notwendige Format zogen werden muss. Sowohl die Anbindung als auch deswegen dar, weil einzelne Content-Provider ihre die Pflege des DDA, insbesondere die kontinuierliche Daten in zumeist sehr individuellen, von Standards Hinterlegung von Datenmappings bzw. Transformati- abweichenden Formaten und heterogenen bibliogra- onsregeln aufgrund immer neuer, zumeist proprietä- phischen Ansetzungen übermitteln. Infolgedessen rer Formate, macht eine dauerhafte, professionelle kann der Ablieferungsprozess nicht durchgängig auto- informationstechnische Betreuung für Repositorien matisch vom Content-Provider durchgeführt werden, unabdingbar. Zwar erleichtert die stetig wachsende sodass das Fachpersonal des Ziel-Repositoriums tätig Bibliothek die Neuerstellung von Transformationsre- werden muss, um passende Transformationsregeln zu geln, der Betrieb des DDA bleibt jedoch zumindest erstellen. Trotz dieser Einschränkungen stellt der DDA mittelfristig relativ aufwendig, nicht zuletzt deshalb, eine erhebliche Erleichterung für den Import umfang- weil unter den Repositorien kein einheitlicher Meta- reicher Datenmengen in ein Repositorium wie SSOAR datenstandard besteht. dar, zumal die angesprochenen Transformationsregeln Bilaterale Transfermodule55, wie sie im DDA Anwen- für jeden Ablieferungspartner nur einmal entwickelt dung finden, reduzieren die vorhandene Heterogeni- werden müssen; einmal angebunden werden Abliefe- tät von Metadatenformaten und setzen dabei im We- rungen und Harvests vollautomatisch konvertiert und sentlichen die Prämisse von Konsistenzerhaltung und importiert. Darüber hinaus können die Transformati- Interoperabilität um.56 Alle Bemühungen in der Fach- onsregeln für die jeweiligen Datenlieferanten nicht informationswelt, eine weitgehende Konsistenz bzw. nur hinterlegt, sondern für die Erstellung neuer Regeln Standardisierung von Metadatenformaten herzustel- nachgenutzt und in einer Bibliothek zusammengestellt len, werden durch die Dezentralisierung bei der Do- werden, was die weitere Anbindung anderer Datenlie- kumenterstellung, -erschließung und -verteilung57 kon- feranten deutlich erleichtert. Mit zunehmender Anzahl terkariert. Vor diesem Hintergrund wird das Problem an Transformationsregeln in der Bibliothek sinkt die mangelnder Durchsetzung von Standards durch bila- Wahrscheinlichkeit, dass Repositorien mit Metada- terale Transfermodule bzw. Broker wie dem DDA nicht tenformaten konfrontiert werden, für die bislang noch grundsätzlich gelöst, sondern lediglich umgangen. keine entsprechende Regel existiert. Gerade dieser Nichtsdestotrotz offenbart der DDA das Ausmaß der doppelte Nutzungseffekt – Nachnutzung sowie Re- Datenvielfalt und bietet quantitative Hinweise für ge- duzierung der Heterogenität durch Erweiterung von Transformationsregeln – fand in der Repositoriums- 55 Auf Modellebene entspricht der DDA den Transfermodulen, wie sie bspw. bei der Behandlung semantischer Heterogenität entwickelt und eingesetzt wur- Community eine außerordentlich positive Resonanz. den, vgl. Krause, Jürgen. Standardisierung von der Heterogenität her denken Die Anbindung einer lokalen Instanz des DDA an - zum Entwicklungsstand bilateraler Transferkomponenten für digitale Fachbi- bliotheken Bonn 2003 (Informationszentrum Sozialwissenschaften, IZ-Arbeits- SSOAR zeigt beispielhaft, dass die administrativen bericht, 28). http://nbn-resolving.de/urn:nbn:de:0168-ssoar-50750-9 Aufgaben eines Repositoriums beim Import umfang- 56 Vgl. Krause, Jürgen: Total Package Design für digitale Bibliotheken und Fach- reicher Publikationsbestände wesentlich strukturier- information, in: Hutzler, Evelinde (Hrsg.): Bibliotheken gestalten Zukunft : kooperative Wege zur digitalen Bibliothek. Dr. Friedrich Geißelmann zum 65. ter ablaufen und dadurch der Arbeitsaufwand insge- Geburtstag, Göttingen 2008, S. 185 ff. samt minimiert wird. Der DDA optimiert diese Aufga- 57 Vgl. Krause: Standardisierung von der Heterogenität her denken, S. 7. online Bibliothek. Information. Technologie. 21 (2018) Nr. 5 www.b-i-t-online.de
414 FACHBEITRÄGE Hübbers | Steinberg | Gebert | Jakowatz eignetere Formate des Datenbezugs. Die Konvertie- Eine weitere Überlegung für einen erfolgversprechen- rungsregeln geben darüber hinaus wichtige Hinweise den Einsatz des DDA sieht das Team in einer Zusam- für eine notwendige Standardisierung von Metadaten. menarbeit61 mit dem von der DFG geförderten Projekt Bis solche langfristigen Harmonisierungen etabliert DeepGreen62, das sich der Aufgabe stellt, „wissen- sind, sorgt der DDA in den belieferten Repositorien schaftliche Veröffentlichungen, sofern lizenzrechtlich bereits jetzt für eine sehr gute Datenqualität. erlaubt, automatisiert nach Ablauf der Embargofris- ten [über Repositorien] Open Access verfügbar [zu] 6. Fazit und Ausblick: Weiterentwicklung machen“63. Dazu werden über eine Datendrehscheibe, und zukünftige Anwendungsszenarien die Publikationsdaten teilnehmender Institute und Parallel zu notwendigen Standardisierungen stellt der Verlage vorhält, auf der Grundlage der Allianz- und DDA kurz- bis mittelfristig eine große Erleichterung Nationallizenzen und deren Open-Access-Klauseln64 beim Import großer Datenmengen in die Reposito- lizenzrechtlich zweitverwertbare Publikationen bei rien dar. Gerade Fachrepositorien können dadurch den Verlagen identifiziert, zusammen mit den Me- die fachlich relevanten Forschungspublikationen ihrer tadaten eingesammelt und an die entsprechenden angebundenen Kooperationspartner – insbesondere Repositorien geliefert.65 Der DDA könnte in diesem Mitarbeiterpublikationen und Publikationsreihen – im Rahmen als Broker dienen, über den Metadaten der Open Access verfügbar machen. Daher nehmen die Verlage und Institute auf die von den Repositorien be- Betreiber von SSOAR die erfolgreiche Entwicklung des nötigten Formate konvertiert werden. ❙ Prototypen zum Anlass, den DDA mit weiteren Part- 61 Auch hier gibt es zum Zeitpunkt der Entstehung dieses Artikels Kooperations- nern für konkrete Anwendungsszenarien weiterzuent- gespräche, jedoch noch ohne formale Ergebnisse. wickeln. Während GESIS plant, alle weiteren Entwick- 62 https://deepgreen.kobv.de/de/deepgreen/ lungen des DDA (von den Anbindungsadaptern bis hin 63 Ebda. zu den Transformationsregeln) auf dem GESIS-GitLab 64 https://www.nationallizenzen.de/, https://www.nationallizenzen.de/ ueber-nationallizenzen/allianz-lizenzen-2011-ff. zu veröffentlichen, zu verwalten und zu koordinieren, 65 Aufgrund der ausgehandelten Bestimmungen der Allianz- und Nationallizenzen wird der DDA bei den Kooperationspartnern als je- dürfen aufgrund der OA-Klausel zweitverwertbare Mitarbeiterpublikationen im institutseigenen Repositorium archiviert werden. Es wäre zu klären, unter weils eigenständige lokale Applikation für den Betrieb welchen Voraussetzungen ein Nachweis auch in Fachrepositorien möglich ist. adaptiert. Ein lokaler DDA erleichtert die Pflege und erhöht die Nachnutzbarkeit im individuellen Kontext. Mit dem DDA soll vor allem der Nachweis von gut erschlossenen Open-Access-Volltexten nachhaltig Alle AutorInnen sind unterstützt werden. Als potentielle Kooperationspart- Wissenschaftliche MitarbeiterInnen bei: GESIS-Leibniz-Institut für Sozialwissenschaften ner für einen Roll-Out des DDA als jeweils neue Ap- Team Open Access, Abt. Wissenstransfer plikation nimmt das SSOAR-Team Repositorien und Unter Sachsenhausen 6-8, 50667 Köln Projekte in den Blick, in denen große Datenmengen verarbeitet und in Repositorien archiviert werden Dipl.-Ing. Gerrit Hübbers müssen. Hinsichtlich der Einrichtung und der Inbe- Chef-Entwickler des DDA triebnahme des DDA müssen Kooperationspartner gerrit.huebbers@gesis.org die damit verbundenen und zuvor skizzierten Aufga- ben ausführen, insbesondere was die Hinterlegung von Transformationsregeln im DDA betrifft. Vor die- Dipl.-Bibl. Jan Steinberg (M.A. LIS) Wissenschaftlicher Mitarbeiter und sem Hintergrund bietet sich bspw. eine Zusammen- Softwareentwickler arbeit mit Betreibern etablierter Fachrepositorien wie jan.steinberg@gesis.org ZB MED – Informationszentrum Lebenswissenschaf- ten58 an, die über das Fachrepositorium Lebenswis- Dr. Agathe Gebert senschaften (FRL)59 die Open-Access-Publikationen Leitung des Teams. Seit 2009 mit dem Auf- von bislang über 150 relevanten Wissenschaftsein- bau von Open-Access-Repositorien pedocs richtungen im In- und Ausland nachweisen möchte.60 (DIPF) und SSOAR (GESIS) beschäftigt. agathe.gebert@gesis.org Dipl.-Soz. Stefan Jakowatz 58 https://www.zbmed.de/ Wissenschaftlicher Mitarbeiter 59 https://www.publisso.de/open-access-publizieren/repositorien/fachrepo- stefan.jakowatz@gesis.org sitorium-lebenswissenschaften/ 60 Zum Zeitpunkt der Entstehung dieses Artikels verfolgen ZB MED und GESIS konkrete Kooperationsabsichten, die momentan noch keiner formalen Verein- barung folgen. online Bibliothek. Information. Technologie. 21 (2018) Nr. 5 www.b-i-t-online.de
Sie können auch lesen