Die Migration der Bibliographia Cartographica Migrating the Bibliographia Cartographica

 
WEITER LESEN
Die Migration der Bibliographia Cartographica Migrating the Bibliographia Cartographica
                                             Bibliotheksdienst 2023; 57(2): 95–110

Franziska Engelhardt, Nicole Freitag und Miriam Wildermuth
Die Migration der Bibliographia
Cartographica
Migrating the Bibliographia Cartographica
Daten aufräumen mit OpenRefine
Cleaning up data with OpenRefine

https://doi.org/10.1515/bd-2023-0016

Zusammenfassung: Die Bibliographia Cartographica ist seit fast 50 Jahren eine
wichtige Recherchequelle der internationalen kartographischen Fachcommu-
nity. Ursprünglich als Druckausgabe veröffentlicht und dann in eine Datenbank
migriert, muss sie aktuell, funktional und erweiterbar bleiben. Aus diesem Grund
wurden ihre Daten aus veralteten Datenbankstrukturen in den Verbundkatalog
des GBV migriert. Der Artikel beschreibt Herausforderungen und Arbeitsschritte
dieses Migrationsprojekts, in dessen Mittelpunkt das Werkzeug OpenRefine stand.
Weiterhin werden alle dafür verwendeten Tools vorgestellt und das erforderliche
Mapping der Daten ins PICA-Format beschrieben.

Schlüsselwörter: Metadaten, Datenmigration, Bibliographia Cartographica, Open-
Refine

Abstract: The Bibliographia Cartographica has been a major search resource for
specialists and professionals in the cartographic community across the globe for
the last 50 years. Originally a print edition, it has been migrated to a database,
which must be functional, extendable and permanently updated. The data have
seen a migration from rather outdated database structures to the GBV union cata-
logue. The paper describes the challenges and procedures of this migration project
in which OpenRefine was instrumental. We introduce tools that were used and
describe the process of mapping the data in PICA format.

Keywords: Metadata, data migration, Bibliographia Cartographica, OpenRefine

Franziska Engelhardt: franziska.engelhardt@sbb.spk-berlin.de
Nicole Freitag: nicole.freitag@sbb.spk-berlin.de
Miriam Wildermuth: miriam.wildermuth@sbb.spk-berlin.de

   Open Access. © 2023 bei den Autorinnen und Autoren, publiziert von De Gruyter.            Dieses Werk ist
lizensiert unter der Creative Commons Namensnennung 4.0 International Lizenz.
Die Migration der Bibliographia Cartographica Migrating the Bibliographia Cartographica
96         Franziska Engelhardt, Nicole Freitag und Miriam Wildermuth

1 Was ist die Bibliographia Cartographica?
Die Bibliographia Cartographica (BC)1 ist eine internationale Fachbibliographie für
Kartographie, Geschichte der Kartographie und Geoinformation. Sie wird seit 1974
von der Kartenabteilung der Staatsbibliothek zu Berlin herausgegeben und enthält
bibliographische Angaben zu Monographien, Zeitschriften und Aufsätzen aus aller
Welt in vielen unterschiedlichen Sprachen.
     Als Fortsetzung der von 1957–1972 erschienenen Bibliotheca Cartographica
wurde die BC einmal jährlich in gedruckten Bänden im K.G. Saur Verlag (Heute:
De Gruyter Saur) verlegt. Seit 1989 wurden die Druckdaten mit der Bibliothekssoft-
ware Allegro aufgenommen und verwaltet. Ab 2003 wurden die Datensätze der BC
in eine MySQL-Datenbank mit einer in PHP programmierten Oberfläche migriert
und 2007 der Öffentlichkeit in elektronischer Form zugänglich gemacht. In diesem
System hatte die BC eigene Erfassungsregeln und ein eigenes System der Sacher-
schließung, das den Nutzer*innen die fachspezifische Suche erleichterte.
     Auch heute wird die BC stetig erweitert. Bei einem Zuwachs von jährlich 1.500
wissenschaftlichen Publikationen wertet die Redaktion fortlaufend ca. 180 karto-
graphische Fachzeitschriften aus. Mittlerweile enthält die BC über 62.000 nach-
gewiesene Titel, darunter zunehmend auch online frei zugängliche Publikationen.
     Die ursprüngliche MySQL-Datenbank wies aufgrund der bei der Konzeption
nicht bedachten fehlenden Normalisierung2 Probleme auf, und die seit 2007 genutzte
PHP-Anwendung war nach 12 Jahren veraltet, sodass sie nicht mehr gemäß aktuellen
Sicherheitserfordernissen upgedatet werden konnte. Es wäre eine komplette Neu-
implementierung notwendig gewesen. Aus diesen Gründen wurde eine technische
Alternative gesucht. Als Lösung wurde eine Migration der Daten ins PICA-Format
und damit in den Verbundkatalog des GBV und des SWB (K10plus) beschlossen. Als
Vorbild galten hierbei diverse andere Fachdatenbanken, die ebenfalls PICA-basiert
vom Bibliotheksverbund GBV gehostet werden, z. B. die Leibniz-Bibliographie3.
     Die Vorteile für die BC lagen auf der Hand:
– Mitnutzung der bestehenden Infrastruktur durch den K10plus (dazu zählen
     z. B. zentraler Support, Updates, künftige Migrationen und Datenmanagement),
– Verwendung eines bestehenden Regelwerks, ggf. automatisierte zentrale
     Datenanpassungen,
– Nachträgliche Anreicherung der Daten im Verbund, z. B. durch Normdaten,

1 https://kartographie.staatsbibliothek-berlin.de/ressourcen/bibliographia-cartographica [Zugriff:
03.11.2022].
2 Es fehlte die klare Strukturierung der Datenbank, um uneinheitliche Belegung der Eingabefelder
zu vermeiden.
3 https://www.leibniz-bibliographie.de [Zugriff: 03.11.2022].
Die Migration der Bibliographia Cartographica Migrating the Bibliographia Cartographica
                    Die Migration der Bibliographia Cartographica   97

Abb. 1: Einige Zeitschriften im alten Frontend der BC.

–    Nachnutzung der von anderen teilnehmenden Verbund-Bibliotheken erfassten
     bibliographischen Datensätze,
–    einfachere Abbildung bisher nicht erfasster Publikationsformen (Weblogs o. ä.),
–    verbesserte Recherche-Ergebnisse durch Nachnutzung von zusätzlichen
     Sacherschließungselementen aus kooperativer Sacherschließung oder Fremd-
     dateneinspielung,
–    einfaches Abrufen und Weiterverarbeiten der Daten über bereits vorhandene
     definierte Schnittstellen (z. B. SRU),
–    Export der bibliographischen Daten durch Nutzende in Literaturverwaltungs-
     programmen (z. B. Citavi oder EndNote).

2 Ablauf der Migration

2.1 Planung und Beteiligte

Im Sommer 2019 begann an der Staatsbibliothek zu Berlin die Planung der Migra-
tion der Bibliographia Cartographica unter Beteiligung der Kartenabteilung4, sowie
der Abteilung Informations- und Datenmanagement5 und dem Metadatenbeauf-

4 Vertreten durch Nicole Freitag und Jens-Peter Grell.
5 Vertreten durch Dr. Oliver Schöner.
Die Migration der Bibliographia Cartographica Migrating the Bibliographia Cartographica
98          Franziska Engelhardt, Nicole Freitag und Miriam Wildermuth

tragten der Staatsbibliothek6. Zuerst wurden die Daten der BC in mehreren OpenRe-
fine-Projekten hinterlegt7, damit sie in ihrem ursprünglichen Zustand gesichtet und
analysiert werden konnten. Dadurch konnte in Erfahrung gebracht werden, welche
Transformationen nötig waren, um die Daten im K10plus als valide Datensätze zu
integrieren. Auch zuvor hatte die Kartenabteilung das Tool OpenRefine bereits
genutzt, um im MySQL-System mögliche Fehler in den Datensätzen identifizieren
zu können. Es gab also bereits einige wenige Erfahrungen mit dieser Software. Ent-
sprechende Korrekturen wurden jedoch vorerst noch in der Bearbeitungsmaske
des bisherigen Erfassungssystems vorgenommen.

Abb. 2: Die Erfassungsmaske der alten BC.

Im Januar 2020 begann die direkte Arbeit in OpenRefine8. Vollständig migriert
waren die Daten im Verbundkatalog des GBV im November 2021.

6 Dr. Joachim Laczny.
7 OpenRefine (vorher: Google Refine) ist ein Tool für die Bearbeitung (Sichtung und Änderung)
großer Datenmengen, https://openrefine.org [Zugriff: 03.11.2022].
8 Durch Nicole Freitag. Im Mai 2020 übergab sie das Projekt an Miriam Wildermuth und Franziska
Engelhardt, ebenfalls aus der Kartenabteilung, die es bis zu dessen Fertigstellung betreuten.
Die Migration der Bibliographia Cartographica Migrating the Bibliographia Cartographica
                Die Migration der Bibliographia Cartographica    99

2.2 Verwendete Tools

Für die Arbeitsplanung und Abstimmung unter den Projektbeteiligten wurde die
Projektmanagement-Software Redmine9 verwendet. Redmine ermöglicht eine sehr
individuelle Projektorganisation über ein Ticketsystem und konnte dem Migrati-
onsprozess optimal angepasst werden.

Abb. 3: Ticketzuweisung in Redmine.

Der erste Schritt für die Migration war ein Mapping der Daten. Es wurde jeweils
eine Beschreibung des Ausgangs- und des Endzustands erstellt, also die Benennung
des Datenfeldes in der BC und seiner jeweiligen Entsprechung als PICA-Kategorie.
Dies wurde zunächst im Tabellentool Excel begonnen, doch durch den wachsenden
Umfang des Projektes wurde das Mapping bald nach Redmine übertragen. Eine
Übersichtstabelle aller zu bearbeitenden Felder erlaubte es, den Überblick über den
komplexen Migrationsprozess zu behalten.
    Zu den notwendigen Bearbeitungsschritten des jeweiligen Feldes wurden wie-
derum einzelne Redmine-Tickets erstellt und in der Übersichtstabelle verlinkt. So
konnte eine präzise Übersicht über die einzelnen Vorgehensschritte dargestellt und
abgearbeitet werden.

9 Redmine ist eine freie, web-basierte Projektmanagement-Software, https://www.redmine.org
[Zugriff: 03.11.2022].
Die Migration der Bibliographia Cartographica Migrating the Bibliographia Cartographica
100          Franziska Engelhardt, Nicole Freitag und Miriam Wildermuth

Abb. 4: Auszug aus der Übersicht über die zu bearbeitenden Felder.

      Zur Bereinigung und Umwandlung der Daten kam erneut OpenRefine zum
Einsatz. Der große Vorteil von OpenRefine bei der Bearbeitung von großen Daten-
mengen ist eine graphische Benutzeroberfläche, die alle Daten in einer Tabelle
anzeigt. So können alle Arbeitsschritte sofort an den Daten nachvollzogen und
überprüft sowie Fehler erkannt und behoben werden. Des weiteren ermöglicht
OpenRefine auch Personen mit wenig Programmiererfahrung die Bearbeitung
der Daten, da viele Funktionen im System vorgegeben sind und leicht angewendet
werden können.
      Für komplexere Umwandlungen sollten dennoch grundlegende Kenntnisse
in imperativer oder funktionaler Programmierung vorhanden sein, wobei die für
OpenRefine wichtigste DSL (Domain-specific Language) GREL an Python angelehnt
ist. Das dafür nötige Programmierungs-Know-how eignete sich das Projektteam im
Migrationsprozess selbst an (die Lernkurve war enorm). Da OpenRefine auch in der
Bibliothekswelt immer beliebter wird, gibt es hierzu einige Anleitungen online (z. B.
LibraryCarpentry10 hat sich dabei als sehr nützlich erwiesen), die sich speziell an
die Datenbearbeitung in Bibliotheken richten.

10 Library Carpentry ist eine weltweit vernetzte Community auf ehrenamtlicher Basis, die
mit Workshops und dem Angebot frei zugänglicher Tutorials dazu beitragen möchte, dass sich
Bibliothekar*innen grundlegende Fähigkeiten für den Umgang mit Software und Daten aneignen
können, https://librarycarpentry.org [Zugriff: 03.11.2022]. Weitere Erläuterungen: https://edoc.
hu-berlin.de/handle/18452/22688 [Zugriff: 03.11.2022].
Die Migration der Bibliographia Cartographica Migrating the Bibliographia Cartographica
                 Die Migration der Bibliographia Cartographica        101

Abb. 5: Ein Redmine-Ticket, in dem das Vorgehen beim Typ des Eintrags beschrieben wird.

Während der Bearbeitung wurden alle zur Umwandlung der BC-Daten ins PICA-
Format nötigen Arbeitsschritte in GitLab dokumentiert11. Praktischerweise bietet
OpenRefine zudem die Möglichkeit, sämtliche vorgenommenen Transformationen
aus OpenRefine im JSON-Format zu extrahieren, sodass auch diese in GitLab gesi-
chert werden konnten. Dieses Vorgehen bietet zum einen die Möglichkeit der Wie-
derverwendung der Arbeitsschritte bei ähnlichen Projekten und erleichtert zudem
eine nachträgliche Fehlerbehebung. Fehler können einfach nachvollzogen und
rückgängig gemacht werden, ohne dass alle folgenden Schritte erneut ausgeführt
werden müssen.

2.3 Arbeitsschritte in OpenRefine

Nachdem die Daten der BC analysiert und auf die entsprechenden K10plus-Felder
gemappt worden waren, begann die Bearbeitung der einzelnen Tabellenspalten
mittels OpenRefine. Dazu wurde jeweils eine Kopie der Original-Spalte angelegt,
um Fehler sofort erkennen zu können. Diese kopierte Spalte bekam, wenn möglich,

11 GitLab ist eine mittlerweile in der Bibliothekswelt weit verbreitete Webanwendung zur Ver-
sionsverwaltung für Softwareprojekte, https://gitlab.com/gitlab-org/gitlab [Zugriff: 03.11.2022].
Zu Git und GitLab siehe auch jüngst: Kempka, Marcel et al.: Git in der Universitätsbibliothek der
OVGU – ein Erfahrungsbericht. In: Bibliotheksdienst 56.12 (2022), S. 44–57, https://www.degruyter.
com/document/doi/10.1515/bd-2023-0008/html [Zugriff: 19.01.2023, Anmerkung der Redaktion].
Die Migration der Bibliographia Cartographica Migrating the Bibliographia Cartographica
102          Franziska Engelhardt, Nicole Freitag und Miriam Wildermuth

sofort die Nummer der Ziel-PICA-Kategorie als Benennung. Dann wurden zunächst
einfache Bearbeitungsschritte vorgenommen (dazu zählte z. B. das Entfernen über-
flüssiger Spatien). Dies half den Bearbeiterinnen, zunächst die Struktur der Daten
kennenzulernen, bevor komplexere Schritte mithilfe von GREL vorgenommen
werden konnten.

Abb. 6: Voreingestellte Bearbeitungsschritte in OpenRefine.

Abb. 7: Anleitung für einen Schritt der Bearbeitung in GitLab, mit JSON-Datei der Änderungsschritte.
Die Migration der Bibliographia Cartographica Migrating the Bibliographia Cartographica
                Die Migration der Bibliographia Cartographica      103

    Danach fand die detaillierte Bearbeitung der Daten statt. Häufig vorkommende
Bearbeitungsschritte waren u. a.:
– Dateien aus weiteren Tabellen integrieren: Da es sich bei der ursprünglichen BC
    um eine relationale Datenbank handelte, die aus mehreren Tabellen bestand,
    mussten diese für die Migration in den K10plus in eine einzige Tabelle zusam-
    mengefasst werden. So befanden sich z. B. die Körperschaften, Band / Jahr-
    gang und die Systematik in unterschiedlichen Tabellen. OpenRefine bietet die
    Möglichkeit, mithilfe der Funktion „cell.cross()“ Daten aus unterschiedlichen
    Tabellen über einen gemeinsamen Identifier zusammenzufügen und am Ende
    nur eine Tabelle mit allen Daten zu erhalten.
– Clusterfunktion: In einigen Fällen, wie z. B. dem Sprachen-Feld, mussten die
    vorhandenen Daten einem neuen Standard (in diesem Fall ISO-Norm 639-2/B)
    angeglichen werden. Dies passierte mit der Clusterfunktion von OpenRefine,
    welche automatisiert ähnliche Daten zusammenfasst und als Vorschlag eine zu
    validierende angeglichene Zelle ausgibt.
– Splitten / Verbinden: Zellen wurden auf mehrere Zeilen oder Spalten aufgeteilt.
    In anderen Fällen mussten mehrere Spalten in eine Zelle zusammengefügt
    werden.
– Ersetzen: Des Weiteren mussten die bereits vorhandenen Satzzeichen durch
    die PICA-eigenen Indikatoren für Unterfelder ($a, $n usw.) ersetzt werden und
    neue Spalten für die Anreicherung der Daten durch RDA-konforme Felder (z. B.
    die IMD-Typen in den PICA-Kategorien 0501, 0502, 0503) erstellt werden.

Das Ziel all dieser Bearbeitungsprozesse war, aus der Datenmenge in OpenRefine
eine Datei im txt-Format zu extrahieren. Diese Datei sollte fortlaufend alle BC-Daten-
sätze in PICA-Format enthalten, um in den Verbundkatalog eingespielt werden zu
können. Dafür bietet OpenRefine praktische Export-Funktionen. Das BC-Team hat
die Templating-Funktion genutzt, um die bearbeiteten Daten in der gewünschten
Form zu extrahieren. So konnte die txt-Datei kleingehalten und aufs Wesentliche
reduziert werden.
     Sämtliche leere PICA-Felder wurden mit „null“ gefüllt, um sie nach dem Export
leicht durch Regular Expressions12 in einem Text-Editor entfernen zu können. Die

12 „Ein regulärer Ausdruck (englisch regular expression, Abkürzung RegExp oder Regex) ist in
der theoretischen Informatik eine Zeichenkette, die der Beschreibung von Mengen von Zeichen-
ketten mit Hilfe bestimmter syntaktischer Regeln dient. Reguläre Ausdrücke finden vor allem in
der Softwareentwicklung Verwendung. Neben Implementierungen in vielen Programmierspra-
chen verarbeiten auch viele Texteditoren reguläre Ausdrücke in der Funktion ‚Suchen und Erset-
zen‘. Ein einfacher Anwendungsfall von regulären Ausdrücken sind Wildcards.“ (Quelle: https://
de.wikipedia.org/wiki/Regul%C3%A4rer_Ausdruck [Zugriff: 03.11.2022]).
Die Migration der Bibliographia Cartographica Migrating the Bibliographia Cartographica
104          Franziska Engelhardt, Nicole Freitag und Miriam Wildermuth

Abb. 8: Templating in OpenRefine, um BC-Daten zu extrahieren.

Datei, die dieser Prozess produzierte, konnte schließlich per E-Mail an die Verbund-
zentrale des GBV zur Einspielung übersandt werden.

2.4 K
     ooperationen und Zwischenlösungen

Bei allen Schritten des Projektverlaufes gab es eine rege und wertvolle abteilungs-
übergreifende Zusammenarbeit an der Staatsbibliothek. Gemeinsam mit der Abtei-
lung Bestandsentwicklung13 und Metadaten wurden die zukünftige Struktur der
BC-Daten erarbeitet und Fachfragen zur Katalogisierung und zum PICA-Regelwerk
geklärt. Bei technischen Fragen war die Abteilung Informations- und Datenmanage-
ment eine große Unterstützung. Besonders hervorzuheben ist hierbei, dass mitunter
neue Lösungen originär für die BC programmiert wurden, z. B. ein Tool, das bei der
Übersetzung zwischen den Datenformaten PICA3 und PICA+ behilflich ist (s. u.).
Ergänzende Hilfe kam aus der SBB-internen Arbeitsgruppe Metadatenmanagement14.
In dieser Gruppe fanden regelmäßige Treffen statt, in denen Kontakte unter Kol-
leg*innen geknüpft werden konnten und wertvolles Know-How ausgetauscht wurde.
     Im gesamten Migrationsprozess war die Verbundzentrale des GBV (VZG) in Göt-
tingen eine wichtige Ansprechpartnerin für das Team der Kartenabteilung. Von der

13 Vertreten durch Ulrike Bull.
14 Unter der Leitung von Birgit Rattay.
                 Die Migration der Bibliographia Cartographica   105

Abb. 9: Auszug aus der txt-Datei, die an die VZG geschickt wurde.

VZG kamen die exakten Vorgaben, in welcher Form die BC-Daten geliefert werden
mussten, um maschinell in den Verbundkatalog eingespielt werden zu können.
Abweichend vom ursprünglichen geplanten Mapping der BC-Daten in PICA3
verlangte die VZG die Daten im internen Format PICA+. Hierfür kam das bereits
erwähnte, eigens in der SBB programmierte Transformationstool zum Einsatz.
    Im Dialog mit der VZG wurden außerdem gesonderte PICA-Kategorien und
Abrufkennzeichen festgelegt, über welche der Zugriff des nunmehr öffentlich
zugänglichen BC-Frontends auf die Datensätze erfolgt. Hierfür wurde gemeinsam
eine Struktur für BC-eigene Exemplarsätze entwickelt, in denen auch die Sacher-
schließung der Bibliographie verzeichnet wird.
    Durch wiederholte Einspielungen von Datenproben in eine Testumgebung
des GBV konnten nach und nach weitere Fehlerquellen in den Daten entdeckt und
behoben werden. Auch die Dublettenbereinigung erfolgte in mehreren Durchläu-
fen durch die VZG.
    Absprachen erfolgten darüber hinaus mit der ZDB, da auch Zeitschriftentitel
Bestandteil der BC sind. Hierfür wurde gemeinsam mit dem GBV eine SBB-interne
Lösung entwickelt, durch die die ZDB sich nicht an der praktischen Ausführung der
Migration beteiligen musste. Die Zeitschrifteneinträge der BC wurden außerdem
durch den Fachreferenten für Geographie der SBB15 auf eine Auswahl kartogra-
phisch relevanter Kernzeitschriften gekürzt.

15 Jens-Peter Grell.
106          Franziska Engelhardt, Nicole Freitag und Miriam Wildermuth

Abb. 10: Eine Titelaufnahme in der WinIBW. Ab E001 folgt der BC-Exemplarsatz.

    Um den Service für die BC-Benutzer*innen während der Migrationsphase auf-
recht zu erhalten, wurde als Interimslösung die sogenannte „Übergangs-BC“ ein-
gerichtet. Diese Webseite hat die Grundfunktionen der BC für die Nutzer*innen
zugänglich gemacht, während hinter den Kulissen an den Daten selbst gearbeitet
wurde. Auch für die Übergangs-BC wurden einige Anpassungen an den Daten in
OpenRefine vorgenommen.

2.5 H
     erausforderungen im Migrationsprozess

Das Mapping der zwei verschiedenen Generationen von BC-Daten (aus der Zeit in
der Allegro-Datenbank und aus der späteren MySQL-Datenbank) ins PICA-Format
stellte das Projektteam vor einige Herausforderungen. Eine Schwierigkeit war z. B.
die hierarchische Gliederung der Daten: Die „alten“ BC-Daten wichen völlig ab von
der gängigen bibliothekarischen Lösung im GBV. Hier mussten also Tausende von
Datensätzen mittels OpenRefine in mehreren Arbeitsschritten umgebaut werden.
Weiterhin wurden Daten strukturell vereinheitlicht, um z. B. Angaben zu den Sei-
tenzahlen aus sehr verschiedenen Formaten (p. 3–8, 5 S., 13p, 12 Seiten, etc.) in
mehreren Schritten an die neue PICA-gerechte Form (z. B.: 4070 Seite 3–8; 4060 5
Seiten, etc.) anzupassen. Bei über 62.000 Datensätzen war die händische Bearbei-
tung nicht sinnvoll, also wurden jeweils alle Titel auf einmal mithilfe von Regular
Expressions bearbeitet. Es musste also darauf geachtet werden, dass alle möglichen
                    Die Migration der Bibliographia Cartographica   107

Abb. 11: Die Webseite der Übergangs-BC.

Formate gleichzeitig bedacht und transformiert wurden, es war also ein äußerst
komplexes Vorgehen.
     Dazu kam, dass manche Informationen, die in der BC in einem Feld und somit
in OpenRefine in einer Spalte standen, je nach bibliographischer Gattung des Titels
auf verschiedene PICA-Felder aufgeteilt werden mussten.
     Auch auf Seiten der ursprünglichen MySQL-Datenbank gab es Probleme, da
diese auf einer Druckdatenbank basierte. So gab es z. B. mehrere Tabellen für
die Band-, Jahrgang- und Heft-Angaben, die in den Werken unterschiedlich (und
manchmal doppelt) befüllt wurden. Hier mussten die Daten zunächst genau ana-
lysiert und mit der Anzeige der BC verglichen werden, bevor sie in die entsprechen-
den PICA-Felder transformiert werden konnten.
     Ein weiteres Problem war, dass die BC-Daten einige Inkonsistenzen aufwiesen,
die entstanden sind, da über lange Zeiträume viele verschiedene Personen (haupt-
sächlich ohne bibliothekarisches Fachwissen) die BC-internen Erfassungsregeln
mitunter sehr unterschiedlich ausgelegt hatten. Dadurch entstand mit den Jahren
eine recht heterogene Datenqualität.
     Zur Versinnbildlichung ein Beispiel: In der Allegro-Datenbank der BC gab es
das Feld „Bemerkungen“. Dieses wurde auf verschiedenste Weise befüllt, z. B. mit
Reihentiteln oder Kollationsvermerken. Auch weitere Ungenauigkeiten wurden
teilweise in Kleinarbeit bereinigt, z. B. als Elektronische Ressource gekennzeichnete
Datensätze, die jedoch eindeutig gedruckte Werke waren oder unlogische hierar-
chische Verknüpfungen wie Aufsätze, die an Reihendatensätzen hingen.
108         Franziska Engelhardt, Nicole Freitag und Miriam Wildermuth

3 Ergebnis und Ausblick
Im November 2021 wurden der Dublettenabgleich und die Korrektur der Titel abge-
schlossen, die BC war damit also komplett fertig migriert. Ihre Daten sind nun im
K10plus recherchierbar, werden aber wie geplant nicht im StabiKat (und natürlich
auch nicht in anderen Katalogen von Verbundteilnehmern) angezeigt, da kein
Bestand suggeriert werden soll, der nicht existiert.
    Die weitere Erfassung von BC-Daten erfolgt nun im K10plus. Diese ist nicht ganz
RDA-konform, jedoch stark daran angelehnt. Die entsprechenden Richtlinien dazu
wurden in der Kartenabteilung erstellt. Anschließend können die Titelaufnahmen
der BC im Verbund weiter genutzt und gegebenenfalls hochkatalogisiert werden.
    Die BC hat nun seit Juni 2022 wieder ihren eigenen neuen Online-Auftritt16. Das
Frontend, das die BC-Daten abruft und darstellt, wurde von der Verbundzentrale
des GBV (VZG) erstellt. Es ist eine Lösung, die mit den Web-Auftritten von vielen
anderen Bibliotheken kompatibel ist und das einheitliche VZG-Design aufweist. Das
neue Frontend hat noch nicht alle Funktionalitäten, die die BC besonders machen,
aber es wird weiterentwickelt, um es noch praktischer für die Nutzer*innen zu
gestalten. Die neue Webseite der BC ist inzwischen live und macht nun wieder über
62.000 kartographische Titel aus aller Welt der Öffentlichkeit zugänglich.
    Die Kartenabteilung arbeitet auch mit weiteren Mitteln an der Ausweitung der
Daten, die der BC hinzugefügt werden: Aktuell ist ein Projekt in Arbeit, bei dem
per OCR (maschinelle Texterkennung) die bisher nur gedruckt vorliegenden Bände
der BC (Bibliotheca Cartographica 1954–1973 und Bibliographia Cartographica
1974–1989) digitalisiert werden. Auch diese Bände, die ca. 61.000 Titel enthalten,
werden in den K10plus integriert werden. Dazu wird der hier erarbeitete Prozess
nachgenutzt.
    Das Know-how, das bei der Migration der BC-Daten in der Kartenabteilung und
in der Staatsbibliothek erworben wurde, ist auch für zukünftige Projekte nützlich:
Aktuell plant die Kartenabteilung ein Projekt, das die GeoPhoKa (Literaturdaten-
bank GEOdäsie, PHOtogrammetrie, KArtographie, ca. 65.000 Titel von 1984–2005)
ebenso in den K10plus migrieren soll. Die Herausgeberin, das Bundesamt für Karto-
graphie und Geodäsie, hat die Rohdaten dazu bereits zur Verfügung gestellt. Auch
hierbei werden die Erfahrungen aus dem erfolgreichen Prozess der BC-Migration
helfen, diese Daten den Nutzer*innen wieder zugänglich zu machen.
    Ein weiteres aktuelles Projekt in der Staatsbibliothek, das sich das Angleichen
von WorldCat-Werkdaten zu E.T.A. Hoffmann17 zum Ziel gesetzt hatte, verwendete

16 https://bc.staatsbibliothek-berlin.de [Zugriff: 03.11.2022].
17 https://geobrowser.etahoffmann.net/etahEmbedded [Zugriff: 03.11.2022].
                  Die Migration der Bibliographia Cartographica           109

das Werkzeug OpenRefine. Diese wurden im Anschluss in den Geo-Browser |
DARIAH eingespielt und werden dort angezeigt. Das Ziel war eine Rezeptionsana-
lyse der Werke, die nun anhand von Orten oder Zeiträumen sortiert und angezeigt
werden können. Hier wurde zusätzlich auf die Reconcile-Funktion von OpenRefine
zurückgegriffen, die es ermöglicht, auf Schnittstellen (z. B. WikiData, GND) zuzu-
greifen und die Daten so anzureichern. So konnten die WorldCat-Daten um Koor-
dinaten und Länder erweitert werden.
     Das Projekt BC-Migration hat 62.000 kartographische Titel in den K10plus-
Verbundkatalog überführt und somit auch einem neuen Kreis an Nutzer*innen
zugänglich gemacht. Darüber hinaus werden die in dem Projekt mit viel Neugier
und großer Experimentierfreude erworbenen Kenntnisse und Erfahrungen auch
in anderen Projekten der SBB nachgenutzt und an Kolleg*innen weitergegeben.
     Wenn auch Sie ein Migrationsprojekt planen oder durchführen, würden wir
uns freuen, wenn wir uns vernetzen und austauschen können.

   eitere Informationen
4 W
Klute, Ursula: ETL-Prozesse für Bibliothekarische Metadaten – die Migration lokaler Katalogisate im
     GBV. Wildau 2018, https://opus4.kobv.de/opus4-th-wildau/frontdoor/deliver/index/docId/1227/
     file/Klute_Thesis_ETL-Prozesse_final.pdf [Zugriff: 02.11.2022].
Diedrichs, Reiner: Metas Daten in der VZG – eine Übersicht. 26. Verbundkonferenz des GBV, Halle
     (Saale), 24. September 2022, https://verbundkonferenz.gbv.de/wp-content/uploads/2022/08/
     VK26_2022_FAGEI_Metas_Daten_in_der_VZG.pdf [Zugriff: 02.11.2022].
Seidlmayer, Eva; Müller, Rabea; Förstner, Konrad U.: Data Literacy for Libraries – A Local Perspective
     on Library Carpentry. In: Bibliothek – Forschung und Praxis 44 (2020), S. 485–489, http://dx.doi.
     org/10.18452/22009.
Jevon, Graham: Clean. Migrate. Validate. Enhance. Processing Archival Metadata with Open Refine.
     21.04.2020, https://blogs.bl.uk/digital-scholarship/2020/04/clean-migrate-validate-enhance-
     processing-archival-metadata-with-open-refine.html [Zugriff: 02.11.2022].
Wittwer, Barbara: Von NEBIS bis SLSP – Wie die Datenmigration des größten Schweizer Verbundes
     umgesetzt wurde. In: O-Bib – Das offene Bibliotheksjournal 8.3 (2021), S. 1–15, https://doi.
     org/10.5282/o-bib/5738.
110   Franziska Engelhardt, Nicole Freitag und Miriam Wildermuth

                  Franziska Engelhardt
                  Staatsbibliothek zu Berlin
                  Kartenabteilung
                  Unter den Linden 8
                  10117 Berlin
                  Deutschland
                  E-Mail: franziska.engelhardt@sbb.spk-berlin.de

                  Nicole Freitag
                  Staatsbibliothek zu Berlin
                  Informations- und Datenmanagement
                  Potsdamer Straße 33
                  10785 Berlin
                  Deutschland
                  E-Mail: nicole.freitag@sbb.spk-berlin.de

                  Miriam Wildermuth
                  Staatsbibliothek zu Berlin
                  Kartenabteilung
                  Unter den Linden 8
                  10117 Berlin
                  Deutschland
                  E-Mail: miriam.wildermuth@sbb.spk-berlin.de
Sie können auch lesen