Normdatenbasierte Vernetzung (in) der "Neuen Deutschen Biographie" .hist 2011 Berlin, 14.9.2011
←
→
Transkription von Seiteninhalten
Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten
Normdatenbasierte Vernetzung (in) der „Neuen Deutschen Biographie“ .hist 2011 Berlin, 14.9.2011 Matthias Reinert Historische Kommission München
www.deutsche-biographie.de in Kooperation mit der BSB München, gefördert durch die DFG: 2001 Register als Datenbank im Internet 2001 Image-Digitalisate der ADB (55 Bde.) 2007-9 Retrodigitalisierung der NDB (22 Bde.) und ADB im Volltext, PND-Identifizierung mit Neueingabe der Personen im Register 2008 Image-Digitalisate der NDB (22 Bde.) 2010 Volltextfassung online, kurz darauf auch Bd. 23 2011 Digitalisierung der Hauptkartei, PND-Abgleich seit 2009 Ausbau der XML-Kodierung NDB/ADB seit 2010 Ausbau der Vernetzung, sukzessive Aufbereitung der Folgebände Berlin 14.9.2011 2
Prinzipien der Vernetzung Bezug auf „Norm“daten für Personen: PND für Orte: OpenStreetMap für Sachen: Berufsklassifikation Unterstützung von Schnittstellen PND-Beacon OAI RDF (Prototyp) Voraussetzungen Aufbereiten des Textes Abgleich von Named Entitites gegen Normdaten Berlin 14.9.2011 5
Prinzipien der Vernetzung Bezug auf „Norm“daten für Personen: PND für Orte: OpenStreetMap für Sachen: Berufsklassifikation Unterstützung von Schnittstellen PND-Beacon OAI RDF (Prototyp) Voraussetzungen Aufbereiten des Textes Abgleich der NE gegen Normdaten Berlin 14.9.2011 6
Aufbereitung des Textes typografische Auszeichnung Fett, Kursiv und Eintragsanfang bei Fettungen (Unterartikel nicht erfasst) Artikelstruktur Kopfzeile mit 2 Segmenten (Name / Nichtname), Genealogie, Lebensbeschreibung, Werke, Literatur, Autor Abkürzungen Ersatz des Abkürzungsverzeichnisses, Ausformulierung begonnen Abkürzungen von Orten, Lemmata Verweise auf Kurztitel Corrigenda-Einarbeitung Berlin 14.9.2011 7
Aufbereitung – Ablauf & Mengen Einbringen von Metadaten (PND, interne ID) Kombination von automatischen Tagging-Routinen und manueller Durchsicht und Korrektur Kodierung der Angaben in XML, orientiert an TEI Merging von Einträgen zu einer PND oder internen ID aus NDB-Bänden (21.000 Artikel) ADB-Bänden (26.000 Artikel) Register (92.000 Einträge, 87.000 mit PND) Hauptkartei (153.000 Einträge, 100.000 mit PND) Dublettenbearbeitung und -unterdrückung Berlin 14.9.2011 9
Aufbereitung – wie? Voraussetzung ist die Identifikation von Strings als „named entities“, als Einträge in allgemein genutzter Datenbank mit ID („Norm“daten) Personen Personenkandidaten, für die, die auch im Register stehen: Abgleich gegen PND (Tp/Personensätze) als Referenz Orte Kopfzeile (Geburtsort, Todesort, Begräbnisort) Abgleich gegen OpenStreetMap (Nominatim-Webservice) PND (Daten der Hauptkartei der NDB-Redaktion) automatische Vorabgleich & Vorschlagsermittlung manueller Nachabgleich mit PND-Abgleichtool* Berlin 14.9.2011 10
Vernetzung - Werkzeuge mit XSLT 2, Perl 5, sed, gesteuert durch Ant 1.7 und bash Beispiele: Einsetzen der Abkürzungen und Kurztitel nach Liste (perl) und Filtern (xslt) Artikeleinträge zu einer Person mit dem zugehörigen Registereintrag identifizieren und zuordnen (perl), bei Fehlern manuelle Register- und Dublettenkontrolle Markieren Namen-artiger Zeichenketten (z.B. Vorname Name (Jahr-Jahr), regex) und Filtern der Markierungen gegen tatsächliche Einträge im Register (perl) Markieren Universitätsnamen-artiger Zeichenketten (regex, sed) und Filtern der Beziehungen zum Ort (xslt) Berlin 14.9.2011 11
Vernetzung – Stufe II zu unseren Vorhaben: Personenbeziehungen (geplant) Genealogie-Interpretation (geplant) Lehrer-Schüler-Beziehungen Ortsbeziehungen (geplant) Orte in historischen Grenzen (Verwaltung, Bistümer) Sachbeziehungen (geplant) Bezüge zu „Sachen“ und Themen Schnittstellen: Mapping auf Erlangen-CRM, Europeana Data Model, GraphML, GrampsXML Visualisierung / grafische Schnittstellen Berlin 14.9.2011 12
Motive der Vernetzung Sichtbarkeit, Reichweite, Relevanz, Persistenz, Angebotsverbesserung personenbezogene Vernetzung: über Personen sind auch Editionen, Abbildungen, Archivalien (weltweit) erschliess- und vernetzbar fachbezogene Vernetzung: redaktionelle Auswahl der Linkziele ortsbezogene Vernetzung: gemeinsame Darstellung unterschiedlicher Layer zu historischen Projekten (Einträge zu Orten auf einer Karte, vgl. http://www.rag-online.org/index.php/de/ragwebgis.html) Metadaten in der Linked Open Data Cloud Berlin 14.9.2011 13
Berlin 14.9.2011 14
Fragen Wird sich die PND / GND als Normdaten-Basis festigen? Welche Methoden, Hilfsmittel, Erfahrungen für die Validierung und Verbesserung der eigenen Daten mit Hilfe der Linked Data Cloud gibt es? Welche kollaborative Arbeitsumgebungen für Textedition und semantische Beziehungen sind erprobt? Wie lässt sich der „Workflow“ für den Druck (der NDB- Bände) und die Online-Publikation integrieren? Berlin 14.9.2011 15
Links & Dank Linked Open Data Interface of the Neue Deutsche Biographie (Prototyp von Martin Brümmer) http://data.deutsche-biographie.de Agile Knowledge Engineering and Semantic Web (AKSW, http://aksw.org) PND, Personennamendatei, Teil der GND, http://www.d- nb.de/standardisierung/normdateien/pnd.htm PND-Beacon, http://de.wikipedia.org/wiki/Wikipedia:PND/BEACON GND, Gemeinsame Normdatei, http://www.d-nb.de/standardisierung/normdateien/gnd.htm Linked Data Service der DNB, Dokumentation, http://files.d-nb.de/pdf/linked_data.pdf, sowie AgRelOn, Ontologiemodell für Agentenbeziehungen, http://www.contentus- projekt.de/agrelon.html OpenStreetMap: Nominatim, http://wiki.openstreetmap.org/wiki/Nominatim RAG, Repertorium Academicum Germanicum - Die graduierten Gelehrten des Alten Reiches zwischen 1250 und 1550, http://www.rag-online.org VIAF, Virtual International Authority File, http://viaf.org Bei der manuellen Durchsicht der XML-Kodierung wirkten mit: Florian Förstl, Regina Göhlert, Rupert Palmberger, Matthias Prechtl, Heidrun Siller, sowie Johannes C. Kunz, Anne Munding, Tobias Schröter, Lena Straßer und Tobias Tenhaef. Dank an Tobias Steiner (RAG Bern) für die GIS-Anregung, Christian Thiele und R. Stein für die Weitergabe des PND-Abgleichtools, den Kolleg_innen der BSB für die PND-Bearbeitung sowie die Unterstützung bei der Website. Berlin 14.9.2011 16
Sie können auch lesen