Normdatenbasierte Vernetzung (in) der "Neuen Deutschen Biographie" .hist 2011 Berlin, 14.9.2011

Die Seite wird erstellt Julie Wegner
 
WEITER LESEN
Normdatenbasierte Vernetzung (in) der "Neuen Deutschen Biographie" .hist 2011 Berlin, 14.9.2011
Normdatenbasierte Vernetzung (in) der
   „Neuen Deutschen Biographie“

           .hist 2011 Berlin, 14.9.2011

                Matthias Reinert
            Historische Kommission
                    München
Normdatenbasierte Vernetzung (in) der "Neuen Deutschen Biographie" .hist 2011 Berlin, 14.9.2011
www.deutsche-biographie.de
    in Kooperation mit der BSB München, gefördert durch die
     DFG:
         2001 Register als Datenbank im Internet
         2001 Image-Digitalisate der ADB (55 Bde.)
         2007-9 Retrodigitalisierung der NDB (22 Bde.) und ADB im
          Volltext, PND-Identifizierung mit Neueingabe der Personen im
          Register
         2008 Image-Digitalisate der NDB (22 Bde.)
         2010 Volltextfassung online, kurz darauf auch Bd. 23
         2011 Digitalisierung der Hauptkartei, PND-Abgleich
    seit 2009 Ausbau der XML-Kodierung NDB/ADB
    seit 2010 Ausbau der Vernetzung, sukzessive
     Aufbereitung der Folgebände

Berlin 14.9.2011                                                         2
Normdatenbasierte Vernetzung (in) der "Neuen Deutschen Biographie" .hist 2011 Berlin, 14.9.2011
Berlin 14.9.2011   3
Normdatenbasierte Vernetzung (in) der "Neuen Deutschen Biographie" .hist 2011 Berlin, 14.9.2011
Berlin 14.9.2011   4
Normdatenbasierte Vernetzung (in) der "Neuen Deutschen Biographie" .hist 2011 Berlin, 14.9.2011
Prinzipien der Vernetzung
    Bezug auf „Norm“daten
         für Personen: PND
         für Orte: OpenStreetMap
         für Sachen: Berufsklassifikation
    Unterstützung von Schnittstellen
         PND-Beacon
         OAI
         RDF (Prototyp)
    Voraussetzungen
         Aufbereiten des Textes
         Abgleich von Named Entitites gegen Normdaten

Berlin 14.9.2011                                         5
Normdatenbasierte Vernetzung (in) der "Neuen Deutschen Biographie" .hist 2011 Berlin, 14.9.2011
Prinzipien der Vernetzung
    Bezug auf „Norm“daten
         für Personen: PND
         für Orte: OpenStreetMap
         für Sachen: Berufsklassifikation
    Unterstützung von Schnittstellen
         PND-Beacon
         OAI
         RDF (Prototyp)
    Voraussetzungen
         Aufbereiten des Textes
         Abgleich der NE gegen Normdaten

Berlin 14.9.2011                               6
Normdatenbasierte Vernetzung (in) der "Neuen Deutschen Biographie" .hist 2011 Berlin, 14.9.2011
Aufbereitung des Textes
    typografische Auszeichnung
     Fett, Kursiv und Eintragsanfang bei Fettungen (Unterartikel nicht erfasst)
    Artikelstruktur
     Kopfzeile mit 2 Segmenten (Name / Nichtname), Genealogie,
     Lebensbeschreibung, Werke, Literatur, Autor
    Abkürzungen
     Ersatz des Abkürzungsverzeichnisses, Ausformulierung begonnen
    Abkürzungen von Orten, Lemmata
    Verweise auf Kurztitel
    Corrigenda-Einarbeitung

Berlin 14.9.2011                                                                  7
Normdatenbasierte Vernetzung (in) der "Neuen Deutschen Biographie" .hist 2011 Berlin, 14.9.2011
/   |C

Berlin 14.9.2011            8
Normdatenbasierte Vernetzung (in) der "Neuen Deutschen Biographie" .hist 2011 Berlin, 14.9.2011
Aufbereitung – Ablauf & Mengen

    Einbringen von Metadaten (PND, interne ID)
    Kombination von automatischen Tagging-Routinen und
     manueller Durchsicht und Korrektur
    Kodierung der Angaben in XML, orientiert an TEI
    Merging von Einträgen zu einer PND oder internen ID aus
          NDB-Bänden (21.000 Artikel)
          ADB-Bänden (26.000 Artikel)
          Register (92.000 Einträge, 87.000 mit PND)
          Hauptkartei (153.000 Einträge, 100.000 mit PND)
          Dublettenbearbeitung und -unterdrückung

Berlin 14.9.2011                                             9
Normdatenbasierte Vernetzung (in) der "Neuen Deutschen Biographie" .hist 2011 Berlin, 14.9.2011
Aufbereitung – wie?
   Voraussetzung ist die Identifikation von Strings als „named
    entities“, als Einträge in allgemein genutzter Datenbank mit
    ID („Norm“daten)
   Personen
        Personenkandidaten, für die, die auch im Register stehen:
        Abgleich gegen PND (Tp/Personensätze) als Referenz
   Orte
        Kopfzeile (Geburtsort, Todesort, Begräbnisort)
        Abgleich gegen OpenStreetMap (Nominatim-Webservice)
   PND (Daten der Hauptkartei der NDB-Redaktion)
        automatische Vorabgleich & Vorschlagsermittlung
        manueller Nachabgleich mit PND-Abgleichtool*
Berlin 14.9.2011                                                     10
Vernetzung - Werkzeuge

    mit XSLT 2, Perl 5, sed, gesteuert durch Ant 1.7 und bash
    Beispiele:
         Einsetzen der Abkürzungen und Kurztitel nach Liste (perl)
          und Filtern (xslt)
         Artikeleinträge zu einer Person mit dem zugehörigen
          Registereintrag identifizieren und zuordnen (perl), bei
          Fehlern manuelle Register- und Dublettenkontrolle
         Markieren Namen-artiger Zeichenketten (z.B. Vorname
          Name (Jahr-Jahr), regex) und Filtern der Markierungen
          gegen tatsächliche Einträge im Register (perl)
         Markieren Universitätsnamen-artiger Zeichenketten (regex,
          sed) und Filtern der Beziehungen zum Ort (xslt)

Berlin 14.9.2011                                                      11
Vernetzung – Stufe II
   zu unseren Vorhaben:
         Personenbeziehungen
                       (geplant) Genealogie-Interpretation
                       (geplant) Lehrer-Schüler-Beziehungen
         Ortsbeziehungen
                       (geplant) Orte in historischen Grenzen
                        (Verwaltung, Bistümer)
         Sachbeziehungen
                       (geplant) Bezüge zu „Sachen“
                        und Themen
         Schnittstellen: Mapping auf Erlangen-CRM, Europeana Data
          Model, GraphML, GrampsXML
         Visualisierung / grafische Schnittstellen
Berlin 14.9.2011                                                 12
Motive der Vernetzung
    Sichtbarkeit, Reichweite, Relevanz, Persistenz,
     Angebotsverbesserung
    personenbezogene Vernetzung:
         über Personen sind auch Editionen, Abbildungen,
          Archivalien (weltweit) erschliess- und vernetzbar
    fachbezogene Vernetzung:
         redaktionelle Auswahl der Linkziele
    ortsbezogene Vernetzung:
         gemeinsame Darstellung unterschiedlicher Layer zu
          historischen Projekten (Einträge zu Orten auf einer Karte,
          vgl. http://www.rag-online.org/index.php/de/ragwebgis.html)
    Metadaten in der Linked Open Data Cloud

Berlin 14.9.2011                                                    13
Berlin 14.9.2011   14
Fragen
    Wird sich die PND / GND als Normdaten-Basis festigen?
    Welche Methoden, Hilfsmittel, Erfahrungen für die
     Validierung und Verbesserung der eigenen Daten mit Hilfe
     der Linked Data Cloud gibt es?
    Welche kollaborative Arbeitsumgebungen für Textedition
     und semantische Beziehungen sind erprobt?
    Wie lässt sich der „Workflow“ für den Druck (der NDB-
     Bände) und die Online-Publikation integrieren?

Berlin 14.9.2011                                              15
Links & Dank

     Linked Open Data Interface of the Neue Deutsche Biographie (Prototyp von Martin Brümmer)
      http://data.deutsche-biographie.de
     Agile Knowledge Engineering and Semantic Web (AKSW, http://aksw.org)
     PND, Personennamendatei, Teil der GND, http://www.d-
      nb.de/standardisierung/normdateien/pnd.htm
     PND-Beacon, http://de.wikipedia.org/wiki/Wikipedia:PND/BEACON
     GND, Gemeinsame Normdatei, http://www.d-nb.de/standardisierung/normdateien/gnd.htm
     Linked Data Service der DNB, Dokumentation, http://files.d-nb.de/pdf/linked_data.pdf, sowie
      AgRelOn, Ontologiemodell für Agentenbeziehungen, http://www.contentus-
      projekt.de/agrelon.html
     OpenStreetMap: Nominatim, http://wiki.openstreetmap.org/wiki/Nominatim
     RAG, Repertorium Academicum Germanicum - Die graduierten Gelehrten des Alten Reiches
      zwischen 1250 und 1550, http://www.rag-online.org
     VIAF, Virtual International Authority File, http://viaf.org

     Bei der manuellen Durchsicht der XML-Kodierung wirkten mit: Florian Förstl, Regina Göhlert,
     Rupert Palmberger, Matthias Prechtl, Heidrun Siller, sowie Johannes C. Kunz, Anne Munding,
     Tobias Schröter, Lena Straßer und Tobias Tenhaef.
  Dank an Tobias Steiner (RAG Bern) für die GIS-Anregung, Christian Thiele und R. Stein für die
     Weitergabe des PND-Abgleichtools, den Kolleg_innen der BSB für die PND-Bearbeitung
     sowie die Unterstützung bei der Website.

Berlin 14.9.2011                                                                                16
Sie können auch lesen