Ontologien zur Nutzbarmachung - psychologischer Forschungsobjekte als Linked-Open-Data-Knowledge-Graphen (Wissensgraphen)

Die Seite wird erstellt Malte Haag
 
WEITER LESEN
Ontologien zur Nutzbarmachung - psychologischer Forschungsobjekte als Linked-Open-Data-Knowledge-Graphen (Wissensgraphen)
Ontologien zur Nutzbarmachung
psychologischer Forschungsobjekte als
Linked-Open-Data-Knowledge-Graphen
          (Wissensgraphen)

     Tina Trillitzsch, Leibniz-Institut für Psychologie (ZPID)
                      ttr@leibniz-psychology.org

  VDB-Fortbildung Fachreferate Psychologie/Pädagogik, 25. Juni 2021
Ontologien zur Nutzbarmachung - psychologischer Forschungsobjekte als Linked-Open-Data-Knowledge-Graphen (Wissensgraphen)
Ontologie der Psychologie am ZPID
 ● Ontologie = Bauplan für einen "Knowledge Graph" der Psychologie:
   Netz semantisch verknüpfter Informationen, Zusammenführung unsere
   ZPID-eigenen separaten Datenbestände (Forschungsobjekte wie
   Publikationen aus PSYNDEX, Forschungsdaten sowie der daran
   beteiligte Personen & Organisationen etc.)
 ● Unser ZPID-Knowledge-Graph soll:
    ○ Basis für semantische Suche mit neuer Suchmaschine PsychPorta
      werden
    ○ als "Linked Open Data" (LOD) mit anderen solchen Graphen
      verknüpft werden = Teil der LOD Cloud werden (riesiges, globales
      offenes Wissensnetz)

            VDB-Fortbildung Fachreferate Psychologie/Pädagogik, 25. Juni 2021
Ontologien zur Nutzbarmachung - psychologischer Forschungsobjekte als Linked-Open-Data-Knowledge-Graphen (Wissensgraphen)
Was ist ein Knowledge Graph?
● Methode, um Daten eines Wissensgebiets strukturiert zu speichern und
  zugänglich zu machen.
● Zeichnet die Bedeutung (Semantik) der Inhalte explizit mit aus.
● Denn: Computer können Bedeutung nicht aus dem Kontext verstehen
  wie Menschen - man muss sie ihnen ausdrücklich sagen.
● Text ohne explizite semantische Information: "[...] übernahm Michael
  Bosnjak [...] die Leitung des ZPID." (Ausschnitt aus Wikipedia-Artikel zum ZPID)
● Computer verstehen nicht: Was ist ein "ZPID"? Was ein "Michael", eine
  “Leitung”? Wie hängen diese Dinge zusammen?

              VDB-Fortbildung Fachreferate Psychologie/Pädagogik, 25. Juni 2021      3
Ontologien zur Nutzbarmachung - psychologischer Forschungsobjekte als Linked-Open-Data-Knowledge-Graphen (Wissensgraphen)
Semantik in Knowledge Graphs
                                                                                      Entität der Klasse
                                                                                        Organisation
In Knowledge Graphs wird die Bedeutung deswegen
eindeutig miterfasst. Semantische Darstellung von ...                                         ZPID
"[...] übernahm Michael Bosnjak [...] die Leitung des ZPID":

                                                                                                           hat
                                                                                                               Di
                                                                                          r
                                                                                      sjah

                                                                                                             rek
● "Dinge" werden Individuen bestimmter Klasse

                                                                                   ung

                                                                                                                rto
  ("Entitäten")

                                                                                   d
                                                                              Grün
                                                                              hat
● Entitäten werden durch benannte Beziehungen                                                           M.
  verknüpft (“hat Direktor”)                                                                          Bosnjak
                                                                                                     Entität der Klasse
● Attribute der Dinge (Text-Werte wie Gründungsdatum)                                                     Person
  werden mit semantischen Beziehungen mit ihren
                                                                              “1972”
  Entitäten verknüpft: “hat Gründungsjahr” "1972"

               VDB-Fortbildung Fachreferate Psychologie/Pädagogik, 25. Juni 2021                                      4
Ontologien zur Nutzbarmachung - psychologischer Forschungsobjekte als Linked-Open-Data-Knowledge-Graphen (Wissensgraphen)
hat
             Stadt:
            Trier
                                 Ersche
                                        in   ungso
                                                      rt                          Publikation:                                         Semantische Suche
                                                                       Testverzeichnis
                                  ha
                                    tS
                                       itz
                                                                            2021                                                       über den ZPID-KG
  “ZPID”                                                   h e raus
                                                      gibt                                Publikation:                                 Mögliche Fragen an eine Semantische
                hat
               Abk                                                                 Jahresbericht                                       Suchmaschine, die unsere
                   ü  rzun
                             g
                                             Org:
                                                                                                                                       ZPID-Normdaten als Knowledge Graph
                                                                                       2020                                            abfragt:
                             en            ZPID
             t          am                                   hat Thema
           ha up      tn                                                                                                                ●   (Was ist das) Gründungsjahr (des)
            Ha

                                                                               n
                                                           hat
                                                                                                                                            ZPID?

                                                                           r vo
                                             Gründ                                                   Schlagwort:
                                             hat                                                                                        ●   (Wer ist) Direktor (des)

                                                                              o
                                                               D
                                                                                                     Umfragen            hat engl.

                                                                           Aut
                                                             irek
                                                                                                                         Übersetzung        Leibniz-Institut für Psychologie?
 “Leibniz-Institut                                                                                                                          (Wo ist der) Sitz des

                                                                       ist
                                                   un

                                                                                                                                        ●

                                                                                         hat Thema
für Psychologie”                                               tor                                                           ys”            Leibniz-Zentrum für
                                          gsjah

                                                                                                                       rve
                                                           Person:
                                                                        ist                                        “Su                      Psychologische Information und
                                                                              Au
                                                                                                                                            Dokumentation?
                   en

                                                                                 to
                                                        M.
                                                r

                                                                                    r                          hat Synonym
                  m

                                                                                        vo                                              ●   Worüber schreibt M. Bosnjak?
                                                                                           n
               na

                                                      Bosnjak                                                                           ●   Personen am ZPID?
             tiv

                                                                                                      “Befra
                                                                                                                                            Mit wem schreibt M. Bosnjak häufig
               a

                                  “1972”                                                                    gung                        ●
            rn

                                                                                                                en”
       Al t

                                                                       Publikation                                                          als Ko-Autor zusammen?
        ha
         te

                                                                            X                                                           ●   Was ist das ZPID?
  “Leibniz-Zentrum                                  Person Y                tor
                                                                     ist Au
       für ...”                                                       von

                                         VDB-Fortbildung Fachreferate Psychologie/Pädagogik, 25. Juni 2021                                                           5
Ontologien zur Nutzbarmachung - psychologischer Forschungsobjekte als Linked-Open-Data-Knowledge-Graphen (Wissensgraphen)
Knowledge Graphen in “freier Wildbahn”
● Knowledge-Graphen sind heute schon überall “unter der Haube” in
  Verwendung, ohne dass man es unbedingt mitbekommt!
● Prominentes Beispiel: Google
● auch Amazons Alexa in den Echo-Sprachassistenten nutzt semantische
  Informationen aus einen Knowledge-Graphen, in Kombination mit
  Verarbeitung natürlicher Sprache (NLP, Natural Language Processing)
● Es folgen ein paar illustrierte Beispiele, welche Anfragen Google mit
  semantischen Daten aus seinem Knowledge-Graphen beantworten kann
  (weil darin vorhanden), welche nicht, was dann passiert und woran man den
  Unterschied erkennt.

             VDB-Fortbildung Fachreferate Psychologie/Pädagogik, 25. Juni 2021   6
Exkurs: Semantische Daten im Google-KG

      VDB-Fortbildung Fachreferate Psychologie/Pädagogik, 25. Juni 2021   7
Exkurs Google: Keine semantischen Daten gefunden, aber Frage “verstanden”
und “übersetzt” in sinnvolle Wörter, die im Volltext gesucht werden. Ergebnis:
Auswahl und Anzeige eines extrahierten Textschnippsels im Seitenkontext.

                VDB-Fortbildung Fachreferate Psychologie/Pädagogik, 25. Juni 2021   8
Exkurs Google:
Keine
semantischen
Daten vorhanden
und Frage nicht
“verstanden” – >
direkte
Volltextsuche der
eingegeben
Suchwörter (“leitet”
und “ZPID”):

                 VDB-Fortbildung Fachreferate Psychologie/Pädagogik, 25. Juni 2021   9
Linked Open Data & LOD Cloud
● Von Linked Open Data (LOD) spricht man, wenn: Knowledge Graphs frei
  im Internet zugänglich sind, offene Datenformate & Standards (RDFS,
  OWL, SKOS, SPARQL) nutzen & mit anderen, verwandten Knowledge
  Graphs verknüpft sind.
● Alle verknüpften Linked-Open-Data-Knowledge-Graphs bilden ein
  riesiges, globales Wissensnetz, die Linked Open Data Cloud – u. a. GND
  (gem. Normdatei der DNB), Wikidata (größter Knowledge Graph, semantischen
  Informationen/Verknüpfungen zu jedem "Ding" mit Wikipedia-Eintrag; ZPID als Entität bei
  Wikidata)

● Der ZPID-Knowledge-Graph soll Teil der LOD Cloud werden!

                VDB-Fortbildung Fachreferate Psychologie/Pädagogik, 25. Juni 2021
Der ZPID-Knowledge-Graph (rechts)
                                                                              soll Teil der globalen
                                                                              Linked-Open-Data-Cloud (links)
                                                                              werden!

Linked-Open-Data-Cloud:
weltweites Netz aus anderen offenen Knowledge-Graphs, miteinander verknüpft,
aus allgemeinem Bereich (Wikidata, GND, ) und spezifischen Wissensgebieten (Wirtschaft, Geografie, Biologie...)

                          VDB-Fortbildung Fachreferate Psychologie/Pädagogik, 25. Juni 2021
Was ist eine Ontologie?
● formales Modell, Bauplan für einen Knowledge Graph eines Wissensgebiets
● legt fest:
   ○ Welche Klassen & Unterklassen von “Dingen” soll es geben können?
   ○ mögliche/notwendige Beziehungen zwischen Entitäten bestimmter
     Klassen (z.B.: Publikations-Entitäten brauchen Beziehung “hat Autor” zu
     einer Entität Person) & zu Attributen (z.B.: Publikations-Entitäten
     brauchen: Publikationsdatum, Publikationstitel)
   ○ Logik-Regeln, mit denen Computer neues Wissen schlussfolgern
     können, das nicht ausdrücklich eingegeben wurde (z. B. Person A ist
     Kollegin von Person B, da sie beide eine Beziehung mit derselben Firma
     haben (vom Typ "hat Mitarbeiter*in")

               VDB-Fortbildung Fachreferate Psychologie/Pädagogik, 25. Juni 2021   12
Was modelliert unsere Ontologie genau?
● Wissensgebiet Psychologie (besonders Publikationen & dazugehörige Akteure)
● Alle Inhalte des neuen PSYNDEX2 als Entitäten, ihre Attribute (Namen etc.) und
  Beziehungen untereinander, nach dem RDA*-Regelwerk zur bibliothekarischen
  Katalogisierung von Publikationen:
    ○ Publikationen (Unterscheidung Werk, Expression, Manifestation), Personen,
      Körperschaften, Schlagwörter/Klassifikationen
    ○ beteiligte Personen (Autor*innen, Herausgeber*innen etc.) &
      Körperschaften (z.B. Affiliations-Institutionen, Verlage) sind eindeutige
      Entitäten -> 2 Publikationen nennen dieselbe Person unter verschiedenen
      Namen als Autor – > beide mit derselben Personen-Entität verknüpfen
      (welche alle bekannten Namensvarianten als Namens-Attribut hat)
* Resource Description and Access

               VDB-Fortbildung Fachreferate Psychologie/Pädagogik, 25. Juni 2021   13
Status Quo
Stand: im Aufbau; enge Koordination mit Entwicklung des neuen Erfassungswerkzeugs
PSYNDEX2
Arbeitsschritte bei der Entwicklung:
 • 1. Nötige Entitätstypen bestimmen (z. B. Körperschaftstypen), Beziehungen ("hat
   Autor" -> Person), Attribute (Hauptname, Abkürzung, Startdatum...)
 • 2. Semantisches Modellieren/”Übersetzen” der Entitäten, Beziehungen, Attribute &
   logischer Regeln in RDF-Format als Ontologie; sinnvolle Hierarchien & systemat.
   Benennungen – nah an RDA & anderen Ontologien (z. B. GND, Wikidata...)
 • 3. Abbilden auf Klassen & Beziehungen in Fremd-Ontologien ("Mapping") zur Abfrage
   des Datenbestands von Außen mit Fremd-Vokabularen (RDA, GND, ...).
 • 4. Übertragung der Entitätstypen, Beziehungen & ihrer Benennungen in analoge
   Datenstrukturen in PSYNDEX2 (einfachere Konvertierung)
Tools: Google Sheets-Tabellen für Koordination des Datenschemas mit PSYNDEX2,
Modellierung: Visual Studio Code, Protégé, Sprachen und -vokabulare: RDF(S), OWL, SKOS

                VDB-Fortbildung Fachreferate Psychologie/Pädagogik, 25. Juni 2021        14
Kleiner Ausschnitt aus der
visualisierten Ontologie
Fokus auf bisher fertiggestellten
Teil:

 ●   Körperschaftsklassen
     (Verlage, Universitäten,
     Förderorganisationen,
     Fachgesellschaften,
     Konferenzen, etc)
 ●   Beziehungen zu anderen
     Entitäten (Personen,
     Werke, Orte, ...),
 ●   Attributen (Namen,
     Abkürzungen, GRID-ID,
     etc.)

Zahlen:
 ● über 37 modellierte
    Klassen
    (Körperschaftstypen,
    Publikationstypen,
    Personen, ...)
 ● 116 Beziehungen zu
    anderen Klassen/Entitäten
 ● 45 Attribute

                             VDB-Fortbildung Fachreferate Psychologie/Pädagogik, 25. Juni 2021   15
Weitere Ziele nach Fertigstellung der Modellierung
  ● Befüllen des ontologie-basierten Knowledge Graphs mit
    Datenbankinhalten von PSYNDEX2 – regelmäßige Konvertierung
    zwischen den beiden
  ● Neben PSYNDEX-Inhalten: Modellieren und Integrieren weiterer
    Datenbestände des ZPID (z. B. Folien, Videos, Dokumente &
    Forschungsdaten im Repositorium PsychArchives)
  ● Integration der Ontologie bzw. des darauf basierenden
    LOD-Datenbestandes in die globale LOD-Cloud zum freien Zugriff
    (Mapping auf externe Entitäten und Beziehungen) & in PsychPorta zur
    semantischen Durchsuchbarkeit
  ● Neuentwicklung des PsychAuthors-Verzeichnisses auf Basis der
    Personen-Normdaten-Einträge in unserem Knowledge Graph

            VDB-Fortbildung Fachreferate Psychologie/Pädagogik, 25. Juni 2021   16
Sie können auch lesen