Ontologien zur Nutzbarmachung - psychologischer Forschungsobjekte als Linked-Open-Data-Knowledge-Graphen (Wissensgraphen)
←
→
Transkription von Seiteninhalten
Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten
Ontologien zur Nutzbarmachung psychologischer Forschungsobjekte als Linked-Open-Data-Knowledge-Graphen (Wissensgraphen) Tina Trillitzsch, Leibniz-Institut für Psychologie (ZPID) ttr@leibniz-psychology.org VDB-Fortbildung Fachreferate Psychologie/Pädagogik, 25. Juni 2021
Ontologie der Psychologie am ZPID ● Ontologie = Bauplan für einen "Knowledge Graph" der Psychologie: Netz semantisch verknüpfter Informationen, Zusammenführung unsere ZPID-eigenen separaten Datenbestände (Forschungsobjekte wie Publikationen aus PSYNDEX, Forschungsdaten sowie der daran beteiligte Personen & Organisationen etc.) ● Unser ZPID-Knowledge-Graph soll: ○ Basis für semantische Suche mit neuer Suchmaschine PsychPorta werden ○ als "Linked Open Data" (LOD) mit anderen solchen Graphen verknüpft werden = Teil der LOD Cloud werden (riesiges, globales offenes Wissensnetz) VDB-Fortbildung Fachreferate Psychologie/Pädagogik, 25. Juni 2021
Was ist ein Knowledge Graph? ● Methode, um Daten eines Wissensgebiets strukturiert zu speichern und zugänglich zu machen. ● Zeichnet die Bedeutung (Semantik) der Inhalte explizit mit aus. ● Denn: Computer können Bedeutung nicht aus dem Kontext verstehen wie Menschen - man muss sie ihnen ausdrücklich sagen. ● Text ohne explizite semantische Information: "[...] übernahm Michael Bosnjak [...] die Leitung des ZPID." (Ausschnitt aus Wikipedia-Artikel zum ZPID) ● Computer verstehen nicht: Was ist ein "ZPID"? Was ein "Michael", eine “Leitung”? Wie hängen diese Dinge zusammen? VDB-Fortbildung Fachreferate Psychologie/Pädagogik, 25. Juni 2021 3
Semantik in Knowledge Graphs Entität der Klasse Organisation In Knowledge Graphs wird die Bedeutung deswegen eindeutig miterfasst. Semantische Darstellung von ... ZPID "[...] übernahm Michael Bosnjak [...] die Leitung des ZPID": hat Di r sjah rek ● "Dinge" werden Individuen bestimmter Klasse ung rto ("Entitäten") d Grün hat ● Entitäten werden durch benannte Beziehungen M. verknüpft (“hat Direktor”) Bosnjak Entität der Klasse ● Attribute der Dinge (Text-Werte wie Gründungsdatum) Person werden mit semantischen Beziehungen mit ihren “1972” Entitäten verknüpft: “hat Gründungsjahr” "1972" VDB-Fortbildung Fachreferate Psychologie/Pädagogik, 25. Juni 2021 4
hat Stadt: Trier Ersche in ungso rt Publikation: Semantische Suche Testverzeichnis ha tS itz 2021 über den ZPID-KG “ZPID” h e raus gibt Publikation: Mögliche Fragen an eine Semantische hat Abk Jahresbericht Suchmaschine, die unsere ü rzun g Org: ZPID-Normdaten als Knowledge Graph 2020 abfragt: en ZPID t am hat Thema ha up tn ● (Was ist das) Gründungsjahr (des) Ha n hat ZPID? r vo Gründ Schlagwort: hat ● (Wer ist) Direktor (des) o D Umfragen hat engl. Aut irek Übersetzung Leibniz-Institut für Psychologie? “Leibniz-Institut (Wo ist der) Sitz des ist un ● hat Thema für Psychologie” tor ys” Leibniz-Zentrum für gsjah rve Person: ist “Su Psychologische Information und Au Dokumentation? en to M. r r hat Synonym m vo ● Worüber schreibt M. Bosnjak? n na Bosnjak ● Personen am ZPID? tiv “Befra Mit wem schreibt M. Bosnjak häufig a “1972” gung ● rn en” Al t Publikation als Ko-Autor zusammen? ha te X ● Was ist das ZPID? “Leibniz-Zentrum Person Y tor ist Au für ...” von VDB-Fortbildung Fachreferate Psychologie/Pädagogik, 25. Juni 2021 5
Knowledge Graphen in “freier Wildbahn” ● Knowledge-Graphen sind heute schon überall “unter der Haube” in Verwendung, ohne dass man es unbedingt mitbekommt! ● Prominentes Beispiel: Google ● auch Amazons Alexa in den Echo-Sprachassistenten nutzt semantische Informationen aus einen Knowledge-Graphen, in Kombination mit Verarbeitung natürlicher Sprache (NLP, Natural Language Processing) ● Es folgen ein paar illustrierte Beispiele, welche Anfragen Google mit semantischen Daten aus seinem Knowledge-Graphen beantworten kann (weil darin vorhanden), welche nicht, was dann passiert und woran man den Unterschied erkennt. VDB-Fortbildung Fachreferate Psychologie/Pädagogik, 25. Juni 2021 6
Exkurs: Semantische Daten im Google-KG VDB-Fortbildung Fachreferate Psychologie/Pädagogik, 25. Juni 2021 7
Exkurs Google: Keine semantischen Daten gefunden, aber Frage “verstanden” und “übersetzt” in sinnvolle Wörter, die im Volltext gesucht werden. Ergebnis: Auswahl und Anzeige eines extrahierten Textschnippsels im Seitenkontext. VDB-Fortbildung Fachreferate Psychologie/Pädagogik, 25. Juni 2021 8
Exkurs Google: Keine semantischen Daten vorhanden und Frage nicht “verstanden” – > direkte Volltextsuche der eingegeben Suchwörter (“leitet” und “ZPID”): VDB-Fortbildung Fachreferate Psychologie/Pädagogik, 25. Juni 2021 9
Linked Open Data & LOD Cloud ● Von Linked Open Data (LOD) spricht man, wenn: Knowledge Graphs frei im Internet zugänglich sind, offene Datenformate & Standards (RDFS, OWL, SKOS, SPARQL) nutzen & mit anderen, verwandten Knowledge Graphs verknüpft sind. ● Alle verknüpften Linked-Open-Data-Knowledge-Graphs bilden ein riesiges, globales Wissensnetz, die Linked Open Data Cloud – u. a. GND (gem. Normdatei der DNB), Wikidata (größter Knowledge Graph, semantischen Informationen/Verknüpfungen zu jedem "Ding" mit Wikipedia-Eintrag; ZPID als Entität bei Wikidata) ● Der ZPID-Knowledge-Graph soll Teil der LOD Cloud werden! VDB-Fortbildung Fachreferate Psychologie/Pädagogik, 25. Juni 2021
Der ZPID-Knowledge-Graph (rechts) soll Teil der globalen Linked-Open-Data-Cloud (links) werden! Linked-Open-Data-Cloud: weltweites Netz aus anderen offenen Knowledge-Graphs, miteinander verknüpft, aus allgemeinem Bereich (Wikidata, GND, ) und spezifischen Wissensgebieten (Wirtschaft, Geografie, Biologie...) VDB-Fortbildung Fachreferate Psychologie/Pädagogik, 25. Juni 2021
Was ist eine Ontologie? ● formales Modell, Bauplan für einen Knowledge Graph eines Wissensgebiets ● legt fest: ○ Welche Klassen & Unterklassen von “Dingen” soll es geben können? ○ mögliche/notwendige Beziehungen zwischen Entitäten bestimmter Klassen (z.B.: Publikations-Entitäten brauchen Beziehung “hat Autor” zu einer Entität Person) & zu Attributen (z.B.: Publikations-Entitäten brauchen: Publikationsdatum, Publikationstitel) ○ Logik-Regeln, mit denen Computer neues Wissen schlussfolgern können, das nicht ausdrücklich eingegeben wurde (z. B. Person A ist Kollegin von Person B, da sie beide eine Beziehung mit derselben Firma haben (vom Typ "hat Mitarbeiter*in") VDB-Fortbildung Fachreferate Psychologie/Pädagogik, 25. Juni 2021 12
Was modelliert unsere Ontologie genau? ● Wissensgebiet Psychologie (besonders Publikationen & dazugehörige Akteure) ● Alle Inhalte des neuen PSYNDEX2 als Entitäten, ihre Attribute (Namen etc.) und Beziehungen untereinander, nach dem RDA*-Regelwerk zur bibliothekarischen Katalogisierung von Publikationen: ○ Publikationen (Unterscheidung Werk, Expression, Manifestation), Personen, Körperschaften, Schlagwörter/Klassifikationen ○ beteiligte Personen (Autor*innen, Herausgeber*innen etc.) & Körperschaften (z.B. Affiliations-Institutionen, Verlage) sind eindeutige Entitäten -> 2 Publikationen nennen dieselbe Person unter verschiedenen Namen als Autor – > beide mit derselben Personen-Entität verknüpfen (welche alle bekannten Namensvarianten als Namens-Attribut hat) * Resource Description and Access VDB-Fortbildung Fachreferate Psychologie/Pädagogik, 25. Juni 2021 13
Status Quo Stand: im Aufbau; enge Koordination mit Entwicklung des neuen Erfassungswerkzeugs PSYNDEX2 Arbeitsschritte bei der Entwicklung: • 1. Nötige Entitätstypen bestimmen (z. B. Körperschaftstypen), Beziehungen ("hat Autor" -> Person), Attribute (Hauptname, Abkürzung, Startdatum...) • 2. Semantisches Modellieren/”Übersetzen” der Entitäten, Beziehungen, Attribute & logischer Regeln in RDF-Format als Ontologie; sinnvolle Hierarchien & systemat. Benennungen – nah an RDA & anderen Ontologien (z. B. GND, Wikidata...) • 3. Abbilden auf Klassen & Beziehungen in Fremd-Ontologien ("Mapping") zur Abfrage des Datenbestands von Außen mit Fremd-Vokabularen (RDA, GND, ...). • 4. Übertragung der Entitätstypen, Beziehungen & ihrer Benennungen in analoge Datenstrukturen in PSYNDEX2 (einfachere Konvertierung) Tools: Google Sheets-Tabellen für Koordination des Datenschemas mit PSYNDEX2, Modellierung: Visual Studio Code, Protégé, Sprachen und -vokabulare: RDF(S), OWL, SKOS VDB-Fortbildung Fachreferate Psychologie/Pädagogik, 25. Juni 2021 14
Kleiner Ausschnitt aus der visualisierten Ontologie Fokus auf bisher fertiggestellten Teil: ● Körperschaftsklassen (Verlage, Universitäten, Förderorganisationen, Fachgesellschaften, Konferenzen, etc) ● Beziehungen zu anderen Entitäten (Personen, Werke, Orte, ...), ● Attributen (Namen, Abkürzungen, GRID-ID, etc.) Zahlen: ● über 37 modellierte Klassen (Körperschaftstypen, Publikationstypen, Personen, ...) ● 116 Beziehungen zu anderen Klassen/Entitäten ● 45 Attribute VDB-Fortbildung Fachreferate Psychologie/Pädagogik, 25. Juni 2021 15
Weitere Ziele nach Fertigstellung der Modellierung ● Befüllen des ontologie-basierten Knowledge Graphs mit Datenbankinhalten von PSYNDEX2 – regelmäßige Konvertierung zwischen den beiden ● Neben PSYNDEX-Inhalten: Modellieren und Integrieren weiterer Datenbestände des ZPID (z. B. Folien, Videos, Dokumente & Forschungsdaten im Repositorium PsychArchives) ● Integration der Ontologie bzw. des darauf basierenden LOD-Datenbestandes in die globale LOD-Cloud zum freien Zugriff (Mapping auf externe Entitäten und Beziehungen) & in PsychPorta zur semantischen Durchsuchbarkeit ● Neuentwicklung des PsychAuthors-Verzeichnisses auf Basis der Personen-Normdaten-Einträge in unserem Knowledge Graph VDB-Fortbildung Fachreferate Psychologie/Pädagogik, 25. Juni 2021 16
Sie können auch lesen