Linked Open Data eröffnet neue Wege in der Forschung und Lehre an Universitäten

Die Seite wird erstellt Paul-Egon Kunze
 
WEITER LESEN
Linked Open Data eröffnet neue Wege in der Forschung und Lehre an Universitäten
Linked Open Data eröffnet neue Wege
in der Forschung und Lehre an Universitäten

           Ausarbeitung zur Seminarreihe
            „Semantische Technologien“

                 Julia Retzlaff, B. Sc.

                   Betreut durch:
           Prof. Dr. Norbert Luttenberger
      Arbeitsgruppe Kommunikationssysteme,
               Institut für Informatik

                   September 2013
        Christian- Albrechts- Universität, Kiel
Linked Open Data eröffnet neue Wege in der Forschung und Lehre an Universitäten
1       Einleitung

Daten bilden die Grundlage der Wissenschaft. Sie sind das Ergebnis von
wissenschaftlichen Experimenten. Sie dienen als Beleg für Annahmen. Der Begriff Daten
ist in diesem Fall sehr umfassend zu verstehen, so zählen auch wissenschaftliche
Ausarbeitungen, und nicht zuletzt die Informationen über die Forscher selbst zu den
Daten, die von den Universitäten erhoben und verwaltet werden.
          Der Zugriff auf diese Daten, sowie die Speicherung dieser stellt eine große Hürde
für die Wissenschaft dar. Oft existieren innerhalb einer Fakultät Absprachen über die
Speicherung der Daten, jedoch nicht über diesen Rahmen hinaus. So ist es
beispielsweise mit großem Aufwand verbunden, als Informatiker an die
Forschungsdaten der Biologen zu gelangen. Gerade die Verknüpfung
fächerübergreifender Inhalte und die Zugänglichkeit der Daten sowohl
fakultätsübergreifend als auch universitätsübergreifend ist für die Entwicklung der
Forschung und die Erschließung neuer Forschungsgebiete wichtig. Um dieses Ziel zu
erreichen, kann das Prinzip der Linked Open Data genutzt werden.

2       Linked Open Data

Mit dem Begriff Linked Open Data bezeichnet man Daten, die einer offenen Lizenz
unterliegen und nach vorgegebenen Prinzipien (s. 2.1) untereinander verbunden sind.
Sie werden im Internet publiziert und auf diese Weise öffentlich zugänglich gemacht.
Das Prinzip der Linked Open Data ist ein Bestandteil im semantischen Web. Unter dem
Begriff des semantischen Webs versteht man die Weiterentwicklung des World Wide
Webs von dem Web of Documents hin zu dem Web of Data.
         Der Unterschied zwischen diesen Arten des Webs sind die Zielgruppen, für
welche die Inhalte verständlich sein sollen. Während die Inhalte im Web of Documents
nur für Menschen interpretierbar sind, sollen im Web of Data Inhalte sowohl von
Menschen als auch von Maschinen interpretierbar sein. Im Web of Documents ist das
Verlinken ganzer Dokumente die übliche Verfahrensweise, um Zusammenhänge
zwischen Dokumenten herzustellen. Für das Web of Data ist diese Herangehensweise
nicht ausreichend. Um die Bedeutung (Semantik) des beschriebenen Gegenstandes
maschineninterpretierbar darzustellen, ist eine weitergefasste Verfahrensweise
anzuwenden. Um die Vorgehensweise für eine große Zahl von Anwendern des Webs
einfach und einheitlich zu halten, formulierte Sir Tim Berners-Lee, der Begründer des
World Wide Web und Erfinder des Hypertext Markup Language(HTML), im Jahr 2006 die
Linked Data Principles.

                                                                                          2
Linked Open Data eröffnet neue Wege in der Forschung und Lehre an Universitäten
2.1    Linked Data Principles

Tim Berners-Lee formulierte die Linked Data Principles als Leitlinien für die
Veröffentlichung von Daten im Web of Data. In vier Schritten erklärt Berners-Lee die
Grundlagen von Linked Data: Zugrunde liegt die Vorstellung, dass man ein Objekt neu als
Linked Data beschreiben möchte.
         Der erste Schritt basiert auf der Nutzung eines Uniform Resource Identifiers
(URI's) für das beschriebene Objekt. Der URI identifiziert das zu beschreibende Objekt.
         Im zweiten Schritt wird die Empfehlung auf einen http:// URI weiter
eingeschränkt. Das Hypertext Transfer Protocol (HTTP) kann deferenziert werden. Das
Objekt, welches durch einen http://URI identifiziert wird, kann von jedem Benutzer des
Webs und auch von Maschinen nachgeschlagen werden.
         Als dritten Schritt schlägt Tim Berners-Lee das Hinzufügen weiterer
Informationen vor. Dies kann beispielsweise eine Beschreibung zu den dargestellten
Objekten sein. Zur Beschreibung dient das Format des Ressource Description
Frameworks (RDF). Das RDF ist ein Datenmodell für Metadaten, welches durch das
World Wide Web Consortium (W3C) spezifiziert wurde. Es wurde entwickelt um
Informationen für Computer interpretierbar zu machen. Durch vorgegebene
Annotationen im RDF/XML Format wird eine Bedeutung zu Daten hinzugefügt.
         Im letzten Schritt der Linked Open Data Principles werden Verlinkungen zu
anderen bereits nach diesen Prinzipien beschriebenen Objekten eingefügt. Durch dieses
Vorgehen entsteht ein Verlinkungsnetz(Graph), welches die
Bedeutungszusammenhänge enthält und maschineninterpretierbar ist.

2.1.1 Beispiel für die Anwendung der Linked Data Principles

Als Beispielobjekt soll diese Ausarbeitung dienen. Sie soll als Linked Open Data
veröffentlich werden. Zur Umsetzung des ersten und zweiten Schrittes muss eine
http://URI erstellt werden. Unter diesem URI wird die Ausarbeitung abgelegt.
Beispielsweise könnte im Namensraum der Arbeitsgruppe Kommunikationssysteme
unter dem Identifier http://comsys.informatik.uni-
kiel/teaching/semantic_technologies/#data dieses Dokument erreichbar sein.
         Schritt 3 sieht das Hinzufügen von Informationen zu der Ausarbeitung vor. Diese
werden im RDF Format hinzugefügt unter zur Hilfenahme des Vokabulare Dublin Core.
Vokabulare, wie Dublin Core, Friend-of-a-Friend oder SKOS, bilden einen Wortschatz, der
nach dem Modell von RDF gebildet wurde und von einer großen Gruppe von
Programmierern verstanden wird. Die Angabe des Titels dieser Ausarbeitung „Linked
Open Data eröffnet neue Wege in der Forschung und Lehre an Universitäten“ ist ein
Beispiel für eine zusätzliche Information zu der Ressource. Diese Information wird mit
der Annotation dc:title versehen, welches die Bedeutung angibt, dass es sich um den
Titel handelt bei der angegeben URI. Ein weiteres Beispiel dafür kann eine Annotation
sein, in welcher angegeben wird, dass es sich um einen Foliensatz handelt, der zur

                                                                                      3
Linked Open Data eröffnet neue Wege in der Forschung und Lehre an Universitäten
Seminarreihe „Semantische Technologien“ gehört. Um den letzten Schritt der Prinzipien
von Tim Berners-Lee umzusetzen, können Verlinkungen durchgeführt werden: Zum
einen die Angabe, dass es sich bei der Autorin der Präsentationsfolien um Julia Retzlaff
handelt. Wobei zur Identifikation der Person eine http://URI genutzt wird. Und zum
anderen wird der Foliensatz mit einer bestehenden Datenmenge verlinkt. In diesem Fall
mit der dbpedia.org http://URI hinter welcher sich die Beschreibung des Hauptthemas
des Foliensatzes, nämlich „Linked Open Data“ befindet.

Ausarbeitung zur Seminarreihe                        Linked Open Data eröffnet neue Wege in
„Semantische Technologien“                           der Forschung und Lehre an Universitäten

                     dc:description                                          dc:title

            http://comsys.informatik.uni-kiel/teaching/semantic_technologies/#data

                     dc:subject                                               dc:author

      http://dbpedia.org/resource/                         http://www.siezgelegenheit.de/
           Linked_Open_Data                                       julia_retzlaff.xhtml

           Bild 1: Diese Ausarbeitung veröffentlich mit Hilfe der Linked Data Principles.

2.2      Linked Open Data Cloud

Die Linked Open Data Cloud ist das sichtbarste Produkt der Weiterentwicklung des Web
of Documents hin zum Web of Data. Unter diesem Begriff fasst man alle Daten
zusammen, die unter Anwendung der Linked Data Principles in Kombination mit einer
offenen Lizenz publiziert wurden.
         Die Linked Open Data Cloud ist ein Produkt des Linked Open Data Projects.
Dieses Projekt wurde im Januar 2007 gegründet. Es wird vom W3C unterstützt und ist
offen, das heißt jeder kann an diesem Projekt teilnehmen. Die Mitglieder des Projektes
unterstützen Menschen bzw. Organisationen bei der Veröffentlichung ihrer Daten in der
Linked Open Data Cloud. Ziel ist es möglichst viele Daten für jeden frei zugänglich zu
machen.
         Bereits fünf Monate nach der Gründung des Projektes bestand die Linked Open
Data Cloud aus 12 Datenmengen. Die Datenmengen waren untereinander noch wenig
verlinkt. In den folgenden Jahren wuchs die Anzahl der Datenmengen und auch die Zahl
der Verlinkungen zwischen den Datenmengen stieg stark an.

                                                                                                4
Linked Open Data eröffnet neue Wege in der Forschung und Lehre an Universitäten
Bis zum September 2011 wuchs die Linked Open Data Cloud auf 295 Datensets.
Sie unterteilt sich zurzeit in 7 inhaltliche Gruppen: Der Bereich „Goverment Data“
enthält Daten über Bevölkerungsentwicklung und Bevölkerungszusammensetzung.
Diese Daten werden von den Regierungen der betreffenden Länder veröffentlicht. Im
Medienbereich befinden sich unter anderem Verzeichnisse über Sänger und Interpreten.
Im Publikationsbereich haben viele Bibliotheken ihre Datenbanken geöffnet. Die „Life
Science Data“ enthält beispielsweise Forschungsdaten aus Versuchen der
Pharmaindustrie. In dem Bereich der „Cross- Domain“ findet sich als bekanntestes
Dataset die Dbpedia. Diese ist eine semantifizierte Version der Wikipedia. Im kleinen
Bereich des „user-generated Content“ befinden sich Datenmengen von einzelnen
Benutzern. Viele stammen noch aus den Anfängen des Web of Data und enthalten
beispielsweise semantifizierte Blogeinträge. Der Bereich Geographie bietet mit
Geonames eine Datenmenge, die Städtenamen mit Ihren Koordinaten verbindet.
Grundsätzlich sind die inhaltlichen Bereiche der veröffentlichten Daten genauso
vielfältig, wie die Daten selbst.
          Im August 2013 umfasste die Cloud bereits 337 Datenmengen und es ist
anzunehmen, dass die Cloud noch weiter wachsen wird. Tim Berners-Lee macht in
einem Vortrag bei TED im Februar 2009 deutlich, dass der Nutzen der Linked Open Data
umso größer wird, je mehr Daten in der Linked Open Data Cloud veröffentlicht werden.
Bleibt die Frage, welchen Nutzen uns die veröffentlichten Datenmengen in der Linked
Open Data Cloud bieten und wie wir diese für die Forschung und Lehre an Universitäten
einsetzen können.

                    Bild 2: Abbild der Linked Data Cloud vom Mai 2007

                                                                                    5
Bild 3: Abbild der Linked Data Cloud vom September 2011

3      Zugriff auf Linked Open Data

Eine Datenmenge der Linked Open Data Cloud kann man aus der Programmierer Sicht
als Datenbank oder als Dokument begreifen. Daraus resultieren zwei unterschiedliche
Zugriffsmechanismen auf die Datentriple innerhalb einer Datenmenge: die
Dereferenzierung der URI's und die Anfrage mit SPARQL. Bevor man jedoch auf die
Linked Open Data zugreift und die Daten extrahiert, um beispielsweise eine
Webapplikation mit Inhalten aus der Linked Open Data Cloud anzureichern, muss man
den richtigen Ansatzpunkt finden, in welchem Datensatz man die gewünschten
Informationen findet.

3.1    Online Tools zur Orientierung in der Linked Open Data Cloud

Um in der Linked Open Data Cloud die gewünschten Inhalte zu finden, gibt es eine Reihe
von Online Tools: sindice, sig.ma und relfinder sind Beispiele dafür.

                                                                                      6
Exemplarisch wird hier das Tool Sindice näher betrachtet. In der
Benutzeroberfläche von Sindice gibt es die Möglichkeit, nach einem oder mehreren
Begriffen zu suchen. Das Ergebnis zu dieser Anfrage ist eine Liste von http://URIs. In
dieser wird die Anzahl der Triple angegeben, die zu diesem Thema innerhalb der URI
annotiert wurden. Zusätzlich bietet Sindice verschiedene Sichten auf die Datenmengen,
die in der Ergebnisliste auftauchen. Beispielsweise lassen sich die Triple, welche zum
Suchwort passen, zum einen als Liste anzeigen. Eine andere Ansicht ist die Graph Ansicht
der Triple. Außerdem wird eine Liste der von dieser Datenmenge verwendeten
Ontologien angezeigt. Damit kann der Suchende sich ein Bild über den beschriebenen
Inhaltsbereich machen.
          Ist die passende Datenmenge gefunden, beispielsweise die dbpedia.org, so stellt
sich vor dem Gebrauch der Inhalte die Frage der Verfügbarkeit dieser Datenmenge.
Denn sowohl eine SPARQL- Anfrage als auch die Dereferenzierung einer http://URI
richten sich immer an einen Server. Damit ist immer auch die Gefahr eines Ausfalls
dieses Servers verbunden. Zur Überprüfung der Verfügbarkeit des betreffenden Servers
bietet sich das Online Tool
[http://labs.mondeca.com/sparqlEndpointsStatus/index.html] an. Es bietet eine
Übersicht über die SPARQL- Endpoint Verfügbarkeit. Das Tool betrachtet die
Verfügbarkeit des jeweiligen Servers im Zeitraum der letzten 24 Stunden und zusätzlich
im Zeitraum der letzten 7 Tage. Bei der Betrachtung der Verfügbarkeit der dbpedia.org,
fällt als erstes auf, das die dbpedia in unterschiedliche SPARQL- Endpoints aufgeteilt ist.
Je nach Region weisen diese SPARQL-Endpoints eine andere Verfügbarkeit auf. Ist ein
verlässlicher Server mit dem passenden Inhalt für die Webapplikation gefunden, muss
sich der Programmierer für eine Zugriffsart entscheiden.

   Bild 4: Ausschnitt der Webseite zur Überprüfung der Verfügbarkeit der SPARQL- Endpoints

3.2     Dereferenzierung der http://URI

Entscheidet man sich für eine Dereferenzierung der http://URI durchzuführen, so kann
man dazu beispielsweise das Kommandozeilentool cURL oder die online Variante hURL

                                                                                             7
verwenden. Als Beispiel wird hier eine Dereferenzierung mit hURL.it durchgeführt mit
einer DBpedia URL. hURL führt einen HTTP Request mit der angegeben URL durch. Die
Beispiel-URL http://dbpedia.org/resource/Kiel wird dazu in das vorgesehene URL Feld
auf der Oberfläche von hURL.it eingefügt. Außerdem wird die Angabe gemacht, dass der
Inhaltstyp, der bei der Anfrage zurückgegeben wird RDF+XML sein soll. Dies wird
erreicht durch die Verwendung des „Accept“ Feldes bei dem Request. Das Ergebnis
dieser Anfrage sind die RDF Triple, die unter der http://URI verfügbar sind.

3.3    SPARQL- Anfrage

Eine weiter Variante auf die Daten in der Linked Data Cloud zuzugreifen, ist die SPARQL-
Anfrage. Der Begriff SPARQL ist ein rekursives Akronym und ist in der Langform als
Sparql Protocol and RDF Query Language bekannt. SPARQL- Anfragen werden bereits
von vielen gängigen Programmiersprachen, wie Java, PHP, Python oder C/C++
unterstützt. Für Java gibt es beispielsweise das Jena Semantic Web Framework, welches
SPARQL- Anfragen aus einem Programm heraus ermöglicht.
         SPARQL ist eine Anfragesprache für RDF, wie man es von SQL für Datenbanken
kennt. Grundsätzlich besteht eine solche Anfrage aus zwei Teilen, einmal aus dem
Schlüsselwort SELECT und dem Schlüsselwort WHERE. Hinter dem WHERE wird das
Anfrage-Pattern eingefügt. Dieses gibt an, was gefragt wird. Der SELECT Teil wird
genutzt, um eine Einschränkung der Ergebnisse zu erwirken. Beispielsweise können die
Anfragen darauf beschränkt sein, nur die Subjekte anzuzeigen. Zusätzlich zu diesen
beiden Hauptbestandteilen einer SPARQL- Anfrage gibt es noch drei weitere Blöcke mit
denen die Anfrage weiter eingegrenzt bzw. spezifiziert werden kann. Diese Teile sind im
Gegensatz zu SELECT und WHERE optional.
         Vor dem Schlüsselwort SELECT gibt es die Möglichkeit, eine Prefixdeklaration
vorzunehmen. Innerhalb dieser wird angegeben, mit welchem Vokabular die Anfrage
gestellt wird und wie der Prefix dieses Vokabulares lautet. Vokabulare wie SKOS, FOAF
oder Dublin Core sind zu verstehen als Wortschatz. Sie bilden die Grundlage, um in einer
bestimmten Domaine beschreibende Verknüpfungen für Inhalte zur Verfügung zu
stellen. Diese Vokabulare wurden mit Hilfe von RDF und OWL (Web- ontology Language)
gebildet.
         Ein weiteres Pattern der SPARQL-Anfrage kann zwischen dem SELECT und dem
WHERE- Pattern eingefügt werden. Dort kann angegeben werden, von welchem
Datensatz die Anfrage getätigt werden soll, unterstützt durch die zwei Schlüsselwörter
FROM  und FROM NAMED .
         Hinter dem WHERE-Pattern lassen sich Schlüsselwörter einfügen, mit denen sich
die Frage modifizieren lässt. Beispielsweise kann mit dem Schlüsselwort LIMIT… die
Anzahl der ausgegebenen Antworten begrenzt werden.
         Neben der hier beschriebenen Select- Anfrage, welche die Originalwerte vom
SPARQL- Endpoint als Ergebnis in einer Tabelle ausgibt, gibt es noch drei weitere Formen
für SPARQL- Anfragen: die Construct- Anfrage, die Ask- Anfrage und die Describe-

                                                                                       8
Anfrage. Jede dieser Anfragearten hat einen eigenen Anwendungsbereich. Die
Construct- Anfrage wird genutzt, um die Informationen aus dem SPARQL- Endpoint in
valides RDF zu transformieren. Die Ask- Anfrage im Gegensatz dazu liefert nur „true“
oder „false“ auf die gestellte Anfrage. Die Describe-Anfrage extrahiert einen RDF-
Graphen aus dem Ergebnis der Anfrage an den SPARQL- Endpoint. Man wählt also die
Struktur der SPARQL- Anfrage nach dem gewünschten Output aus und gelangt so an die
Daten, die von der Datenmenge bereitgehalten werden.

                                     PREFIX foo:
      Prefixdeklaration
                                     PREFIX bar:
         (optional)
                                     ...

                                     SELECT             Einschränkung Anfragepattern

      Definition Datensatz           FROM 
           (optional)                FROM NAMED 

                                     WHERE {
                                                               Anfrage
                                      }
                                     GROUP BY...
                                     HAVING...
      Modifizierer für Anfrage       ORDER BY...
             (optional)              LIMIT...
                                     OFFSET..
                                     BINDINGS...

                              Bild 5: Struktur einer Select-Anfrage

3.3.1 Beispiel SPARQL- Anfrage an dbpedia.org SPARQL- Endpoint

Es sollen alle Informationen herausgefunden werden, die die dbpedia.org über den Ort
„Kiel“ bereithält. Dazu werden in diesem Beispiel nur die beiden Schlüsselwörter SELECT
und WHERE genutzt. SELECT wird mit dem Sternoperator versehen, das heißt alle durch
das WHERE Schlüsselwort herausgefundenen Ergebnisse werden ausgegeben. Im
Bereich des WHERE- Schlüsselwortes wird das Subjekt, nämlich
 angegeben. Dies gibt an nach welchem Subjekt mit
der Anfrage gesucht werden soll. Hinter dem http://URI befindet sich ein ?p und ein ?o,

                                                                                       9
die als Platzhalter für die Antworten stehen. Als Ergebnis dieser Anfrage werden alle
Prädikate und Objekte ausgegeben, die mit dem Subjekt „Kiel“ verlinkt sind. Als Ergebnis
auf die wie oben formulierte Anfrage an den SPARQL-Endpoint der dbpedia.org erhalten
wir eine Tabelle, welche die Prädikate und Objekte beinhaltet.
         Der Inhalt muss nun noch in eine geeignete Repräsentationsform gebracht
werden, aber die Rohdaten um eine Webapplikation damit zu ergänzen sind mit dieser
Anfrage aus der Linked Open Data Cloud herausgefiltert worden.

SELECT *
WHERE {
 ?p ?o.
}
                       Bild 6: Quellcode zur Beispielanfrage aus 3.3.1

4       VIVO Projekt: Anwendung von LOD an Universitäten

 Das VIVO Projekt wurde 2003 an der Cornell University Library gegründet und an der
Cornell University implementiert. Es ist eine offene Software. Sie ist darauf ausgerichtet,
Informationen über öffentliche Aspekte der wissenschaftlichen Forschung zu
publizieren. Es verhilft Forschern, Fakultätsmitarbeitern und Studenten die richtigen
Ansprechpartner zu finden und verbessert die Vernetzung der Wissenschaftler
untereinander. Eine interdisziplinäre und fakultätsübergreifende Zusammenarbeit
innerhalb der Universität wird durch VIVO ermöglicht. Bei der Implementierung wurde
ein besonderes Augenmerk auf die Interoperabilität der Daten gelegt. Aus diesem Grund
wurden semantische Technologien bei der Implementierung des Projektes eingesetzt.

4.1     Semantische Webanwendung

VIVO ist ein Open Source Projekt, welches mit Hilfe des Jena Semantic Web Frameworks
implementiert wurde. Es speichert alle Daten unter Verwendung des Ressource
Description Frameworks (RDF) und entspricht damit dem internationalen Standard für
den Austausch von Daten im Internet. Als Basisontologie nutzt das VIVO System die
VIVO Ontologie VITRO. VITRO ist eine Verbindung vieler bereits existierender
Ontologien. Diese Ontologien fokussieren sich darauf, Forscher und ihre
Forschungsaktivitäten sowie ihre sozialen Netzwerke darzustellen. VITRO setzt sich wie

                                                                                        10
folgt zusammen: Die Ontologie VIVO CORE bildet die Kernontologie, sie wird erweitert
durch die Ontologien FOAF, EVENT, BIBO, BFO und Science Resources.
         Die VIVO-Software bietet drei Werkzeuge für die Datenbearbeitung: den
Ontologie Editor, den Inhaltseditor und die Webseite. Mit dem Ontologie Editor können
neue Ontologien erstellt oder bereits bestehende importiert werden. Der Inhaltseditor
dient dazu, Daten zu integrieren und zu editieren. Die Webseitenansicht präsentiert den
Inhalt, welcher veröffentlicht wurde und lässt authentifizierte Nutzer ihre Inhalte, wie
bei einem Content- Management- System bearbeiten.

4.2    Menschenlesbare Webpage

Sobald die zu veröffentlichenden Daten in das VIVO System eingespeist sind, wird vom
System eine öffentliche Webseite mit Unterseiten erstellt, die beispielsweise die Profile
der Wissenschaftler beinhaltet. Diese menscheninterpretierbare Webpage ist vollständig
anpassbar. Sowohl die angezeigten Themen als auch die Seiteninformationen. Zusätzlich
werden alle Seiteninformationen mit Lucene (lucene.apache.org) indiziert. Die Seiten
werden komplett durchsuchbar.
         Die Navigation auf den Webpages des ViVO Systems bietet dem User
verschiedene Ansätze, den gewünschten Content zu finden. Schaut man sich die
typische Aufteilung einer VIVO Webpage an, so offeriert das Hauptmenü Informationen
über Personen, Institute, Forschung und Veranstaltungen. Zusätzlich zu dieser
Navigation wird die oben erwähnte Stichwortsuche angeboten. Gibt man dort einen
Suchbegriff ein, so werden mit dem Stichwort verwandte Beiträge angezeigt. Besonders
zu beachten ist die Möglichkeit, die Suchergebnisse einzuschränken. Am Beispiel des
Cornell University VIVO gibt es die Möglichkeit, die Suchergebnisse auf Personen, Kurse
oder Veranstaltungen zu diesem Begriff einzuschränken. Diese Begrenzung ist nur
möglich, da Annotationen die vorliegenden Texte in ihrer Bedeutung von anderen
abgrenzen. Es handelt sich also um eine Errungenschaft aus der Semantifizierung der
Daten. Eine weitere Methode, welche vom VIVO System erzeugt wurde, um sich auf der
Webpage der Cornell University zurecht zu finden, wird als „Browsen“ bezeichnet. Es
gibt die Möglichkeit zwischen neun Hauptthemen auszuwählen, hinter denen man
jeweils die aktuelle Anzahl der Einträge zu diesem Gebiet sieht. Wählt man zum Beispiel
die Einträge hinter Person, so erscheinen verfeinerte Kriterien, wie beispielsweise
„Faculty Member“ oder „Graduate Student“. Ein Balken zeigt an, wie viele Einträge zu
diesem Bedeutungspunkt vorhanden sind. Die Suchergebnisse des Unterpunktes sowie
alle anderen Webpages kann man sich auch direkt als RDF ausgeben lassen.
         Personenprofile sowie Webpages über andere Inhalte können nach einer
Authentifizierung von den „Eigentümern“ selbst bearbeitet werden. So ist eine genaue
Kontrolle und Bearbeitung der veröffentlichten Informationen durch den Forschenden
selbst jederzeit möglich. Das Personenprofil enthält so beispielsweise nur freigegebene
Inhalte des Forschenden. Schauen wir uns als Beispiel das Profil von Professor George
Samuel Abawi von der Cornell University an. Es enthält nicht nur Informationen über

                                                                                      11
seinen Werdegang an der Cornell, sondern auch über seine Forschung und Lehre.
Studenten bekommen so die Möglichkeit, sich über seine Lehrveranstaltungen zu
informieren. Institutsfremde finden einen Ansprechpartner, und selbst Informationen
über die einzelnen Publikationen werden bereitgestellt.
         Kritisch betrachtet könnte man an diesem Punkt sagen, dass alles ist doch auch
mit einer herkömmlichen HTML basierten Webpage möglich. Eines jedoch hält das VIVO
System noch als herausragende Funktion bereit: die Möglichkeit der Verwendung aller
Daten in anderen Programmen. Diese Funktionalität ergibt sich aus der
maschinenlesbaren Repräsentation der Daten.
         Im VIVO System der Cornell University gibt es derzeit drei Arten von
Visualisierungen. Diese werden direkt live auf der Webpage erstellt.
          Zum einen ist das die „Co-Autoren“ Visualisierung: Unser Beispiel-Professor hat
540 Publikationen geschrieben mit 47 Co-Autoren. Aus den sematifizierten Daten wird
ein Graph erstellt, welcher von unserem Professoren ausgehend zu den einzelnen Co-
Autoren eine Kante zeichnet. Die Ecke wird umso dicker und farbkräftiger, je mehr
Publikationen der oder diejenige mit unserem Professor zusammen verfasst hat.
Zusätzlich werden auch die Vernetzungen der Co-Autoren untereinander angezeigt. Ein
Export des Graphen ist in GraphML oder als Bild möglich, womit eine Möglichkeit zum
Export der Visualisierung besteht.
         Außerdem gibt es bei dieser Anwendung verschiedene weitere Möglichkeiten
die Co-Autoren anzuordnen. Die Visualisierung der Co-Investigatoren ist ganz ähnlich
aufgebaut zu der Visualisierung der Co-Autoren.
         Davon unabhängig ist die Visualisierung der „Map of Science“. Diese zeigt durch
eine Landkarte der Forschungsgebiete an, wo das Forschungsgebiet der Person liegt. Die
Landkarte wird aus den Informationen erstellt, welche über die Publikationen gemacht
wurden. Durch farbige Kreise, welche je nach Anzahl der Publikationen in diesem
Bereich auch in der Größe variieren, werden Forschungsschwerpunkte sichtbar.
Visualisierungen, wie die oben aufgeführten, basieren auf den in das System
eingespeisten Daten und es sind noch viele weitere Visualisierungen denkbar. Die
Semantifizierung der Inhalte dient somit nicht nur der Maschinenlesbarkeit, sondern
verbessert auch die Aktualität und Verständlichkeit der Inhalte für den Menschen.
Grafiken werden live erstellt. Sie sind stets aktuell und müssen nicht überarbeitet und
gepflegt werden.

                                                                                       12
Bild 7: Abbildung der Co-Authoren live generiert vom VIVO System.

                                                                    13
Bild 8: "Map of Science" aus dem VIVO System der Cornell University.

4.3    Maschinenlesbare Daten

Alle über das VIVO System publizierten Daten sind auch maschinenlesbar. Sie können,
wie oben erwähnt, in anderen Anwendungen verwendet werden. Durch die Anwendung
der Standards der Semantischen Web Technologien, die vom W3C veröffentlicht
wurden, werden die Sachverhalte in ihren Einzelheiten modelliert. Eine Publikation wird
dabei nicht als alleinstehende Entität gesehen, sondern unterteilt sich zum Beispiel in
die Art der Publikation - Buch, Artikel, Journal; in den Autor, Editoren, Übersetzer. All
diese feingliedrigen Einzelheiten bilden eine gut strukturierte Datenbasis. Alle Daten
werden im RDF Format gespeichert. Zusätzlich sorgt das VIVO System dafür, dass für
Daten persistente URI's verwendet werden. Dadurch werden Informationen direkt und
verlässlich verlinkt. Die Benutzung einer VIVO Instanz, um Daten zu veröffentlichen
macht diese Daten im Web feststellbar und nutzbar. Daten mit Hilfe des VIVO Systems
zu veröffentlichen, ist ein Beitrag zur Linked Open Data Cloud.
Die Daten können sowohl von einem anderen Server abgefragt werden über den
SPARQL-Endpoint als auch direkt durch das Speichern der vorliegenden Webpage im
RDF Format. Die RDF- Repräsentation der Daten sind unter derselben http://URI
abgelegt wie die menschenlesbare HTML Version. Die so erlangten Daten können dann
in einer Anwendung weiterverarbeitet werden, da durch die Speicherung im RDF Format

                                                                                      14
die Bedeutung der Daten für den Computer erschließbar ist. Beispielsweise kann diese
Vorgehensweise für computergestützte Analysen genutzt werden oder um andere
offene Daten im Web durch den Content zu ergänzen.

4.4     Aufsetzen eines institutseigenen VIVO Systems

Jedes VIVO Projekt unterscheidet sich von jedem anderen. Die Anpassungsmöglichkeiten
und auch die verschiedenen Umfänge der verwendeten Implementierung sind vom
Institut selbst zu wählen. Die bisher an einem Institut bestehenden Datenbanken
können für die Integration der Daten in das VIVO System herangezogen werden. VIVO
zielt darauf ab die Daten aus den bestehenden Systemen des Instituts zu verwenden,
damit kein Mehraufwand bei der Datenpflege entsteht.
         Dazu stellt man sich folgenden Aufbau so einer Infrastruktur vor: Es existiert ein
VIVO Server, welcher als Schnittstelle zwischen den inneren Daten und Benutzern und
zwischen den externen Benutzern und anderen Servern steht. Dieser VIVO Server stellt
das System bereit und verarbeitet die gelieferten Daten zu einer menschenlesbaren
Webpage und steht gleichzeitig als SPARQL- Endpoint zur Verfügung, falls ein anderer
Server Daten im RDF Format abrufen möchte.
         Die innere Struktur, um dieses System zu speisen, setzt sich wie folgt zusammen:
Zuallererst gibt es die Möglichkeit, Inhalt händisch einzutragen. Dies ist besonders in
kleineren Organisationen und in Organisationen ohne vorhandene maschinenlesbare
Datenhaltung denkbar. In diesem Punkt können beispielsweise die Institutsmitarbeiter
ihre Profile anpassen oder neue Inhalte hinzufügen. Hat die betreffende Organisation
jedoch bereits maschinenlesbare Daten auf anderen Systemen, so können durch
Identifizierung der gebräuchlichen ID's die Daten direkt von diesen inneren Servern vom
VIVO Server abgerufen werden.
         Wichtig ist jedoch zu bedenken, welche Informationen nach außen gelangen
sollen bzw. dürfen. Da das VIVO System selbst keine langfristige Datenhaltung betreibt,
muss die Organisation bei der Freigabe ihrer Daten eine Regelung über Identifizierer
innerhalb der internen Datenhaltung finden. Diese müssen angeben, ob die Daten
veröffentlicht werden dürfen.
         Jedes VIVO Projekt wird lokal verwaltet. Die offene Software des VIVO Systems,
der Ontologie und die Dokumentationen sind zum Download (unter www.vivoweb.org)
verfügbar. Sie wird ständig weiterentwickelt durch eine offene Community, die sich um
das Projekt herum gegründet hat. Diese Software wird mit der BSD License, der Berkeley
Software Distribution weitergegeben. Dies bedeutet für die Nutzung und
Weiterentwicklung der Software, dass alle Erweiterungen wieder mit dieser Lizenz
weitergegeben werden müssen. Zusätzlich muss die Angabe gemacht werden, dass die
Software ursprünglich von der Cornell University stammt.

                                                                                        15
Bild 9: Aufbau einer institutseigenen VIVO Infrastruktur.

4.5    Verbreitung von VIVO

Das VIVO System ist „weltweit“ verbreitet. In 158 Ländern sind VIVO Systeme
vorhanden. Innerhalb dieser Länder sind es zusammen 671 bekannte VIVO Projekte. Die
meiste Anwendung findet diese Open Source Software in Amerika, sowie in Australien.
In Europa hingehen gibt es nur vereinzelte bekannte öffentliche VIVO Systeme. In
England, den Niederladen, Belgien, Polen und Ungarn sind vereinzelt VIVO Systeme
aufgesetzt worden. In Deutschland existiert zurzeit kein öffentliches VIVO System.

5      Bewertung und Ausblick

Das Veröffentlichen von Daten als Linked Open Data bietet dem Nutzer und auch dem
Veröffentlicher selbst viele Vorteile. Im Gegensatz zur herkömmlichen Verfahrensweise
der Veröffentlichung als Dokument, steht die Interpretierbarkeit durch Maschinen bei

                                                                                    16
diesem Ansatz im Vordergrund. Die Weiterverarbeitung und auch die Wiederverwertung
der Daten ist durch die von Tim Berners-Lee aufgestellten Linked Data Principles und die
vom W3C herausgegebenen Standards z.B. RDF, möglich. Die einheitliche und
maschineninterpretierbare Struktur der gespeicherten Daten lässt eine
computergestütze Verarbeitung zu. Die offenen Lizenzen, unter denen die Daten
publiziert werden, machen einen Zugriff auf die Daten und deren Verwendung rechtlich
möglich. Diese Vorteile sind besonders für die Daten von Universitäten interessant, da
dort zum einen viele Daten erhoben und gespeichert werden müssen. Außerdem ist in
Universitäten auch ein reger Austausch der Daten zur interdisziplinären
Zusammenarbeit erwünscht. Dieser Austausch fördert die wissenschaftliche Entwicklung
der Universität.
         Ein besonderes Augenmerk sollte darauf gelegt werden, welche Daten unter der
offenen Lizenz veröffentlicht werden. Es existieren gerade im Forschungsbereich
sicherheitsrelevante und forschungsrelevante Daten, die nicht ohne weiteres nach
außen gelangen dürfen. Denkbar ist es für diese Art Daten nur eine universitätsinterne
Zugänglichkeit zu gewähren oder die Daten zu einem Zeitpunkt in der Linked Data Cloud
zu veröffentlichen, an dem die eigenen Forschungen bereits weit fortgeschritten oder
abgeschlossen sind.
         Eine Anwendung der Linked Open Data an Universitäten ist das VIVO System. Es
erleichtert das Publizieren von Daten in der Linked Open Data Cloud. Es zeigt
eindrucksvoll, wie viele Anwendungsmöglichkeiten es für die nach den Linked Data
Principles von Tim Berners-Lee veröffentlichten Daten geben kann. Es erleichtert die
Suche nach Begriffen auf den Webseiten und ermöglicht eine programmgesteuerte
Analyse von Daten eingebettet in die menschenlesbare Webpage. Diese Software ist
sicherlich auch zur Anwendung an deutschen Universitäten geeignet.

                                                                                     17
Literartur- und Quellenverzeichnis
  − Heath, T. Hepp, M. and Bicer, C. (eds.). Special Issue on Linked Data,
    International Journal on Semantic Web and Information Systems (IJSWIS).
    http://linkeddata.org/docs/ijsmis-special-issue
  − Tom Heath and Christian Bizer (2011) Linked Data: Evolving the Web into a
    Global Data Space (1st edition). Synthesis Lectures on the Semantic Web:
    Theory and Technology, 1:1, 1-136. Morgan & Claypool. Chapter 3,6.
  − Corson-Rikert, J. , Krafft, D. B., Lowe, B.J.. VIVO: A Semantic Network of
    Researchers and Research Information as Linked Open Data
  − Corson-Rikert, J.. (2012) VIVO System Architecture and Core Functions, VIVO
    Implementation Fest
  − Kristi Holmes (2013) VIVO Benefits
    https://wiki.duraspace.org/display/VIVO/VIVO+Benefits
  − Hausenblas, Dr. Michael (2011) Consuming Linked Open Data from Theory to
    Practice, Tutorial at Web Science Doctoral Summer School 2011,
    http://webscience.deri.ie
  − Berners-Lee, Tim.(2009) The next web.(Vortrag)
    http://www.ted.com/talks/tim_berners_lee_on_the_next_web.html
  − Krafft, Cappadona, Devare, Lowe (eds.). VIVO: Enabling National Networking of
    Scientists
  − Hausenblas, M.. Exploiting Linked Data For Building Web Applications, DERI,
    National University of Ireland, Galway

                                                                                18
Bildverzeichnis
Bild 1: Diese Ausarbeitung veröffentlich mit Hilfe der Linked Data Principles.

Bild 2: Abbild der Linked Data Cloud vom Mai 2007
        http://lod-cloud.net/versions/2007-05-01/lod-cloud.png

Bild 3: Abbild der Linked Data Cloud vom September 2011
        http://lod-cloud.net/versions/2011-09-19/lod-cloud_colored.png

Bild 4: Ausschnitt der Webseite zur Überprüfung der Verfügbarkeit der SPARQL-
        Endpoints, http://labs.mondeca.com/sparqlEndpointsStatus/index.html

Bild 5: Struktur einer Select-Anfrage

Bild 6: Quellcode zur Beispielanfrage aus 3.3.1

Bild 7: Abbildung der Co-Authoren live generiert vom VIVO System.
        http://vivo.cornell.edu/vis/author-network/individual5320

Bild 8: "Map of Science" aus dem VIVO System der Cornell University.
        http://vivo.cornell.edu/vis/map-of-science/individual5320

Bild 9: Aufbau einer institutseigenen VIVO Infrastruktur.
        Bildauszug aus den Präsentationsfolien von VIVO: Enabling National Networking
        of Scientists, Michael Conlon, PhD, Principal Investigator, University of Florida

                                                                                       19
Sie können auch lesen