Einheitliche Repr asentation heterogener Datenquellen mit Topic Maps

Die Seite wird erstellt Emilia Weise

Sonstiges

Deutsch

Like
Teilen
Einbetten
Vollbild
Folien
HTML Herunterladen
PDF Herunterladen
Missbrauch

←

WEITER LESEN

→

Transkription von Seiteninhalten

Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten

Einheitliche Repr asentation heterogener Datenquellen mit Topic Maps

Fachbereich Informatik
     Fachgebiet Sicherheit in der Informationstechnik
Fraunhofer-Institut für Sichere Informationstechnologie SIT
                  Prof. Dr. Claudia Eckert

 Technische Universität Darmstadt

                   Diplomarbeit
 Einheitliche Repräsentation
heterogener Datenquellen mit
         Topic Maps

                   Johannes Bergmann

                       Januar 2006

                          Betreuer:
                 Prof. Dr. Claudia Eckert
                 Dipl. Inform. Jens Heider

Inhaltsverzeichnis

Inhaltsverzeichnis
1. Einleitung                                                                                                             1
   1.1. Sichere mobile Informationsverteilung     .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   1
        1.1.1. E-Mail . . . . . . . . . . . . .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   1
        1.1.2. Das MIDMAY Konzept . . .           .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   2
   1.2. Bearbeiteter Teilaspekt . . . . . . . .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   2

2. Problemanalyse                                                                                                          4
   2.1. Benutzung der Repräsentation . . . . . . . . . . . . . . . . . . . . .                                       .    5
        2.1.1. Finden von Informationsobjekten . . . . . . . . . . . . . . .                                          .    5
        2.1.2. Verwalten der Informationsobjekte und ihrer Repräsentation                                            .    6
   2.2. Anforderungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . .                                       .    6
        2.2.1. Funktionale Anforderungen . . . . . . . . . . . . . . . . . .                                          .    7
        2.2.2. Nicht-Funktionale Anforderungen . . . . . . . . . . . . . . .                                          .    9
   2.3. Aktuelle Ansätze . . . . . . . . . . . . . . . . . . . . . . . . . . . .                                     .   11
        2.3.1. Suchmaschinen . . . . . . . . . . . . . . . . . . . . . . . . .                                        .   11
        2.3.2. Verwaltungs-Systeme (Content Management) . . . . . . . .                                               .   12
        2.3.3. Knowledge Management Systeme . . . . . . . . . . . . . . .                                             .   13

3. Formate zur Repräsentation von Wissen                                                                                 13
   3.1. Topic Maps . . . . . . . . . . . . . . . . . . . . .                  . . . . . .             .   .   .   .   .   14
        3.1.1. Topics . . . . . . . . . . . . . . . . . . . .                 . . . . . .             .   .   .   .   .   14
        3.1.2. Occurrences . . . . . . . . . . . . . . . . .                  . . . . . .             .   .   .   .   .   15
        3.1.3. Associations . . . . . . . . . . . . . . . . .                 . . . . . .             .   .   .   .   .   15
        3.1.4. Scope . . . . . . . . . . . . . . . . . . . .                  . . . . . .             .   .   .   .   .   17
        3.1.5. Subject Identity . . . . . . . . . . . . . . .                 . . . . . .             .   .   .   .   .   18
   3.2. RDF . . . . . . . . . . . . . . . . . . . . . . . . .                 . . . . . .             .   .   .   .   .   18
        3.2.1. RDF Konzepte . . . . . . . . . . . . . . .                     . . . . . .             .   .   .   .   .   19
        3.2.2. RDF-Schema . . . . . . . . . . . . . . . .                     . . . . . .             .   .   .   .   .   19
        3.2.3. Web Ontology Language (OWL) . . . . .                          . . . . . .             .   .   .   .   .   20
   3.3. Vergleich . . . . . . . . . . . . . . . . . . . . . . .               . . . . . .             .   .   .   .   .   21
        3.3.1. Ziele der Technologien . . . . . . . . . . .                   . . . . . .             .   .   .   .   .   21
        3.3.2. Einordnung der Standards von Topic Maps                        und RDF                 .   .   .   .   .   22
        3.3.3. Identität . . . . . . . . . . . . . . . . . . .               . . . . . .             .   .   .   .   .   22
        3.3.4. Aussagen . . . . . . . . . . . . . . . . . .                   . . . . . .             .   .   .   .   .   23
        3.3.5. Constraint Languages . . . . . . . . . . . .                   . . . . . .             .   .   .   .   .   26
        3.3.6. Interoperabilität von Repräsentationen . .                   . . . . . .             .   .   .   .   .   28
        3.3.7. Syntax . . . . . . . . . . . . . . . . . . . .                 . . . . . .             .   .   .   .   .   28
        3.3.8. Fazit . . . . . . . . . . . . . . . . . . . . .                . . . . . .             .   .   .   .   .   29

4. Lösungsansatz                                                                   31
   4.1. Architektur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

                                           I

Inhaltsverzeichnis

        4.1.1. Komponenten . . . . . . . . . . . . . . . . . . . . . .       .   .   .   .   .   32
        4.1.2. Schnittstellen . . . . . . . . . . . . . . . . . . . . . .    .   .   .   .   .   35
   4.2. Sicherheit . . . . . . . . . . . . . . . . . . . . . . . . . . . .   .   .   .   .   .   37
        4.2.1. Authentifizierung und sichere Datenübertragung . . .         .   .   .   .   .   38
        4.2.2. Schutz der Zugangs- und Repräsentationsdaten . . .           .   .   .   .   .   38
        4.2.3. Mehrbenutzer-Aspekte . . . . . . . . . . . . . . . . .        .   .   .   .   .   38
   4.3. Darstellung und Navigation . . . . . . . . . . . . . . . . . .       .   .   .   .   .   39
        4.3.1. Visualisierung von Topic Maps als Graph . . . . . . .         .   .   .   .   .   40
        4.3.2. Visualisierung von Hierarchien . . . . . . . . . . . . .      .   .   .   .   .   42
        4.3.3. Klassifizierung von Informationen durch Facets . . .          .   .   .   .   .   42
        4.3.4. Darstellung einzelner Topics . . . . . . . . . . . . . .      .   .   .   .   .   43
   4.4. Modellierung . . . . . . . . . . . . . . . . . . . . . . . . . .     .   .   .   .   .   44
        4.4.1. Published Subjects . . . . . . . . . . . . . . . . . . .      .   .   .   .   .   44
        4.4.2. Topic Map Templates . . . . . . . . . . . . . . . . . .       .   .   .   .   .   45
        4.4.3. Patterns für Topic Maps . . . . . . . . . . . . . . . .      .   .   .   .   .   46
        4.4.4. Topic Map Modell zur Indizierung von Datenquellen             .   .   .   .   .   48
        4.4.5. Dateisysteme . . . . . . . . . . . . . . . . . . . . . .      .   .   .   .   .   49
        4.4.6. E-Mail . . . . . . . . . . . . . . . . . . . . . . . . . .    .   .   .   .   .   52
        4.4.7. Eigenschafts-Hierarchien . . . . . . . . . . . . . . . .      .   .   .   .   .   54
        4.4.8. Modellierung weiterer Datenquellen . . . . . . . . . .        .   .   .   .   .   56

5. Implementierung                                                                               58
   5.1. Topic Map APIs für Java . . . . . . . . . . . . . . . . . . . . . . .           .   .   59
        5.1.1. TMAPI . . . . . . . . . . . . . . . . . . . . . . . . . . . .             .   .   59
        5.1.2. TinyTIM . . . . . . . . . . . . . . . . . . . . . . . . . . .             .   .   59
        5.1.3. TM4J . . . . . . . . . . . . . . . . . . . . . . . . . . . . .            .   .   60
        5.1.4. Verwendete API . . . . . . . . . . . . . . . . . . . . . . . .            .   .   60
   5.2. API für Topic Map Patterns . . . . . . . . . . . . . . . . . . . . .            .   .   60
   5.3. Data Retrieval Modul . . . . . . . . . . . . . . . . . . . . . . . . .           .   .   62
        5.3.1. Zugriff auf die Datenquelle . . . . . . . . . . . . . . . . . .           .   .   62
        5.3.2. Extraktion von Metadaten . . . . . . . . . . . . . . . . . .              .   .   63
        5.3.3. Information Mapping . . . . . . . . . . . . . . . . . . . . .             .   .   64
        5.3.4. Information Object Retrieval . . . . . . . . . . . . . . . .              .   .   65
   5.4. Unified Representation Modul . . . . . . . . . . . . . . . . . . . .             .   .   65
        5.4.1. Konfiguration der Extraktoren . . . . . . . . . . . . . . . .             .   .   65
        5.4.2. Extraktoren und InputMaps . . . . . . . . . . . . . . . . .               .   .   67
        5.4.3. Vereinigen der Topic Maps . . . . . . . . . . . . . . . . . .             .   .   67
        5.4.4. Zugriff auf die Repräsentation und die Informationsobjekte               .   .   70

6. Fazit                                                                             72
   6.1. Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
   6.2. Bewertung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
         6.2.1. Konzepte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

                                          II

Inhaltsverzeichnis

        6.2.2. Software Architektur und Schnittstellen .               .   .   .   .   .   .   .   .   .   .   .   .   73
        6.2.3. Implementierung . . . . . . . . . . . . .               .   .   .   .   .   .   .   .   .   .   .   .   73
        6.2.4. Bewertung gegenüber den Anforderungen                  .   .   .   .   .   .   .   .   .   .   .   .   74
   6.3. Ausblick . . . . . . . . . . . . . . . . . . . . . .           .   .   .   .   .   .   .   .   .   .   .   .   77

A. Abkürzungen und Definitionen                                                                                       78

B. Verwendete Published Subject Identifiers                                                                            79
   B.1. Generische Topics . . . . . . . . . . . . .    .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   79
   B.2. Eigenschaften von Informationsobjekten         .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   80
   B.3. Dateisystem . . . . . . . . . . . . . . . .    .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   81
   B.4. E-Mail . . . . . . . . . . . . . . . . . . .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   82

                                         III

Inhaltsverzeichnis

Eidesstattliche Erklärung

Hiermit versichere ich, dass ich die vorliegende Diplomarbeit ohne Hilfe Dritter
und nur mit den angegebenen Quellen und Hilfsmitteln angefertigt habe. Diese
Arbeit hat in gleicher oder ähnlicher Form noch keiner Prüfungsbehörde vorgelegen.

                                         IV

1 EINLEITUNG

1. Einleitung

1.1. Sichere mobile Informationsverteilung

Digitale Informationen werden in der heutigen Zeit Dank einer guten Kommuni-
kations-Infrastruktur in großen Mengen schnell und zuverlässig übertragen. Dabei
kommen viele unterschiedliche Protokolle für die Übertragung und Datenformate für
die Speicherung der Informationen zum Einsatz. Wenn ein Benutzer Informationen
an einen bestimmten Empfänger übermitteln möchte, ist er daran interessiert, die
Informationen schnell aufzufinden und ohne großen Aufwand versenden zu können.
Sind seine Informationen jedoch über unterschiedliche Datenquellen verteilt, muss
er je nach Übertragungsprotokoll unterschiedliche Programme verwenden um die zu
versendenden Informationen zusammenzustellen, wie es z. B. bei der Informations-
verteilung per E-Mail der Fall ist.

1.1.1. E-Mail

Der Informationsaustausch über E-Mail bietet die Möglichkeit Informationen in un-
terschiedlichen Datenformaten zusammen mit der E-Mail-Nachricht zu versenden
und ist durch komfortable E-Mail Clients sehr benutzerfreundlich. Das E-Mail Kon-
zept hat jedoch einige Nachteile, insbesondere wenn ein sicherer Datenaustausch
gewünscht wird oder mobile Endgeräte zum Versenden der Informationen genutzt
werden sollen.
Um Informationen vertraulich übertragen zu können, ist eine Kryptographie-Infra-
struktur notwendig. Deren Nutzung bedeutet jedoch einen höheren Aufwand in der
Konfiguration und Benutzung des E-Mail Clients durch den Anwender, weil Zer-
tifikate von Authentifizierungsstellen oder Kommunikationspartnern vom Benutzer
verwaltet werden müssen.
Weiterhin ist es nur möglich Informationen vertraulich zu senden, wenn sie auf dem
benutzten Rechner lokal vorhanden sind, da sie vom E-Mail Client mit dem öffentli-
chen Schlüssel des Empfängers verschlüsselt werden. Insbesondere bei der Nutzung
eines E-Mail Clients auf einem mobilen Endgerät mit beschränkter Bandbreite und
hohen Übertragungskosten ist es unvorteilhaft, dass die Daten vorher vollständig
zum Client übertragen werden müssen. Dieses Problem kann gelöst werden, indem
die Entschlüsselung von E-Mails auf einem speziellen Server durchgeführt wird. Da
der Server den mobilen Client über neue E-Mails sofort benachrichtigt, wird die-
ser Service als Push“-Service bezeichnet. Die E-Mail gelangt so direkt vom Sender
                ”
zum Empfänger, der nun entscheiden kann, welche Anhänge der E-Mail auch auf
sein mobiles Gerät übertragen werden sollen.

                                         1

1 EINLEITUNG

Um seine Informationen verwalten zu können, muss der Benutzer auf unterschiedli-
che verteilte Datenquellen wie Dateiserver, Datenbanken und E-Mails zugreifen und
dafür verschiedene Protokolle und Programme verwenden. Dabei erhält er Sichten
auf seine Informationen, die vom Zugriffsprotokoll und Datenformat und nicht vom
Inhalt der Information abhängen. Die Verwaltung wird auch dadurch erschwert,
dass die Eigenschaften der verteilt gespeicherten Informationen nicht direkt mitein-
ander vergleichbar sind. Außerdem fehlen Funktionen, mit denen die Informationen
miteinander in Beziehung gesetzt werden können.

1.1.2. Das MIDMAY Konzept

Um den Anforderungen einer sicheren Verwaltung und Verteilung von Information
über mobile Endgeräte gerecht zu werden, wird ein neues Konzept der Informations-
verteilung benötigt. Das MIDMAY Konzept (Mobile Information Distribution and
Access for You!) [10] soll dem Benutzer eine einheitliche Sicht auf verteilt gespei-
cherte Informationen bieten und den vertraulichen Informationsaustausch zwischen
zwei sich zuvor unbekannten Personen ermöglichen. Es basiert auf einem mobilen
Client zur Präsentation und Auswahl der verteilt gespeicherten Informationen des
Benutzers, und einer Homebase, welche auf die verteilten Datenquellen zugreifen
kann.
In Abbildung 1 wird gezeigt, wie die Kommunikation zwischen zwei MIDMAY
Benutzern abläuft, die zum ersten Mal Informationen austauschen wollen. Zuerst
werden die MIDMAY-Identitäten zwischen den mobilen Geräte ausgetauscht (1).
Die Identitäten enthalten den öffentlichen Schlüssel und die Homebase-Adresse des
Kommunikationspartners. Über den Client wird die zu versendende Information aus-
gewählt (2) und die Homebase angewiesen diese Informationen von den verteilten
Datenquellen auf die Homebase zu laden (3+4), um sie von dort verschlüsselt an
die Homebase des Kommunikationspartners zu senden (5). Ist das Endgerät des
Empfängers erreichbar, kann dieser benachrichtigt werden (6) und entscheiden, an
welches Ausgabegerät die Informationen weitergeleitet oder wo sie abgelegt werden
sollen (7+8). Alternativ kann die Homebase auch selbstständig über die Ablage der
Informationen entscheiden, z. B. wenn das Endgerät nicht erreichbar ist.

1.2. Bearbeiteter Teilaspekt

Ein großer Vorteil von MIDMAY ist, dass der Benutzer Informationen vor dem Ver-
senden nicht erst selbst mit Hilfe von verschiedenen Anwendungen und Protokollen
auf sein mobiles Gerät übertragen muss, sondern von seinem MIDMAY-Client ei-
ne einheitliche Sicht auf seine Informationen erhält. Die einheitliche Sicht wird von
der MIDMAY-Homebase als Repräsentation aller verteilt gespeicherten Informatio-
nen des Benutzers erstellt. Mit Hilfe der Repräsentation bietet MIDMAY Positions-

                                          2

1 EINLEITUNG

2. 3. 4.
Informationsauswahl Instruktion der Homebase Abfrage der Informationen

Homebase (Sender)

Sender

1.
Drahtloser MIDMAY Informationen 5.
Austausch Identität und Metadaten Übertragung

Empfänger Homebase (Empfänger)
6. 7. 8.
Benachrichtigung Ablageinstruktionen Ablage/Weiterleitung

Abbildung 1: MIDMAY Szenario

und Zugriffstransparenz [8]. Der Benutzer kann auf seinem MIDMAY-Client ein In-
formationsobjekt auswählen, ohne dass er den physischen Speicherort des Objekts
kennt (Positionstransparenz). Für die Suche nach Informationsobjekten stehen dem
Benutzer dabei unabhängig von der Art der Datenquelle, ob E-Mail-Postfach oder
Dateisystem, die gleichen Operationen zur Verfügung (Zugriffstransparenz).
Ziel dieser Arbeit ist es, ein Konzept zur Erstellung der einheitlichen Repräsentation
aus den Informationen der verteilten Datenquellen zu entwickeln und prototypisch zu
implementieren. Dazu muss untersucht werden, wie die Datenquellen modelliert und
ihre Informationen abgebildet werden, welche Datenstruktur sich für die Repräsen-
tation eignet und welche Anforderungen an das Software-Modul zur Erstellung der
Repräsentation bestehen.
Im MIDMAY Konzept sind zwei Software-Module vorgegeben, die zusammen für die
Repräsentation der Datenquellen verantwortlich sind. Das Data Retrieval Module
(DRM) ist für den Zugriff auf die verschiedenen verteilten Datenquellen zuständig.
Es indiziert die auf den Datenquellen vorhandenen Informationen und bildet sie
in die Datenstruktur der Repräsentation ab. Das Unified Representation Module
(URM) ist für die Verwaltung dieser Datenstruktur zuständig. Es bietet dem DRM

2 PROBLEMANALYSE

und dem Client Schnittstellen für den Zugriff auf die Repräsentation. Das DRM
muss zur Erstellung und Aktualisierung der Repräsentation mit dem URM kom-
munizieren. Der Client muss auf die Repräsentation zugreifen können, damit der
Benutzer in der Repräsentation seiner Informationen navigieren, suchen und diese
strukturieren kann. Abbildung 2 zeigt alle Module der MIDMAY Homebase und
veranschaulicht, welche Funktionen die Module DRM und URM erfüllen müssen.
Die Anforderungen an Data Retrieval Module“ und Unified Representation Mo-
                        ”                            ”
dule“ sollen in dieser Diplomarbeit ermittelt und in einem demonstrationsfähigen
Prototyp in der Programmiersprache Java umgesetzt werden.

                           Client
                                  Informationen suchen
                                     und auswählen

                    Unified Representation           ID Management         Context Awareness
         Homebase

                            Module                       Module                 Module
                             (URM)                       (IDM)                   (CAM)     

                        Data Retrieval             Security Assertion         Data Transfer
                           Module                       Module                   Module
                            (DRM)                        (SAM)                   (DTM)

                                         Indizierung von                Austausch von
                                          Informationen                 Informationen

                                                                               Homebase

                      Verteilte Datenquellen

                                      Abbildung 2: MIDMAY Module

2. Problemanalyse
Innerhalb MIDMAY ist die Hauptaufgabe der einheitlichen Repräsentation, den
Benutzer beim Auffinden und Verwalten seiner verteilt gespeicherter Informations-
objekte zu unterstützen. Es wird im folgenden beschrieben, wie die Benutzung der
Repräsentation aussehen soll, um daraus Anforderungen an ein System zur Erstel-
lung, Verarbeitung und Bereitstellung der Repräsentation herzuleiten. Abschließend

                                                           4

2 PROBLEMANALYSE

werden bereits bestehende Ansätze für den einheitlichen Zugriff auf heterogene Da-
tenquellen betrachtet und bezüglich der aufgestellten Anforderungen bewertet.

2.1. Benutzung der Repräsentation

Zur Verwaltung- und Verteilung der gespeicherten Informationen sollen im
MIDMAY-Konzept mobile Geräte wie Smartphones, PDAs oder Notebooks zum
Einsatz kommen. Diese Geräte verwenden kabellose Kommunikationsverbindungen,
um auf die Repräsentation der Informationen zuzugreifen. Um eine größtmögliche
Verfügbarkeit der Repräsentation für den Benutzer zu ermöglichen, ist die Zu-
griffsmöglichkeit über stationäre öffentliche Internet-PCs ebenfalls sinnvoll. Sobald
sich der Benutzer bei seiner Homebase angemeldet und authentifiziert hat, kann
er mit der Repräsentation seiner verteilt gespeicherten Informationen arbeiten. Er
kann nun Funktionen zum Auffinden und zur Verwaltung seiner Informationsobjekte
nutzen.

2.1.1. Finden von Informationsobjekten

Für die Suche nach Informationen auf einer entfernten Datenquelle ist der Benutzer
auf die Funktionen angewiesen, die ihm das jeweilige Protokoll oder das Client-
Programm anbietet. Die Repräsentation der Informationsobjekte seiner verteilten
Datenquellen ermöglicht dagegen eine Suche, die unabhängig von Datenquelle, Pro-
tokoll und Client ist.
Angenommen der Benutzer möchte ein Dokument X versenden, das die Projekt-
planung des Projekts P enthält. Falls er den Speicherort von X (z. B. einen
FTP-Fileserver) kennt, kann er diese Datenquelle auswählen und wie in einem
Dateisystem-Browser zu dem entsprechenden Verzeichnis navigieren. Ist der Spei-
cherort von X unbekannt aber der Name (oder ein Teil des Namens) bekannt, kann
er eine Volltextsuche innerhalb der Repräsentation ausführen und so das Doku-
ment über alle repräsentierten Datenquellen hinweg suchen. Weiß der Benutzer den
Namen nicht, kann ihm die Angabe verschiedener Metainformationen oder Eigen-
schaften des Informationsobjekts helfen. Der Benutzer könnte z. B. wissen, dass das
gesuchte Dokument im PDF Format vorliegt und dass es in einem bestimmten Zeit-
raum gespeichert wurde (nämlich in dem Zeitraum, in dem Projekt P geplant wurde)
und sich alle passenden Informationsobjekte anzeigen lassen. Es könnte auch sein,
dass das Projekt P selbst in der Repräsentation repräsentiert ist. Dann kann der
Benutzer das Projekt P auswählen, um zu allen Dokumenten zu gelangen die mit
Projekt P in Zusammenhang stehen. Dafür muss zuvor das Projekt P selbst in die
Repräsentation aufgenommen, und eine Verbindung zwischen P und den zugehöri-
gen Informationsobjekten hergestellt worden sein. Damit solche Erweiterungen in

2 PROBLEMANALYSE

der Repräsentation vorgenommen werden können, sollten Verwaltungsfunktionen
zur Verfügung gestellt werden.

2.1.2. Verwalten der Informationsobjekte und ihrer Repräsentation

Das Verwalten von Informationen erfolgt auf zwei unterschiedlichen Ebenen: Zum
einen werden empfangene Informationsobjekte an einem passenden Ort abgelegt.
Zum anderen kann die Repräsentation dieser Informationsobjekte erweitert und
strukturiert werden. Die Verwaltung auf diesen beiden Ebenen kann wiederum
durch zwei unterschiedliche Akteure erfolgen, durch den Benutzer und durch weitere
Software-Module.
Der Benutzer hat das Ziel seine Informationsobjekte logisch so abzulegen, dass er
sie möglichst leicht wiederfindet. Dabei muss er sich jedoch für einen Ablageort ent-
scheiden, wenn er die Information nicht redundant abspeichern will. Er kann so nur
eine eindimensional Einordnung der Information vornehmen. In der Repräsentation
der Informationsobjekte kann dagegen ein einzelnes Informationsobjekt zugleich in
verschiedene logische Strukturen eingeordnet werden, je nach dem aus welcher Sicht
es betrachtet wird. In obigem Beispiel könnte Dokument X einmal als Dokument
                                                                           ”
des Projekts P“ eingeordnet werden, aber ebenso als Dokument in Bearbeitung“
                                                          ”
und als Dokument von Autor A“. Der Benutzer benötigt die Möglichkeit, die Re-
         ”
präsentation um eigene Konzepte zu erweitern und ihr eine Struktur zu geben, die
ihm das Auffinden seiner Informationen erleichtert.
Die Aufgabe Informationsobjekte einzuordnen sollte soweit möglich durch Software-
Module unterstützt werden. Dass ein Dokument von Autor A bearbeitet wird, könnte
z. B. innerhalb des Dokuments als Metainformation gespeichert sein, so dass dieses
Dokument automatisch als Dokument von Autor A“ klassifiziert werden kann. In
                            ”
anderen Fällen, in denen eine vollautomatische Einordnung zu unzuverlässig wäre,
könnten zumindest Vorschläge für den Benutzer generiert werden. Das MIDMAY-
Konzept sieht auch ein Kontext-Modul vor, das Kontextinformationen bereitstellt,
die zusammen mit den Informationsobjekten versendet werden. Die Kontextinfor-
mationen können dann beim Empfänger dazu benutzt werden, automatisch zu be-
stimmen, an welchem Ort das Informationsobjekt abgespeichert und wie es in die
Repräsentation eingeordnet werden soll.

2.2. Anforderungen

In Abschnitt 1.2 wurden Umfang und Aufgaben der MIDMAY-Module URM und
DRM bereits kurz dargestellt. Im vorhergehenden Abschnitt wurde näher auf die
Benutzung der Repräsentation eingegangen. In diesem Abschnitt werden die bereits

                                          6

2 PROBLEMANALYSE

beschriebenen Funktionen und Eigenschaften in konkrete Anforderungen an ein Sys-
tem zur Erstellung, Verarbeitung und Bereitstellung der Repräsentation gefasst.

2.2.1. Funktionale Anforderungen

  1. Erstellung
       a) Indizierung
          Die Informationen unterschiedlicher verteilter Datenquellen sollen indi-
          ziert werden
          Informationen darüber, welche Informationsobjekte mit welchen Eigen-
          schaften auf einer Datenquelle vorliegen, sollen in die Repräsentation
          übertragen werden. Falls die Informationsobjekte als Container für wei-
          tere Informationsobjekte dienen, wie es z. B. bei einer E-Mail mit Datei-
          anhängen der Fall ist, sollen auch diese untergeordneten Informationsob-
          jekte mit in die Repräsentation aufgenommen werden.
          Das System zur Erstellung der Repräsentation soll um beliebige Arten von
          persönlichen Datenquellen erweiterbar sein. Mit persönlichen Datenquel-
          len sind solche gemeint, auf denen persönliche Dokumente, Nachrichten
          und Informationen gespeichert sind und die nur für einen beschränkten
          Nutzerkreis zugänglich sind.
       b) Repräsentation von Metainformationen
          Zu den Informationsobjekten sollen Metainformationen in der Repräsen-
          tation gespeichert werden
          Bei der Abbildung eines Informationsobjekts in die Repräsentation sol-
          len verschiedene Eigenschaften des Informationsobjekts extrahiert und
          repräsentiert werden. Solche Eigenschaften können z. B. der Typ, der Au-
          tor oder das Erstellungsdatum eines Informationsobjekts sein. Andere In-
          formationen, die in irgendeiner Weise in Bezug zum Informationsobjekt
          stehen, sollen ebenfalls als Metainformation repräsentiert werden können.
          Darunter fallen z. B. Informationen über den Kontext, in dem ein Infor-
          mationsobjekt versendet wurde oder Informationen, welche Dokumente
          projektbezogen zusammengehören (siehe 2.1.2)). Solche zu repräsentie-
          renden Metainformationen können sowohl vom Benutzer erstellt als auch
          von Software-Modulen generiert werden.
       c) Einheitliche Repräsentation
          Bei der Repräsentation von Informationsobjekten und Metainformatio-
          nen sollen, soweit möglich, gemeinsame einheitliche Typen verwendet
          werden
          Bestimmte Eigenschaftstypen, wie Autor oder Erstellungsdatum, können
          zur Beschreibung von Informationsobjekten unterschiedlicher Datenquel-

                                         7

2 PROBLEMANALYSE

       len dienen. Innerhalb der Repräsentation sollten daher solche Typen zur
       Angabe von Metainformationen einheitlich definiert und genutzt werden.
       So können die Informationsobjekte unabhängig von ihrer Datenquelle an-
       hand ihrer Metainformationen betrachtet werden.
2. Zugriff
    a) Geräteunabhängiger Zugriff
       Die Anzeige und Bearbeitung der Repräsentation soll auf Geräten mit
       unterschiedlichen Eingabe- und Darstellungsmöglichkeiten möglich sein
       Der Zugriff auf die Repräsentation soll unabhängig von den Möglich-
       keiten des verwendeten Gerät erfolgen können. Nicht nur PCs sollen
       für die Informationssuche, Auswahl und Verwaltung verwendet werden
       können, sondern auch Geräte mit kleinen Displays oder beschränkten Ein-
       gabemöglichkeiten wie Handys oder PDAs. Die Client-Schnittstelle muss
       also den Abruf von Information und die Navigation in der Repräsentation
       für verschiedene Geräte ermöglichen. Client-Implementierungen müssen
       dabei nicht immer alle Funktionen der Client-Schnittstelle nutzen. Be-
       stimmte Grundfunktionen zum Auffinden von Objekten sollten mit je-
       dem Gerät ausführbar sein. Weitere Funktionen, wie z. B. das in Anfor-
       derung 3c beschriebene Strukturieren der Repräsentation, können je nach
       Möglichkeiten des jeweiligen Endgeräts angeboten werden.
    b) Mobiler Zugriff
       Der Zugriff auf die Repräsentation soll ortsunabhängig und mit mobilen
       Geräten möglich sein
       Das in Abschnitt 1.1.2 beschriebenen Szenario geht davon aus, dass ein
       Zugriff gerade dann möglich ist, wenn der Benutzer sich in einer frem-
       den Umgebung befindet und Informationen mit einer zuvor unbekannten
       Person austauschen möchte. Der Benutzer sollte also unabhängig vom
       Standort möglichst jederzeit in der Lage sein auf die Repräsentation zu-
       zugreifen. Um dieser Anforderung gerecht zu werden, müssen die Daten
       vom mobilen Endgerät mit einer kabelloser Kommunikationsverbindung
       übertragen werden können. Da bei mobilen kabellosen Kommunikations-
       verbindungen meistens geringere Übertragungsgeschwindigkeiten möglich
       sind als bei stationär vernetzten PCs, ergibt sich hieraus auch die An-
       forderung, die übertragenen Daten möglichst gering zu halten oder zu
       komprimieren.
3. Benutzung
    a) Datenquellen übergreifende Suche
       Die Suche nach einem Informationsobjekt soll ohne Angabe seiner Da-
       tenquelle möglich sein
       Wenn der Benutzer eine bestimmte Information, z. B. eine Datei sucht,

                                      8

2 PROBLEMANALYSE

         wird von ihm nicht verlangt die Datenquelle zu kennen, auf der die Infor-
         mation vorhanden ist. Stattdessen kann er in der Repräsentation über al-
         le Datenquellen hinweg z. B. nach dem Namen eines Informationsobjekts
         suchen. Weitere von den Datenquellen unabhängige Suchmöglichkeiten
         werden in Anforderung 3b beschrieben.
      b) Suche über Metainformationen
         Ein Informationsobjekt soll durch die Angabe von Metainformationen auf-
         gefunden werden können
         Nach Anforderung 1b sind in der Repräsentation die Eigenschaften ei-
         nes Informationsobjekts als Metainformationen gespeichert. Der Benut-
         zer soll die Möglichkeit haben ein Informationsobjekt zu finden, indem
         er eine oder mehrere Eigenschaften des gesuchten Objekts angibt, so wie
         es in Abschnitt 2.1.1 beschrieben ist. Ihm werden dann als Ergebnis alle
         Informationsobjekte präsentiert, die diese Eigenschaften besitzen.
      c) Strukturierung der Repräsentation
         Der Benutzer soll der Repräsentation Informationen hinzufügen und sie
         strukturieren können
         Das Hinzufügen von Informationen ermöglicht dem Benutzer, seine eige-
         nen gedachten Konzepte in die Repräsentation zu integrieren (siehe Ab-
         schnitt 2.1.2) und Metainformationen zu den Informationsobjekten an-
         zugeben (vergleiche Anforderung 1b). In der Repräsentation kann er Ver-
         bindungen zwischen den Informationsobjekten und seinen hinzugefügten
         Konzepten erstellen, die ihm ein späteres Auffinden der so eingeordneten
         Informationsobjekte erleichtern.

2.2.2. Nicht-Funktionale Anforderungen

  4. Benutztbarkeit
      a) Aktualität
         Es soll ein möglichst aktueller Stand der Datenquellen repräsentiert wer-
         den
         Der Benutzer soll auch erst kürzlich empfangene oder erstellte Informatio-
         nen in der Repräsentation auswählen können. Dazu muss die Repräsen-
         tation zum Zeitpunkt des Zugriffs den aktuellen Stand der Datenquellen
         repräsentieren. Eine Repräsentation, die zu jedem Zeitpunkt den vorhan-
         denen Informationen entspricht, ist jedoch nicht möglich, da für das Er-
         kennen von Veränderungen auf den Datenquellen und für die Abbildung
         der Informationen in die Repräsentation Zeit benötigt wird. Es kann also
         nicht garantiert werden, dass immer alle Informationen der Datenquellen
         in der Repräsentation vorhanden sind.

                                        9

2 PROBLEMANALYSE

    b) Kurze Antwortzeit
       Operationen auf der Repräsentation sollen in angemessener Zeit ein Er-
       gebnis liefern
       Damit der MIDMAY-Client auf Aktionen des Benutzers reagieren kann,
       benötigt er möglichst schnell bestimmte Daten der Repräsentation. Die
       Antwortzeit von der Anfrage bis zum Ergebnis hängt dabei nicht nur
       von der Geschwindigkeit ab, mit der das Repräsentations-Modul die ge-
       suchten Daten findet. Insbesondere bei mobilen Clients spielt die Men-
       ge der übertragenen Daten auch eine Rolle. Die Schnittstelle des Re-
       präsentations-Moduls zum Client sollte daher so gestaltet werden, dass
       der Client gezielt auf bestimmte Ausschnitte der Repräsentation zugreifen
       kann. Der Client hat dann die Möglichkeit, Daten nur dann anzufordern,
       wenn sie vom Benutzer jetzt oder wahrscheinlich in Zukunft benötigt
       werden.
5. Sicherheit
    a) Sichere Kommunikation
       Der Datenaustausch zwischen Client und dem URM der MIDMAY-
       Homebase sowie zwischen Datenquellen und dem DRM soll über einen
       sicheren Kommunikationskanal ablaufen
       Die Daten, welche der Benutzer über seinen Client anfordert, sollen nicht
       von Dritten eingesehen oder verändert werden können. Damit sie nicht
       eingesehen werden können, ist ein verschlüsselter Kommunikationskanal
       nötig. Um die Verfälschung der Daten durch einen Dritten zu verhindern,
       müssen sich Client und MIDMAY-Homebase gegenseitig authentifizieren.
    b) Schutz der Repräsentations-Daten
       Die Daten der Repräsentation sollen vor unberechtigtem Zugriff und vor
       Manipulation geschützt sein
       Die Repräsentations-Daten müssen so abgespeichert werden, dass sie
       nur über die Schnittstellen des URM zugänglich sind. Das URM besitzt
       Schnittstellen in zwei Richtungen: Einmal zum Client hin, für den Zugriff
       durch den Benutzer, und zum anderen für weitere MIDMAY Software-
       Module, die Informationen der Repräsentation erstellen oder nutzen. Wei-
       terhin muss durch Authentifizierung- und Autorisierungsmechanismen si-
       chergestellt werden, dass über diese Schnittstellen keine unberechtigten
       Benutzer bzw. Software-Module auf die Repräsentation zugreifen.
    c) Schutz der Zugangsdaten
       Schutz der Zugangsdaten des Benutzers vor unberechtigtem Zugriff
       Um die Informationen der verteilten Datenquellen abzurufen und sie in
       die Repräsentation abzubilden zu können, werden die Zugangsdaten der
       Datenquellen benötigt. Die Repräsentation muss regelmäßig und automa-
       tisch aktualisiert werden um immer den aktuellen Stand zu repräsentieren

                                     10

2 PROBLEMANALYSE

          (Anforderung 4a). Deshalb müssen die Zugangsdaten der Datenquellen
          auf der MIDMAY-Homebase hinterlegt sein. Weil diese Daten den Zu-
          griff auf beliebige Informationen des Benutzers ermöglichen, müssen sie
          vor unberechtigtem Zugriff geschützt werden. Nur MIDMAY Software-
          Module sollen auf die Zugangsdaten zugreifen dürfen, und die Zugangs-
          daten dürfen die MIDMAY-Homebase ausschließlich zum Zweck der An-
          meldung bei einer Datenquelle verlassen.

2.3. Aktuelle Ansätze

Um eine mobile Informationsverteilung und -verwaltung zu realisieren, benötigt
MIDMAY Funktionen, die teilweise auch von anderen Software-Produkten ange-
boten werden. Insbesondere die Funktionen über verschiedene Datenquellen hinweg
Informationen zu indizieren und einheitlich zu repräsentieren (Anforderungen 1a,
1b und 1c), werden in vielen Informationssystemen benötigt. In diesem Abschnitt
werden drei verschiedene Ansätze zur Erfassung und Bereitstellung von Informa-
tionen vorgestellt. Zu den betrachteten Ansätzen gehören Suchmaschinen, Systeme
zur Verwaltung von Informationen (Content Management Systeme) und System zur
Verwaltung von Wissen“ (Knowledge Management Systeme). Suchmaschinen sind
                  ”
darauf spezialisiert Informationen innerhalb großer Datenmengen zu finden. Content
Management Systeme verwalten Informationen, indem sie Funktionen zur Erfas-
sung, Überarbeitung und Veröffentlichung der Informationen bieten. In Knowledge
Management Systemen wird das Wissen eines Unternehmens erfasst und verwal-
tet. Im Folgenden wird untersucht, welche Funktionen und Vorgehensweisen dieser
drei Ansätze sich auch in MIDMAY wiederfinden und wo sich MIDMAY von den
existierenden Software-Produkten unterscheidet.

2.3.1. Suchmaschinen

Suchmaschinen werden zur Suche nach Informationen in großen Datenmengen ver-
wendet. Suchmaschinen müssen dazu die vorliegenden Informationen indexieren. Sie
bauen eine Datenstruktur auf, die dabei hilft den Ort einer Ressource anhand der
Eigenschaften einer Information zu bestimmen. Bei den Informationen kann es sich
um strukturierte Informationen handeln, beispielsweise um Produktinformationen
in einer Datenbank oder in einem XML-Format, oder um unstrukturierte, meist
verteilt gespeicherte Informationen, wie z. B. Webseiten und Dateien im Internet.
Auch in MIDMAY soll für die Suche in unstrukturierten verteilten Informationen
die MIDMAY-Repräsentation als Index erstellt werden. Mit Hilfe der Repräsenta-
tion soll jedoch auch visualisiert werden können, welche Informationen vorhanden
sind und wie diese durch ihre Eigenschaften zusammenhängen. Eine Suchmaschine

                                       11

2 PROBLEMANALYSE

liefert auf eine Suchanfrage nur eine Liste mit passenden, nach Relevanz geordne-
ten Informationen zurück, so dass keine Visualisierung von Zusammenhängen und
Navigation in den Informationen möglich ist.
So genannte Desktop-Suchmaschinen“ kommen dem MIDMAY Ziel den Benutzer
              ”
beim Auffinden persönlicher Informationen zu unterstützen am nächsten. Bei diesen
Suchmaschinen werden die Dateien eines PC indiziert, so dass sich der PC auf glei-
che Weise durchsuchen lässt wie das Internet mit einer Internet-Suchmaschine. Die
Google Desktop Search Software1 indiziert beispielsweise die gängigsten Dateiforma-
te und auch E-Mails. Allerdings findet die Suche nur lokal auf dem Dateisystem
statt. Andere Datenquellen könnten aber durch Plugins integriert werden. Es exis-
tiert bereits ein Plugin2 für die Integration entfernter Dateisysteme und eines, das
den entfernten Zugriff auf die lokale Desktop-Suchmaschine ermöglicht.

2.3.2. Verwaltungs-Systeme (Content Management)

Systeme zur Verwaltung von Informationen werden auch als Content Management
Systeme (CMS) bezeichnet. Unter dem Begriff Content werden inhaltlichen Infor-
mationen jeglicher Art, z. B. strukturierte Datensätze, Textdokumente oder Bilder
verstanden. Content setzt sich aus dem Inhalt und zugehörigen Meta-Informationen
zusammen. Die Meta-Informationen sind nicht unbedingt für den Nutzer sichtbar,
sondern können auch nur zur Verwaltung und Kontrolle des eigentlichen Inhalts
dienen. Die Funktionen eines Content Management Systems sind nicht einheitlich
definiert, sie sind vom Einsatzbereich des Systems abhängig. Im Internet können
z. B. Web Content Management Systeme (WCMS) eingesetzt werden, um die Inhal-
te von Webseiten zu erstellen und zu verwalten. Zur Speicherung der Inhalte kommt
meistens eine Datenbank zum Einsatz.
Im Unterschied zu MIDMAY wird durch ein Content Management System keine
Repräsentation verteilter Informationen erstellt, sondern Informationen werden in
das CMS übertragen und dort gespeichert. Das CMS hat so die Kontrolle über
die Informationen und kann Funktionen wie Versionierung, Suche, Verteilung und
Aufbereitung der Inhalte anbieten. Der Nachteil ist, dass Informationen zur Be-
arbeitung aus dem CMS geholt und nach der Bearbeitung wieder in das System
übertragen werden müssen. In MIDMAY ist es nicht nötig Informationen von ihrer
eigentlichen Datenquelle auf einen Server zu übertragen, um sie für eine Suche oder
Verteilung verfügbar zu machen. Statt der eigentlichen Inhalte werden nur die Meta-
Informationen erfasst, auf die MIDMAY Homebase übertragen und dort verwaltet.

 1
     Google Desktop Search: http://desktop.google.de/
 2
     Google Desktop Search Plugins: http://desktop.google.de/plugins.html

                                            12

3 FORMATE ZUR REPRÄSENTATION VON WISSEN

2.3.3. Knowledge Management Systeme

Mit einem Knowledge Management System (KMS) soll das gesamte in einer Organi-
sation verankerte Wissen erfasst, verwaltet und verfügbar gemacht werden. Know-
ledge Management Systeme und MIDMAY haben als gemeinsames Ziel, verteilte
Informationen verfügbar zu machen. Dafür ist die Integration verschiedener exis-
tierender Datenquellen in das System notwendig. Es ist aber auch möglich, dass
externe globale Ressourcen (das Internet) oder menschliche Ressourcen (Kollegen,
Berater) über ein KMS befragt werden können, wie es in [25] beschrieben wird. Wis-
sensmanagement mit einem KMS geht jedoch über die Versorgung der Benutzer mit
Informationen hinaus. Ein KMS muss den Benutzern auch die Möglichkeit geben,
ihre Informationen und ihr Wissen in das System einzugeben oder bestehende Infor-
mationen zu bearbeiten. Daten, Informationen, Prozesse und Fähigkeiten innerhalb
einer Organisation sollen so explizit gemacht und im KMS gespeichert werden. Der
Fokus in MIDMAY liegt auf der Strukturierung von Informationen, die außerhalb
von MIDMAY erstellt und bearbeitet werden. Das Wissen darüber, wo Informatio-
nen abgelegt sind und wie sie in Beziehung zueinander stehen, soll explizit gemacht
werden.

3. Formate zur Repräsentation von Wissen
Eine Wissensrepräsentation ist ein Platzhalter für reale Objekte, Eigenschaften oder
Ereignisse. Sie bildet die Grundlage zur intelligenten Herleitung von weiterem Wis-
sen und dient als Medium zur Kommunikation über Wissen [3]. In der natürlichen
Sprache wird Wissen informal repräsentiert, für die maschinelle Verarbeitung ist da-
gegen eine formale Darstellung notwendig. In diesem Abschnitt soll untersucht wer-
den, welches Format sich zur Repräsentation des Wissens über Inhalte und Struk-
turen von Datenquellen eignet. Ein solches Format muss einzelne Dateneinheiten
der Datenquellen und ihre Eigenschaften und Beziehungen untereinander darstellen
können. Die Dateneinheiten können unterschiedliche Informationsobjekte wie z. B.
Dateien und Ordner eines Dateisystems, aber auch Termine einer Terminverwaltung
sein.
Die meisten Menschen werden ein gemeinsames Verständnis davon haben was ein
 Termin“ ist und vielleicht auch unter dem Begriff Datei“ dasselbe verstehen. Ein
”                                                       ”
Format zur formalen Wissensrepräsentation muss sich jedoch auf Ontologien stützen,
damit eine Eindeutigkeit der verwendeten Symbole und Begriffe und so eine Wie-
derverwendung und Interoperabilität des repräsentierten Wissens möglich ist. Eine
Ontologie ist die explizite Spezifikation einer vereinfachten Sicht auf einen Ausschnitt
der Welt (Konzeptualisierung) [9]. Mit ihr wird formal festgelegt, welche abstrakten
und konkreten Objekte, Konzepte und Relationen im repräsentierten Weltausschnitt

                                          13

3 FORMATE ZUR REPRÄSENTATION VON WISSEN

existieren. Einzelne Objekte einer Wissensrepräsentation können dann mit dem fest-
gelegten Vokabular der Ontologie beschreiben werden.
Ein Format zur Wissensrepräsentation sollte sich jedoch nicht nur prinzipiell zur
Erfassung und Verarbeitung des beabsichtigten Wissensbereichs eignen, sondern es
sollten auch Werkzeuge für das Format verfügbar sein. Aus diesem Grund werden
hier die beiden standardisierten Formate Topic Maps und RDF betrachtet, für die
bereits verschiedene Verarbeitung-Werkzeuge existieren. Die Grundlagen dieser For-
mate werden erläutert, sowie Ziele und Einsatzgebiete untersucht.

3.1. Topic Maps

Topic Maps ermöglichen die Beschreibung von Wissensstrukturen und die Ver-
knüpfung dieser Wissensstrukturen mit existierenden Informationsressourcen [21].
Eine Topic Map bildet eine strukturierte Informationsschicht über diesen Informati-
onsressourcen, die dadurch mit weiteren Informationen angereichert werden können.
Topic Maps als Format zur Beschreibung und zum Austausch von Wissensstruktu-
ren wurden im ISO Standard 13250 [11] auf Basis von SGML standardisiert. Später
wurde die XML Topic Map Syntax XTM [27] in den ISO Standard mit aufgenom-
men. Zwischen dem Austauschformat der ursprünglichen ISO Spezifikation und der
XTM Syntax von Topic Maps gibt es leichte Unterschiede, so dass noch nicht geklärt
ist, wie sich die beiden Formate aufeinander abbilden lassen [12]. Zur Zeit wird an
einem formalen Topic Map Daten-Modell gearbeitet, welches als Referenz-Modell
zur Einbindung verschiedener Syntax-Definitionen dienen soll [13].
Gegenwärtig ist die XTM Spezifikation [27] der aktuellste gültige Standard und
durch die Verwendung von XML als Austauschformat auch einfacher anzuwenden.
Deshalb bezieht sich die folgende Beschreibung der Topic-Map-Konzepte, soweit
nicht anders angegeben, auf diese Spezifikation.
In den nächsten Abschnitten werden die wesentlichen Bestandteile einer Topic Map
beschrieben: Topics (Themen), Occurrences (Vorkommensangaben) und Associa-
tions (Assoziationen). Als weitere wichtige Konzepte werden Subject Identity und
Scope vorgestellt. Um Topic Map Bestandteile und Strukturen zu veranschaulichen,
wird auf eine in [1] beschriebene UML basierte Notation für Topic Maps zurückge-
griffen.

3.1.1. Topics

In einer Topic Map wird jedes Ding, ob Objekt, Begriff oder Idee, als Topic repräsen-
tiert. Im Topic-Map-Standard werden die Dinge der realen Welt, für die ein Topic
steht, Subjects genannt. Topics (als Repräsentanten) und Subjects (als repräsentierte

                                          14

3 FORMATE ZUR REPRÄSENTATION VON WISSEN

Objekte) sollten möglichst in einer Eins-zu-Eins Beziehung stehen, um Redundanzen
und Widersprüche in der Repräsentation zu vermeiden.
Ein Topic wird durch drei Eigenschaften charakterisiert: Namen, Occurrences (Vor-
kommensangaben) und Rollen in den Assoziationen. Als Namen kann ein Topic
verschiedene Basenames und Variantnames besitzen (siehe Abbildung 3). Ein Ba-
sename ist ein Name in Form einer Zeichenkette, während ein Variantname eine
Ressource referenziert und deshalb eine beliebige andere Form haben kann. Ein Va-
riantname gibt eine alternative Form des Basename an, und legt mit einem oder
mehreren Topics als Parameter den Verarbeitungskontext fest, in dem der Variant-
name verwendet werden soll. Als Parameter für das Anzeigen bzw. Sortieren eines
Topics sind bereits die Topics Display und Sort definiert.

                «Topic»                 «Base Name»
                              1   *
                                      Base Name String
                              1

                   1                       «Variant»           «Parameter»
                                  *                      1 *
                    *                 Variant Name
              «Occurence»

Abbildung 3: Zusammenhang zwischen Topic, Basename, Variantname und Occur-
             rence

Die beiden Topic-Eigenschaften Ocurrences und Rollen werden in den nächsten zwei
Abschnitten erläutert.

3.1.2. Occurrences

Durch Vorkommensangaben werden Topics mit Ressourcen verbunden, die relevante
Informationen zu diesem Topic enthalten. Dies sind z. B. nähere Beschreibungen,
Dokumente oder Bilder, die etwas über das Subject aussagen, welches das Topic
repräsentiert. Die Ressourcen müssen nicht in der Topic-Map selbst vorhanden sein,
sondern es können unterschiedliche externe Quellen referenziert werden. In XTM
wird eine Vorkommensangabe durch einen URI referenziert. Die Topic-Map bildet
durch diese Möglichkeit der Referenzierung eine strukturierte Informationsschicht
über den unzusammenhängenden referenzierten Ressourcen.

3.1.3. Associations

Eine Beziehung zwischen zwei oder mehreren Topics wird durch eine Assoziation
beschrieben. Eine Assoziation ist eine ungerichtete Relation auf den Topics. In der

                                          15

3 FORMATE ZUR REPRÄSENTATION VON WISSEN

Assoziation werden die teilnehmenden Topics definiert und die jeweilige Rolle, die
sie in der Assoziation spielen. Im Standard bereits definiert sind die superclass-
subclass und die class-instance Assoziation mit zugehörigen Rollen. Die superclass-
subclass Assoziation kann verwendet werden um Klassenhierarchien zu definieren.
Abbildung 4 zeigt auf der linken Seite ein Beispiel einer solchen Assoziation und
auf der rechten Seite die Darstellung des gleichen Sachverhalts in UML. Das Topic
 Adresse“ nimmt hier in der Rolle superclass in der Beziehung teil, das Topic E-
”                                                                               ”
Mail Adresse“ in der Rolle subclass. Durch die Assoziation wird beschrieben, dass
 Adresse“ eine Generalisierung des Topics E-Mail Adresse“ ist, bzw. dass E-Mail
”                                          ”                                ”
Adresse“ eine Spezialisierung des Topics Adresse“ ist.
                                         ”

                                                                               Adresse

                              supeclass-subclass

        Adresse       superclass                           E-Mail Adresse   E-Mail Adresse
                                                subclass

Abbildung 4: Eine superclass-subclass Assoziation (links) und die entsprechende
             UML Beschreibung (rechts)

Die class-instance Assoziation wird verwendet um Topics als Instanzen anderer To-
pics zu deklarieren. Abbildung 5 zeigt eine class-instance Assoziation die beschreibt,
dass alice@xyz.com“ eine Instanz des Topics E-Mail Adresse“ ist.
      ”                                         ”

                                                                            E-Mail Adresse

                               class-instance                               «instanceOf»

     E-Mail Adresse                                        alice@xyz.com    alice@xyz.com
                      class                     instance

Abbildung 5: Eine class-instance Assoziation (links) und die Beschreibung in UML
             (rechts)

Rollen wie class, instance, superclass und subclass sind selbst Topics der Topic Map.
Jedes Topic kann als Rolle für Topics in Assoziationen oder als Typ für andere
Topics oder Assoziationen verwendet werden. Durch dieses Konzept können Topic-
und Assoziationstypen und deren Bedeutung frei definiert werden.
Die Topic-Map-Spezifikation lässt allerdings offen, wie Assoziations-Eigenschaften
oder Bedingungen für Assoziationen definiert werden. Die Eigenschaften einer As-
soziationen wie Transitivität, Reflexivität oder Symmetrie ermöglichen zusammen

                                                      16

3 FORMATE ZUR REPRÄSENTATION VON WISSEN

mit Inferenzregeln das automatische Herleiten von weiterem impliziten Wissen aus
einer Topic Map oder auch eine Konsistenzprüfung der repräsentierten Aussagen.
Bedingungen für Assoziationen, z. B. wieviele Topics in welchen Rollen teilnehmen
dürfen, ermöglichen die Validation einer Topic Map gegen die festgelegten Bedin-
gungen. Auch wenn die notwendigen Konzepte für Inferenz, Konsistenzprüfung oder
Validation der Inhalte einer Topic Map nicht von vornherein im Standard spezifiziert
sind, bieten Topic Maps die Möglichkeit diese Konzepte selbst als Topics innerhalb
einer Topic Map zu definieren und für die entsprechenden Zwecke anzuwenden [24].

3.1.4. Scope

Aussagen über ein Topic werden durch die bereits beschriebenen Topic-Eigenschaf-
ten (Namen, Vorkommensangaben und Rollen in Assoziationen) gemacht. Diese Aus-
sagen müssen jedoch nicht universell gültig sein, sondern können mit der Angabe
eines Scope auf einen bestimmten Gültigkeitsbereich beschränkt werden. So kann
z. B. angegeben werden, dass ein Topic-Name nur im Kontext einer bestimmten
Sprache gültig ist oder eine Assoziation nur eine einzelne Meinung repräsentiert, die
nicht von allen geteilt wird. Der Scope (Gültigkeitsbereich) einer Topic-Eigenschaft
kann durch die Angabe einer Menge von Scoping-Topics festgelegt werden. Die Ver-
einigung dieser Topics bestimmt den Kontext, in dem die Topic-Eigenschaften gültig
ist. Ohne diese Angabe liegt eine Topic-Eigenschaft im Unconstrained Scope und ist
damit immer gültig. Es gibt jedoch keine weiteren Vorgaben, wie die Scope-Angabe
bei der Verarbeitung einer Topic Map verwendet werden soll. Insbesondere für die
Herleitung der Gültigkeit einer Topic-Eigenschaft bei gegebenem Kontext gibt es
verschiedene Möglichkeiten, die in [23] betrachtet werden.
Bei Topic-Basenames legt ein angegebener Scope nicht nur den Gültigkeitsbereich
des Namens fest, sondern definiert auch einen Namensraum. Es gilt das so genann-
te Topic Naming Constraint: Es darf keine zwei Topics in einer Topic Map geben,
die den selben Basename im selben Scope besitzen. Falls das doch der Fall ist,
repräsentieren die beiden Topics das selbe Subject und müssen zu einem Topic ver-
einigt werden. Das resultierende Topic besitzt die Eigenschaften beider Topics, also
alle Namen, Vorkommensangaben und Rollen in Assoziationen, welche die beiden
Topics charakterisieren.
Unter Topic Map Experten ist jedoch umstritten, ob das Topic Naming Constraint
sinnvoll ist [5], da es in jedem Fall Scope-Angaben für Topics erzwingt, um Na-
men eindeutig zu halten. In der realen Welt sind eindeutige Namen jedoch eher
die Ausnahme3 . Im neusten Topic Map Draft des ISO Komitees [13] wird deswegen

3
Um z. B. ein Telefonbuch zu repräsentieren, könnten die eingetragenen Personen durch eine As-
soziation mit ihrer Telefonnummer verknüpft werden. Die Namen in einem Telefonbuch sind
aber nicht eindeutig und die Telefonnummer müsste deshalb im Scope für den Namen einer Per-

3 FORMATE ZUR REPRÄSENTATION VON WISSEN

die Eindeutigkeit der Namen nicht mehr vorgeschrieben. Stattdessen werden Name-
Typen eingeführt, mit denen unter anderem auch die Eindeutigkeit eines Basename
auf Wunsch definiert werden kann.

3.1.5. Subject Identity

Topics sind Stellvertreter für Dinge innerhalb und außerhalb der Topic Map. Deshalb
können in unterschiedlichen Topic Maps verschiedene Topics das gleiche Subject der
realen Welt repräsentieren. Wenn das Wissen zweier Topic-Maps vereinigt werden
soll, ist es sinnvoll für jedes Topic wieder eine Eins-zu-Eins Beziehung zwischen Topic
und Subject herzustellen, um einen einzigen Zugriffspunkt auf das Wissen über ein
Subject zu haben.
Das Konzept der Subject Identity ermöglicht es festzustellen, ob zwei Topics das selbe
Subject repräsentieren. Wenn das der Fall ist, können die Eigenschaften der beiden
Topics vereinigt werden. Die Identität eines Subjects kann auf zwei verschiedene Ar-
ten definiert werden. Wenn eine elektronische Ressource repräsentiert werden soll,
kann einfach deren URL als Subject Address verwendet werden. Topics, welche die
gleiche Subject Address besitzen, repräsentieren das selbe Subject. Für andere Ob-
jekte oder gedachte Begriffe ist es jedoch notwendig eine URI-Adresse zur indirekten
Identifikation des Subjects zu definieren. Eine solche Adresse wird als Subject Identi-
fier bezeichnet, die Informationsressource auf die sie zeigt als Subject Indicator. Die
Subject Identifier Adresse wird vom Computer fast auf die gleiche Weise verwen-
det wie die Subject Address eines direkt adressierbaren Subjects. Haben zwei Topics
einen Subject Identifier gemeinsam, repräsentieren sie das selbe Subject. Der Subject
Indicator wird nicht vom Computer verwendet, sondern vom Menschen. Die Infor-
mationsressource weist Menschen darauf hin (engl.: to indicate) um welches Subject
es sich handelt. Werden Subject Identifiers und Subject Indicators explizit für die
Identifikation von Subjects definiert und erstellt, wird von Published Subject Iden-
tifiers (PSIDs) und Published Subject Indicators (PSIs) gesprochen. Die Definition
von PSIDs und PSIs geschieht nicht zentral, sondern als offener verteilter Prozess.
Jeder kann PSIs verwenden oder eigene definieren, wobei er sich an Empfehlungen
des OASIS Published Subjects Komitees zur Erstellung von PSIs [19] orientieren
kann.

3.2. RDF

Das Ressource Description Framework (RDF) wurde entwickelt, um der Vision des
Semantic Web [2] näher zu kommen, indem es die Strukturierung und Beschrei-

son benutzt werden. Dann enthält die Topic Map aber redundante Information, die konsistent
gehalten werden muss.

3 FORMATE ZUR REPRÄSENTATION VON WISSEN

bung von Ressourcen im World Wide Web ermöglicht. Es können verschiedene Vo-
kabularien für die Beschreibung von Ressourcen bestimmter Anwendungsdomänen
definiert werden. Mit RDF und darauf aufbauenden Ontologiesprachen wie OWL
kann der Kontext von Ressourcen explizit beschrieben werden, so dass sie durch
den Computer besser interpretiert werden können. Zur RDF-Spezifikation gehört
ein Datenmodell mit einer XML-Syntax [30] sowie eine Syntax zur Definition von
Vokabularien (RDFS [29]).

3.2.1. RDF Konzepte

Das RDF Datenmodell besteht aus den Kernkonzepten Ressource, Property und
Statement. Jedes Ding, das beschrieben werden kann, wird in der RDF-Spezifikation
als Ressource bezeichnet. Im Topic-Map-Standard wird statt Ressource“ der Begriff
                                                             ”
 Subject“ verwendet. Die beschriebenen Dinge werden in RDF, durch einen RDF-
”
Knoten (Node) repräsentiert und durch einen URI identifiziert. Um die Eigenschaft
einer Ressource zu beschreiben, werden so genannte RDF-Properties als Prädikate
auf der Ressource benutzt. Mit einer RDF-Property kann eine gerichtete Eigen-
schaftsbeziehung zwischen zwei Ressourcen, dem Subjekt und dem Objekt herge-
stellt werden. Das Tripel aus Subjekt, Prädikat und Objekt wird als RDF-Statement
(Aussage) bezeichnet. Abbildung 6 zeigt ein RDF-Statement in Graphensyntax-
Notation.

                      Subject                             Objekt
                                           Prädikat

                                           authoredBy
                http://articles/xyz.html                http://alice.net

                   Abbildung 6: Beispiel für ein RDF-Statement

Ebenso wie in Topic Maps ist es möglich Aussagen über Aussagen zu machen. Dazu
wird ein RDF-Statement wieder als Ressource betrachtet werden und kann so in
einem weiteren RDF-Statement verwendet werden.

3.2.2. RDF-Schema

Ein RDF-Schema (RDFS) enthält Aussagen, um die Konzepte einer bestimmten An-
wendungsdomäne zu definieren. Dazu werden unter anderem RDF-Klassen verwen-
det. Als RDF-Klassen werden die Ressourcen innerhalb eines Schemas bezeichnet,

                                             19

3 FORMATE ZUR REPRÄSENTATION VON WISSEN

von denen in einer RDF-Beschreibung Instanzen gebildet werden können. Sie die-
nen also der Typisierung von RDF-Ressourcen. Außerdem kann für eine RDF-Klasse
festgelegt werden, welche Arten von Eigenschaften die Instanz dieser Klasse besitzen
kann. Weiterhin können Klassen- und Eigenschaftshierarchien definiert werden, um
Spezialisierungsbeziehungen zu modellieren.
RDF-Schemata können erweitert und miteinander kombiniert werden. Durch die
Verwendung bereits vorhandener RDF-Schemata soll die Interoperabilität von RDF-
Ressourcenbeschreibungen im Web verbessert werden. Eine RDF-Beschreibung kann
unterschiedliche RDF-Schemata nebeneinander verwenden. Wenn ein RDF-Schema
verwendet werden soll, wird es durch eine URI referenziert. Die XML-Syntax von
RDF erlaubt es, den Namen einer RDF-Klasse im XML-Tag zu verwenden, um eine
Instanz dieser Klasse zu erzeugen (Abbildung 7 zeigt das Statement aus Abbildung 6
in XML-Syntax). Dadurch ist die Menge der XML-Tags für die XML-Syntax von
RDF nicht festgelegt, wie es bei der XML-Syntax von Topic Maps der Fall ist.

                  Abbildung 7: RDF Statement in XML Syntax

3.2.3. Web Ontology Language (OWL)

Die Web Ontology Language (OWL) ist eine formale Beschreibungssprache für On-
tologien, die auf RDF-Konzepten aufbaut. Zusätzlich definierte Sprachkonstrukte
erlauben es, Ausdrücke ähnlich der Prädikatenlogik zu formulieren. OWL soll als
Nachfolger der Ontologiesprache DAML+OIL für die Verwirklichung des Seman-
                                                                         ”
tic Web“ eingesetzt werden, und wird gegenwärtig vom W3C standardisiert [28]. In
OWL wird zwischen Klassen und Individuen als Instanzen der Klassen unterschie-
den. Individuen werden durch Eigenschaften beschrieben, wobei entweder XML-
Schema-Datentypen oder andere Individuen als Eigenschaftswerte verwendet wer-
den können. Für Klassen können verschiedene Eigenschaftsbeschränkungen festge-
legt werden, die ihre Instanzen erfüllen müssen.
OWL existiert in drei unterschiedlichen Varianten, OWL Lite, OWL DL und OWL
Full, die sich durch ihre Ausdrucksmächtigkeit unterscheiden. OWL Lite ist die
einfachste Variante, mit der die Hauptkomponenten einer Ontologie, Hierarchien zur

                                        20

3 FORMATE ZUR REPRÄSENTATION VON WISSEN

Klassifizierung von Individuen, beschrieben werden können. OWL DL4 soll möglichst
umfangreiche Beschreibungsmöglichkeiten bieten, wobei die Entscheidbarkeit jeder
Aussage jedoch garantiert bleiben soll. In OWL DL gibt es als Ergänzung zu den
hierarchischen Beziehungen zwischen Klassen weitere Typen von Beziehungen, mit
denen z. B. ausgedrückt werden kann, dass zwei Klassen disjunkt oder äquivalent
sind. OWL Full bietet die größte Ausdrucksstärke und kann mit den Möglichkeiten,
die RDF und RDFS bieten, um eigene Konzepte zur Beschreibung von Ontologien
erweitert werden.

3.3. Vergleich

RDF und Topic Maps haben viele Gemeinsamkeiten. Beides sind Technologien, die
eine formale Beschreibung verschiedener Dinge, Ressourcen, Konzepte oder Aussa-
gen ermöglichen. Die Entwicklung der beiden Technologien wurde jedoch von un-
terschiedlichen Zielen geleitet, so dass beide verschiedene Schwerpunkte für ihren
Einsatz haben. In diesem Abschnitt werden die Unterschiede der Technologien be-
trachtet, um abschließend bewerten zu können, zu welchen Vor- und Nachteilen ein
Einsatz von Topic Maps in MIDMAY führt.

3.3.1. Ziele der Technologien

Dass die beiden ähnlichen Technologien RDF und Topic Maps nebeneinander exis-
tieren, ist vor allem historisch bedingt. Zwei verschiedene Arbeitsgruppen haben
unabhängig, ohne voneinander zu wissen, begonnen ihre“ Technologie für einen be-
                                                    ”
stimmten Zweck zu entwickeln [7]. Topic Maps sind als Format für die Indizierung
von Informationsressourcen entwickelt, und von der ISO standardisiert worden. Das
Hauptziel bestand darin, ein Austauschformat für Indizes zu schaffen, dessen Daten-
modell eine Navigation“ durch die Informationen ermöglicht und die Vereinigung
             ”
verschiedener Indizes unterstützt [5]. RDF wurde vom W3C zur Unterstützung des
  Semantic Web“ entwickelt. Das Semantic Web“ ist eine Erweiterung des herkömm-
”                                 ”
lichen Webs, in der Informationen mit eindeutigen Bedeutungen versehen werden, so
dass Computer und Menschen besser zusammenarbeiten können. [2]. Ziel von RDF
ist es, ein Datenmodell für die Beschreibung von Ressourcen im World Wide Web
(WWW) anzubieten. Mit diesem Datenmodell können Ressourcen durch strukturier-
te Metadaten beschrieben werden, die als Grundlage für Interferenz-Mechanismen
dienen. Suchmaschinen oder Software-Agenten haben durch die eindeutige Beschrei-
bung bessere Möglichkeiten, für den Menschen relevante Informationen zu finden.

 4
     DL steht für Description Logics

                                         21

Sie können auch lesen