Einheitliche Repr asentation heterogener Datenquellen mit Topic Maps

Die Seite wird erstellt Emilia Weise
 
WEITER LESEN
Einheitliche Repr asentation heterogener Datenquellen mit Topic Maps
Fachbereich Informatik
     Fachgebiet Sicherheit in der Informationstechnik
Fraunhofer-Institut für Sichere Informationstechnologie SIT
                  Prof. Dr. Claudia Eckert

 Technische Universität Darmstadt

                   Diplomarbeit
 Einheitliche Repräsentation
heterogener Datenquellen mit
         Topic Maps

                   Johannes Bergmann

                       Januar 2006

                          Betreuer:
                 Prof. Dr. Claudia Eckert
                 Dipl. Inform. Jens Heider
Inhaltsverzeichnis

Inhaltsverzeichnis
1. Einleitung                                                                                                             1
   1.1. Sichere mobile Informationsverteilung     .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   1
        1.1.1. E-Mail . . . . . . . . . . . . .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   1
        1.1.2. Das MIDMAY Konzept . . .           .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   2
   1.2. Bearbeiteter Teilaspekt . . . . . . . .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   2

2. Problemanalyse                                                                                                          4
   2.1. Benutzung der Repräsentation . . . . . . . . . . . . . . . . . . . . .                                       .    5
        2.1.1. Finden von Informationsobjekten . . . . . . . . . . . . . . .                                          .    5
        2.1.2. Verwalten der Informationsobjekte und ihrer Repräsentation                                            .    6
   2.2. Anforderungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . .                                       .    6
        2.2.1. Funktionale Anforderungen . . . . . . . . . . . . . . . . . .                                          .    7
        2.2.2. Nicht-Funktionale Anforderungen . . . . . . . . . . . . . . .                                          .    9
   2.3. Aktuelle Ansätze . . . . . . . . . . . . . . . . . . . . . . . . . . . .                                     .   11
        2.3.1. Suchmaschinen . . . . . . . . . . . . . . . . . . . . . . . . .                                        .   11
        2.3.2. Verwaltungs-Systeme (Content Management) . . . . . . . .                                               .   12
        2.3.3. Knowledge Management Systeme . . . . . . . . . . . . . . .                                             .   13

3. Formate zur Repräsentation von Wissen                                                                                 13
   3.1. Topic Maps . . . . . . . . . . . . . . . . . . . . .                  . . . . . .             .   .   .   .   .   14
        3.1.1. Topics . . . . . . . . . . . . . . . . . . . .                 . . . . . .             .   .   .   .   .   14
        3.1.2. Occurrences . . . . . . . . . . . . . . . . .                  . . . . . .             .   .   .   .   .   15
        3.1.3. Associations . . . . . . . . . . . . . . . . .                 . . . . . .             .   .   .   .   .   15
        3.1.4. Scope . . . . . . . . . . . . . . . . . . . .                  . . . . . .             .   .   .   .   .   17
        3.1.5. Subject Identity . . . . . . . . . . . . . . .                 . . . . . .             .   .   .   .   .   18
   3.2. RDF . . . . . . . . . . . . . . . . . . . . . . . . .                 . . . . . .             .   .   .   .   .   18
        3.2.1. RDF Konzepte . . . . . . . . . . . . . . .                     . . . . . .             .   .   .   .   .   19
        3.2.2. RDF-Schema . . . . . . . . . . . . . . . .                     . . . . . .             .   .   .   .   .   19
        3.2.3. Web Ontology Language (OWL) . . . . .                          . . . . . .             .   .   .   .   .   20
   3.3. Vergleich . . . . . . . . . . . . . . . . . . . . . . .               . . . . . .             .   .   .   .   .   21
        3.3.1. Ziele der Technologien . . . . . . . . . . .                   . . . . . .             .   .   .   .   .   21
        3.3.2. Einordnung der Standards von Topic Maps                        und RDF                 .   .   .   .   .   22
        3.3.3. Identität . . . . . . . . . . . . . . . . . . .               . . . . . .             .   .   .   .   .   22
        3.3.4. Aussagen . . . . . . . . . . . . . . . . . .                   . . . . . .             .   .   .   .   .   23
        3.3.5. Constraint Languages . . . . . . . . . . . .                   . . . . . .             .   .   .   .   .   26
        3.3.6. Interoperabilität von Repräsentationen . .                   . . . . . .             .   .   .   .   .   28
        3.3.7. Syntax . . . . . . . . . . . . . . . . . . . .                 . . . . . .             .   .   .   .   .   28
        3.3.8. Fazit . . . . . . . . . . . . . . . . . . . . .                . . . . . .             .   .   .   .   .   29

4. Lösungsansatz                                                                   31
   4.1. Architektur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

                                           I
Inhaltsverzeichnis

        4.1.1. Komponenten . . . . . . . . . . . . . . . . . . . . . .       .   .   .   .   .   32
        4.1.2. Schnittstellen . . . . . . . . . . . . . . . . . . . . . .    .   .   .   .   .   35
   4.2. Sicherheit . . . . . . . . . . . . . . . . . . . . . . . . . . . .   .   .   .   .   .   37
        4.2.1. Authentifizierung und sichere Datenübertragung . . .         .   .   .   .   .   38
        4.2.2. Schutz der Zugangs- und Repräsentationsdaten . . .           .   .   .   .   .   38
        4.2.3. Mehrbenutzer-Aspekte . . . . . . . . . . . . . . . . .        .   .   .   .   .   38
   4.3. Darstellung und Navigation . . . . . . . . . . . . . . . . . .       .   .   .   .   .   39
        4.3.1. Visualisierung von Topic Maps als Graph . . . . . . .         .   .   .   .   .   40
        4.3.2. Visualisierung von Hierarchien . . . . . . . . . . . . .      .   .   .   .   .   42
        4.3.3. Klassifizierung von Informationen durch Facets . . .          .   .   .   .   .   42
        4.3.4. Darstellung einzelner Topics . . . . . . . . . . . . . .      .   .   .   .   .   43
   4.4. Modellierung . . . . . . . . . . . . . . . . . . . . . . . . . .     .   .   .   .   .   44
        4.4.1. Published Subjects . . . . . . . . . . . . . . . . . . .      .   .   .   .   .   44
        4.4.2. Topic Map Templates . . . . . . . . . . . . . . . . . .       .   .   .   .   .   45
        4.4.3. Patterns für Topic Maps . . . . . . . . . . . . . . . .      .   .   .   .   .   46
        4.4.4. Topic Map Modell zur Indizierung von Datenquellen             .   .   .   .   .   48
        4.4.5. Dateisysteme . . . . . . . . . . . . . . . . . . . . . .      .   .   .   .   .   49
        4.4.6. E-Mail . . . . . . . . . . . . . . . . . . . . . . . . . .    .   .   .   .   .   52
        4.4.7. Eigenschafts-Hierarchien . . . . . . . . . . . . . . . .      .   .   .   .   .   54
        4.4.8. Modellierung weiterer Datenquellen . . . . . . . . . .        .   .   .   .   .   56

5. Implementierung                                                                               58
   5.1. Topic Map APIs für Java . . . . . . . . . . . . . . . . . . . . . . .           .   .   59
        5.1.1. TMAPI . . . . . . . . . . . . . . . . . . . . . . . . . . . .             .   .   59
        5.1.2. TinyTIM . . . . . . . . . . . . . . . . . . . . . . . . . . .             .   .   59
        5.1.3. TM4J . . . . . . . . . . . . . . . . . . . . . . . . . . . . .            .   .   60
        5.1.4. Verwendete API . . . . . . . . . . . . . . . . . . . . . . . .            .   .   60
   5.2. API für Topic Map Patterns . . . . . . . . . . . . . . . . . . . . .            .   .   60
   5.3. Data Retrieval Modul . . . . . . . . . . . . . . . . . . . . . . . . .           .   .   62
        5.3.1. Zugriff auf die Datenquelle . . . . . . . . . . . . . . . . . .           .   .   62
        5.3.2. Extraktion von Metadaten . . . . . . . . . . . . . . . . . .              .   .   63
        5.3.3. Information Mapping . . . . . . . . . . . . . . . . . . . . .             .   .   64
        5.3.4. Information Object Retrieval . . . . . . . . . . . . . . . .              .   .   65
   5.4. Unified Representation Modul . . . . . . . . . . . . . . . . . . . .             .   .   65
        5.4.1. Konfiguration der Extraktoren . . . . . . . . . . . . . . . .             .   .   65
        5.4.2. Extraktoren und InputMaps . . . . . . . . . . . . . . . . .               .   .   67
        5.4.3. Vereinigen der Topic Maps . . . . . . . . . . . . . . . . . .             .   .   67
        5.4.4. Zugriff auf die Repräsentation und die Informationsobjekte               .   .   70

6. Fazit                                                                             72
   6.1. Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
   6.2. Bewertung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
         6.2.1. Konzepte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

                                          II
Inhaltsverzeichnis

        6.2.2. Software Architektur und Schnittstellen .               .   .   .   .   .   .   .   .   .   .   .   .   73
        6.2.3. Implementierung . . . . . . . . . . . . .               .   .   .   .   .   .   .   .   .   .   .   .   73
        6.2.4. Bewertung gegenüber den Anforderungen                  .   .   .   .   .   .   .   .   .   .   .   .   74
   6.3. Ausblick . . . . . . . . . . . . . . . . . . . . . .           .   .   .   .   .   .   .   .   .   .   .   .   77

A. Abkürzungen und Definitionen                                                                                       78

B. Verwendete Published Subject Identifiers                                                                            79
   B.1. Generische Topics . . . . . . . . . . . . .    .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   79
   B.2. Eigenschaften von Informationsobjekten         .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   80
   B.3. Dateisystem . . . . . . . . . . . . . . . .    .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   81
   B.4. E-Mail . . . . . . . . . . . . . . . . . . .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   82

                                         III
Inhaltsverzeichnis

Eidesstattliche Erklärung

Hiermit versichere ich, dass ich die vorliegende Diplomarbeit ohne Hilfe Dritter
und nur mit den angegebenen Quellen und Hilfsmitteln angefertigt habe. Diese
Arbeit hat in gleicher oder ähnlicher Form noch keiner Prüfungsbehörde vorgelegen.

                                         IV
1 EINLEITUNG

1. Einleitung

1.1. Sichere mobile Informationsverteilung

Digitale Informationen werden in der heutigen Zeit Dank einer guten Kommuni-
kations-Infrastruktur in großen Mengen schnell und zuverlässig übertragen. Dabei
kommen viele unterschiedliche Protokolle für die Übertragung und Datenformate für
die Speicherung der Informationen zum Einsatz. Wenn ein Benutzer Informationen
an einen bestimmten Empfänger übermitteln möchte, ist er daran interessiert, die
Informationen schnell aufzufinden und ohne großen Aufwand versenden zu können.
Sind seine Informationen jedoch über unterschiedliche Datenquellen verteilt, muss
er je nach Übertragungsprotokoll unterschiedliche Programme verwenden um die zu
versendenden Informationen zusammenzustellen, wie es z. B. bei der Informations-
verteilung per E-Mail der Fall ist.

1.1.1. E-Mail

Der Informationsaustausch über E-Mail bietet die Möglichkeit Informationen in un-
terschiedlichen Datenformaten zusammen mit der E-Mail-Nachricht zu versenden
und ist durch komfortable E-Mail Clients sehr benutzerfreundlich. Das E-Mail Kon-
zept hat jedoch einige Nachteile, insbesondere wenn ein sicherer Datenaustausch
gewünscht wird oder mobile Endgeräte zum Versenden der Informationen genutzt
werden sollen.
Um Informationen vertraulich übertragen zu können, ist eine Kryptographie-Infra-
struktur notwendig. Deren Nutzung bedeutet jedoch einen höheren Aufwand in der
Konfiguration und Benutzung des E-Mail Clients durch den Anwender, weil Zer-
tifikate von Authentifizierungsstellen oder Kommunikationspartnern vom Benutzer
verwaltet werden müssen.
Weiterhin ist es nur möglich Informationen vertraulich zu senden, wenn sie auf dem
benutzten Rechner lokal vorhanden sind, da sie vom E-Mail Client mit dem öffentli-
chen Schlüssel des Empfängers verschlüsselt werden. Insbesondere bei der Nutzung
eines E-Mail Clients auf einem mobilen Endgerät mit beschränkter Bandbreite und
hohen Übertragungskosten ist es unvorteilhaft, dass die Daten vorher vollständig
zum Client übertragen werden müssen. Dieses Problem kann gelöst werden, indem
die Entschlüsselung von E-Mails auf einem speziellen Server durchgeführt wird. Da
der Server den mobilen Client über neue E-Mails sofort benachrichtigt, wird die-
ser Service als Push“-Service bezeichnet. Die E-Mail gelangt so direkt vom Sender
                ”
zum Empfänger, der nun entscheiden kann, welche Anhänge der E-Mail auch auf
sein mobiles Gerät übertragen werden sollen.

                                         1
1 EINLEITUNG

Um seine Informationen verwalten zu können, muss der Benutzer auf unterschiedli-
che verteilte Datenquellen wie Dateiserver, Datenbanken und E-Mails zugreifen und
dafür verschiedene Protokolle und Programme verwenden. Dabei erhält er Sichten
auf seine Informationen, die vom Zugriffsprotokoll und Datenformat und nicht vom
Inhalt der Information abhängen. Die Verwaltung wird auch dadurch erschwert,
dass die Eigenschaften der verteilt gespeicherten Informationen nicht direkt mitein-
ander vergleichbar sind. Außerdem fehlen Funktionen, mit denen die Informationen
miteinander in Beziehung gesetzt werden können.

1.1.2. Das MIDMAY Konzept

Um den Anforderungen einer sicheren Verwaltung und Verteilung von Information
über mobile Endgeräte gerecht zu werden, wird ein neues Konzept der Informations-
verteilung benötigt. Das MIDMAY Konzept (Mobile Information Distribution and
Access for You!) [10] soll dem Benutzer eine einheitliche Sicht auf verteilt gespei-
cherte Informationen bieten und den vertraulichen Informationsaustausch zwischen
zwei sich zuvor unbekannten Personen ermöglichen. Es basiert auf einem mobilen
Client zur Präsentation und Auswahl der verteilt gespeicherten Informationen des
Benutzers, und einer Homebase, welche auf die verteilten Datenquellen zugreifen
kann.
In Abbildung 1 wird gezeigt, wie die Kommunikation zwischen zwei MIDMAY
Benutzern abläuft, die zum ersten Mal Informationen austauschen wollen. Zuerst
werden die MIDMAY-Identitäten zwischen den mobilen Geräte ausgetauscht (1).
Die Identitäten enthalten den öffentlichen Schlüssel und die Homebase-Adresse des
Kommunikationspartners. Über den Client wird die zu versendende Information aus-
gewählt (2) und die Homebase angewiesen diese Informationen von den verteilten
Datenquellen auf die Homebase zu laden (3+4), um sie von dort verschlüsselt an
die Homebase des Kommunikationspartners zu senden (5). Ist das Endgerät des
Empfängers erreichbar, kann dieser benachrichtigt werden (6) und entscheiden, an
welches Ausgabegerät die Informationen weitergeleitet oder wo sie abgelegt werden
sollen (7+8). Alternativ kann die Homebase auch selbstständig über die Ablage der
Informationen entscheiden, z. B. wenn das Endgerät nicht erreichbar ist.

1.2. Bearbeiteter Teilaspekt

Ein großer Vorteil von MIDMAY ist, dass der Benutzer Informationen vor dem Ver-
senden nicht erst selbst mit Hilfe von verschiedenen Anwendungen und Protokollen
auf sein mobiles Gerät übertragen muss, sondern von seinem MIDMAY-Client ei-
ne einheitliche Sicht auf seine Informationen erhält. Die einheitliche Sicht wird von
der MIDMAY-Homebase als Repräsentation aller verteilt gespeicherten Informatio-
nen des Benutzers erstellt. Mit Hilfe der Repräsentation bietet MIDMAY Positions-

                                          2
1 EINLEITUNG

                       2.                            3.                            4.
              Informationsauswahl        Instruktion der Homebase      Abfrage der Informationen

                                                                    Homebase (Sender)

              
                    Sender

              1.
           Drahtloser        MIDMAY                         Informationen             5.
           Austausch         Identität                      und Metadaten        Übertragung

                  Empfänger                                        Homebase (Empfänger)
                      6.                           7.                            8.
                Benachrichtigung           Ablageinstruktionen           Ablage/Weiterleitung

                                  Abbildung 1: MIDMAY Szenario

und Zugriffstransparenz [8]. Der Benutzer kann auf seinem MIDMAY-Client ein In-
formationsobjekt auswählen, ohne dass er den physischen Speicherort des Objekts
kennt (Positionstransparenz). Für die Suche nach Informationsobjekten stehen dem
Benutzer dabei unabhängig von der Art der Datenquelle, ob E-Mail-Postfach oder
Dateisystem, die gleichen Operationen zur Verfügung (Zugriffstransparenz).
Ziel dieser Arbeit ist es, ein Konzept zur Erstellung der einheitlichen Repräsentation
aus den Informationen der verteilten Datenquellen zu entwickeln und prototypisch zu
implementieren. Dazu muss untersucht werden, wie die Datenquellen modelliert und
ihre Informationen abgebildet werden, welche Datenstruktur sich für die Repräsen-
tation eignet und welche Anforderungen an das Software-Modul zur Erstellung der
Repräsentation bestehen.
Im MIDMAY Konzept sind zwei Software-Module vorgegeben, die zusammen für die
Repräsentation der Datenquellen verantwortlich sind. Das Data Retrieval Module
(DRM) ist für den Zugriff auf die verschiedenen verteilten Datenquellen zuständig.
Es indiziert die auf den Datenquellen vorhandenen Informationen und bildet sie
in die Datenstruktur der Repräsentation ab. Das Unified Representation Module
(URM) ist für die Verwaltung dieser Datenstruktur zuständig. Es bietet dem DRM

                                                     3
2 PROBLEMANALYSE

und dem Client Schnittstellen für den Zugriff auf die Repräsentation. Das DRM
muss zur Erstellung und Aktualisierung der Repräsentation mit dem URM kom-
munizieren. Der Client muss auf die Repräsentation zugreifen können, damit der
Benutzer in der Repräsentation seiner Informationen navigieren, suchen und diese
strukturieren kann. Abbildung 2 zeigt alle Module der MIDMAY Homebase und
veranschaulicht, welche Funktionen die Module DRM und URM erfüllen müssen.
Die Anforderungen an Data Retrieval Module“ und Unified Representation Mo-
                        ”                            ”
dule“ sollen in dieser Diplomarbeit ermittelt und in einem demonstrationsfähigen
Prototyp in der Programmiersprache Java umgesetzt werden.

                           Client
                                  Informationen suchen
                                     und auswählen

                    Unified Representation           ID Management         Context Awareness
         Homebase

                            Module                       Module                 Module
                             (URM)                       (IDM)                   (CAM)     

                        Data Retrieval             Security Assertion         Data Transfer
                           Module                       Module                   Module
                            (DRM)                        (SAM)                   (DTM)

                                         Indizierung von                Austausch von
                                          Informationen                 Informationen

                                                                               Homebase

                      Verteilte Datenquellen

                                      Abbildung 2: MIDMAY Module

2. Problemanalyse
Innerhalb MIDMAY ist die Hauptaufgabe der einheitlichen Repräsentation, den
Benutzer beim Auffinden und Verwalten seiner verteilt gespeicherter Informations-
objekte zu unterstützen. Es wird im folgenden beschrieben, wie die Benutzung der
Repräsentation aussehen soll, um daraus Anforderungen an ein System zur Erstel-
lung, Verarbeitung und Bereitstellung der Repräsentation herzuleiten. Abschließend

                                                           4
2 PROBLEMANALYSE

werden bereits bestehende Ansätze für den einheitlichen Zugriff auf heterogene Da-
tenquellen betrachtet und bezüglich der aufgestellten Anforderungen bewertet.

2.1. Benutzung der Repräsentation

Zur Verwaltung- und Verteilung der gespeicherten Informationen sollen im
MIDMAY-Konzept mobile Geräte wie Smartphones, PDAs oder Notebooks zum
Einsatz kommen. Diese Geräte verwenden kabellose Kommunikationsverbindungen,
um auf die Repräsentation der Informationen zuzugreifen. Um eine größtmögliche
Verfügbarkeit der Repräsentation für den Benutzer zu ermöglichen, ist die Zu-
griffsmöglichkeit über stationäre öffentliche Internet-PCs ebenfalls sinnvoll. Sobald
sich der Benutzer bei seiner Homebase angemeldet und authentifiziert hat, kann
er mit der Repräsentation seiner verteilt gespeicherten Informationen arbeiten. Er
kann nun Funktionen zum Auffinden und zur Verwaltung seiner Informationsobjekte
nutzen.

2.1.1. Finden von Informationsobjekten

Für die Suche nach Informationen auf einer entfernten Datenquelle ist der Benutzer
auf die Funktionen angewiesen, die ihm das jeweilige Protokoll oder das Client-
Programm anbietet. Die Repräsentation der Informationsobjekte seiner verteilten
Datenquellen ermöglicht dagegen eine Suche, die unabhängig von Datenquelle, Pro-
tokoll und Client ist.
Angenommen der Benutzer möchte ein Dokument X versenden, das die Projekt-
planung des Projekts P enthält. Falls er den Speicherort von X (z. B. einen
FTP-Fileserver) kennt, kann er diese Datenquelle auswählen und wie in einem
Dateisystem-Browser zu dem entsprechenden Verzeichnis navigieren. Ist der Spei-
cherort von X unbekannt aber der Name (oder ein Teil des Namens) bekannt, kann
er eine Volltextsuche innerhalb der Repräsentation ausführen und so das Doku-
ment über alle repräsentierten Datenquellen hinweg suchen. Weiß der Benutzer den
Namen nicht, kann ihm die Angabe verschiedener Metainformationen oder Eigen-
schaften des Informationsobjekts helfen. Der Benutzer könnte z. B. wissen, dass das
gesuchte Dokument im PDF Format vorliegt und dass es in einem bestimmten Zeit-
raum gespeichert wurde (nämlich in dem Zeitraum, in dem Projekt P geplant wurde)
und sich alle passenden Informationsobjekte anzeigen lassen. Es könnte auch sein,
dass das Projekt P selbst in der Repräsentation repräsentiert ist. Dann kann der
Benutzer das Projekt P auswählen, um zu allen Dokumenten zu gelangen die mit
Projekt P in Zusammenhang stehen. Dafür muss zuvor das Projekt P selbst in die
Repräsentation aufgenommen, und eine Verbindung zwischen P und den zugehöri-
gen Informationsobjekten hergestellt worden sein. Damit solche Erweiterungen in

                                           5
2 PROBLEMANALYSE

der Repräsentation vorgenommen werden können, sollten Verwaltungsfunktionen
zur Verfügung gestellt werden.

2.1.2. Verwalten der Informationsobjekte und ihrer Repräsentation

Das Verwalten von Informationen erfolgt auf zwei unterschiedlichen Ebenen: Zum
einen werden empfangene Informationsobjekte an einem passenden Ort abgelegt.
Zum anderen kann die Repräsentation dieser Informationsobjekte erweitert und
strukturiert werden. Die Verwaltung auf diesen beiden Ebenen kann wiederum
durch zwei unterschiedliche Akteure erfolgen, durch den Benutzer und durch weitere
Software-Module.
Der Benutzer hat das Ziel seine Informationsobjekte logisch so abzulegen, dass er
sie möglichst leicht wiederfindet. Dabei muss er sich jedoch für einen Ablageort ent-
scheiden, wenn er die Information nicht redundant abspeichern will. Er kann so nur
eine eindimensional Einordnung der Information vornehmen. In der Repräsentation
der Informationsobjekte kann dagegen ein einzelnes Informationsobjekt zugleich in
verschiedene logische Strukturen eingeordnet werden, je nach dem aus welcher Sicht
es betrachtet wird. In obigem Beispiel könnte Dokument X einmal als Dokument
                                                                           ”
des Projekts P“ eingeordnet werden, aber ebenso als Dokument in Bearbeitung“
                                                          ”
und als Dokument von Autor A“. Der Benutzer benötigt die Möglichkeit, die Re-
         ”
präsentation um eigene Konzepte zu erweitern und ihr eine Struktur zu geben, die
ihm das Auffinden seiner Informationen erleichtert.
Die Aufgabe Informationsobjekte einzuordnen sollte soweit möglich durch Software-
Module unterstützt werden. Dass ein Dokument von Autor A bearbeitet wird, könnte
z. B. innerhalb des Dokuments als Metainformation gespeichert sein, so dass dieses
Dokument automatisch als Dokument von Autor A“ klassifiziert werden kann. In
                            ”
anderen Fällen, in denen eine vollautomatische Einordnung zu unzuverlässig wäre,
könnten zumindest Vorschläge für den Benutzer generiert werden. Das MIDMAY-
Konzept sieht auch ein Kontext-Modul vor, das Kontextinformationen bereitstellt,
die zusammen mit den Informationsobjekten versendet werden. Die Kontextinfor-
mationen können dann beim Empfänger dazu benutzt werden, automatisch zu be-
stimmen, an welchem Ort das Informationsobjekt abgespeichert und wie es in die
Repräsentation eingeordnet werden soll.

2.2. Anforderungen

In Abschnitt 1.2 wurden Umfang und Aufgaben der MIDMAY-Module URM und
DRM bereits kurz dargestellt. Im vorhergehenden Abschnitt wurde näher auf die
Benutzung der Repräsentation eingegangen. In diesem Abschnitt werden die bereits

                                          6
2 PROBLEMANALYSE

beschriebenen Funktionen und Eigenschaften in konkrete Anforderungen an ein Sys-
tem zur Erstellung, Verarbeitung und Bereitstellung der Repräsentation gefasst.

2.2.1. Funktionale Anforderungen

  1. Erstellung
       a) Indizierung
          Die Informationen unterschiedlicher verteilter Datenquellen sollen indi-
          ziert werden
          Informationen darüber, welche Informationsobjekte mit welchen Eigen-
          schaften auf einer Datenquelle vorliegen, sollen in die Repräsentation
          übertragen werden. Falls die Informationsobjekte als Container für wei-
          tere Informationsobjekte dienen, wie es z. B. bei einer E-Mail mit Datei-
          anhängen der Fall ist, sollen auch diese untergeordneten Informationsob-
          jekte mit in die Repräsentation aufgenommen werden.
          Das System zur Erstellung der Repräsentation soll um beliebige Arten von
          persönlichen Datenquellen erweiterbar sein. Mit persönlichen Datenquel-
          len sind solche gemeint, auf denen persönliche Dokumente, Nachrichten
          und Informationen gespeichert sind und die nur für einen beschränkten
          Nutzerkreis zugänglich sind.
       b) Repräsentation von Metainformationen
          Zu den Informationsobjekten sollen Metainformationen in der Repräsen-
          tation gespeichert werden
          Bei der Abbildung eines Informationsobjekts in die Repräsentation sol-
          len verschiedene Eigenschaften des Informationsobjekts extrahiert und
          repräsentiert werden. Solche Eigenschaften können z. B. der Typ, der Au-
          tor oder das Erstellungsdatum eines Informationsobjekts sein. Andere In-
          formationen, die in irgendeiner Weise in Bezug zum Informationsobjekt
          stehen, sollen ebenfalls als Metainformation repräsentiert werden können.
          Darunter fallen z. B. Informationen über den Kontext, in dem ein Infor-
          mationsobjekt versendet wurde oder Informationen, welche Dokumente
          projektbezogen zusammengehören (siehe 2.1.2)). Solche zu repräsentie-
          renden Metainformationen können sowohl vom Benutzer erstellt als auch
          von Software-Modulen generiert werden.
       c) Einheitliche Repräsentation
          Bei der Repräsentation von Informationsobjekten und Metainformatio-
          nen sollen, soweit möglich, gemeinsame einheitliche Typen verwendet
          werden
          Bestimmte Eigenschaftstypen, wie Autor oder Erstellungsdatum, können
          zur Beschreibung von Informationsobjekten unterschiedlicher Datenquel-

                                         7
2 PROBLEMANALYSE

       len dienen. Innerhalb der Repräsentation sollten daher solche Typen zur
       Angabe von Metainformationen einheitlich definiert und genutzt werden.
       So können die Informationsobjekte unabhängig von ihrer Datenquelle an-
       hand ihrer Metainformationen betrachtet werden.
2. Zugriff
    a) Geräteunabhängiger Zugriff
       Die Anzeige und Bearbeitung der Repräsentation soll auf Geräten mit
       unterschiedlichen Eingabe- und Darstellungsmöglichkeiten möglich sein
       Der Zugriff auf die Repräsentation soll unabhängig von den Möglich-
       keiten des verwendeten Gerät erfolgen können. Nicht nur PCs sollen
       für die Informationssuche, Auswahl und Verwaltung verwendet werden
       können, sondern auch Geräte mit kleinen Displays oder beschränkten Ein-
       gabemöglichkeiten wie Handys oder PDAs. Die Client-Schnittstelle muss
       also den Abruf von Information und die Navigation in der Repräsentation
       für verschiedene Geräte ermöglichen. Client-Implementierungen müssen
       dabei nicht immer alle Funktionen der Client-Schnittstelle nutzen. Be-
       stimmte Grundfunktionen zum Auffinden von Objekten sollten mit je-
       dem Gerät ausführbar sein. Weitere Funktionen, wie z. B. das in Anfor-
       derung 3c beschriebene Strukturieren der Repräsentation, können je nach
       Möglichkeiten des jeweiligen Endgeräts angeboten werden.
    b) Mobiler Zugriff
       Der Zugriff auf die Repräsentation soll ortsunabhängig und mit mobilen
       Geräten möglich sein
       Das in Abschnitt 1.1.2 beschriebenen Szenario geht davon aus, dass ein
       Zugriff gerade dann möglich ist, wenn der Benutzer sich in einer frem-
       den Umgebung befindet und Informationen mit einer zuvor unbekannten
       Person austauschen möchte. Der Benutzer sollte also unabhängig vom
       Standort möglichst jederzeit in der Lage sein auf die Repräsentation zu-
       zugreifen. Um dieser Anforderung gerecht zu werden, müssen die Daten
       vom mobilen Endgerät mit einer kabelloser Kommunikationsverbindung
       übertragen werden können. Da bei mobilen kabellosen Kommunikations-
       verbindungen meistens geringere Übertragungsgeschwindigkeiten möglich
       sind als bei stationär vernetzten PCs, ergibt sich hieraus auch die An-
       forderung, die übertragenen Daten möglichst gering zu halten oder zu
       komprimieren.
3. Benutzung
    a) Datenquellen übergreifende Suche
       Die Suche nach einem Informationsobjekt soll ohne Angabe seiner Da-
       tenquelle möglich sein
       Wenn der Benutzer eine bestimmte Information, z. B. eine Datei sucht,

                                      8
2 PROBLEMANALYSE

         wird von ihm nicht verlangt die Datenquelle zu kennen, auf der die Infor-
         mation vorhanden ist. Stattdessen kann er in der Repräsentation über al-
         le Datenquellen hinweg z. B. nach dem Namen eines Informationsobjekts
         suchen. Weitere von den Datenquellen unabhängige Suchmöglichkeiten
         werden in Anforderung 3b beschrieben.
      b) Suche über Metainformationen
         Ein Informationsobjekt soll durch die Angabe von Metainformationen auf-
         gefunden werden können
         Nach Anforderung 1b sind in der Repräsentation die Eigenschaften ei-
         nes Informationsobjekts als Metainformationen gespeichert. Der Benut-
         zer soll die Möglichkeit haben ein Informationsobjekt zu finden, indem
         er eine oder mehrere Eigenschaften des gesuchten Objekts angibt, so wie
         es in Abschnitt 2.1.1 beschrieben ist. Ihm werden dann als Ergebnis alle
         Informationsobjekte präsentiert, die diese Eigenschaften besitzen.
      c) Strukturierung der Repräsentation
         Der Benutzer soll der Repräsentation Informationen hinzufügen und sie
         strukturieren können
         Das Hinzufügen von Informationen ermöglicht dem Benutzer, seine eige-
         nen gedachten Konzepte in die Repräsentation zu integrieren (siehe Ab-
         schnitt 2.1.2) und Metainformationen zu den Informationsobjekten an-
         zugeben (vergleiche Anforderung 1b). In der Repräsentation kann er Ver-
         bindungen zwischen den Informationsobjekten und seinen hinzugefügten
         Konzepten erstellen, die ihm ein späteres Auffinden der so eingeordneten
         Informationsobjekte erleichtern.

2.2.2. Nicht-Funktionale Anforderungen

  4. Benutztbarkeit
      a) Aktualität
         Es soll ein möglichst aktueller Stand der Datenquellen repräsentiert wer-
         den
         Der Benutzer soll auch erst kürzlich empfangene oder erstellte Informatio-
         nen in der Repräsentation auswählen können. Dazu muss die Repräsen-
         tation zum Zeitpunkt des Zugriffs den aktuellen Stand der Datenquellen
         repräsentieren. Eine Repräsentation, die zu jedem Zeitpunkt den vorhan-
         denen Informationen entspricht, ist jedoch nicht möglich, da für das Er-
         kennen von Veränderungen auf den Datenquellen und für die Abbildung
         der Informationen in die Repräsentation Zeit benötigt wird. Es kann also
         nicht garantiert werden, dass immer alle Informationen der Datenquellen
         in der Repräsentation vorhanden sind.

                                        9
2 PROBLEMANALYSE

    b) Kurze Antwortzeit
       Operationen auf der Repräsentation sollen in angemessener Zeit ein Er-
       gebnis liefern
       Damit der MIDMAY-Client auf Aktionen des Benutzers reagieren kann,
       benötigt er möglichst schnell bestimmte Daten der Repräsentation. Die
       Antwortzeit von der Anfrage bis zum Ergebnis hängt dabei nicht nur
       von der Geschwindigkeit ab, mit der das Repräsentations-Modul die ge-
       suchten Daten findet. Insbesondere bei mobilen Clients spielt die Men-
       ge der übertragenen Daten auch eine Rolle. Die Schnittstelle des Re-
       präsentations-Moduls zum Client sollte daher so gestaltet werden, dass
       der Client gezielt auf bestimmte Ausschnitte der Repräsentation zugreifen
       kann. Der Client hat dann die Möglichkeit, Daten nur dann anzufordern,
       wenn sie vom Benutzer jetzt oder wahrscheinlich in Zukunft benötigt
       werden.
5. Sicherheit
    a) Sichere Kommunikation
       Der Datenaustausch zwischen Client und dem URM der MIDMAY-
       Homebase sowie zwischen Datenquellen und dem DRM soll über einen
       sicheren Kommunikationskanal ablaufen
       Die Daten, welche der Benutzer über seinen Client anfordert, sollen nicht
       von Dritten eingesehen oder verändert werden können. Damit sie nicht
       eingesehen werden können, ist ein verschlüsselter Kommunikationskanal
       nötig. Um die Verfälschung der Daten durch einen Dritten zu verhindern,
       müssen sich Client und MIDMAY-Homebase gegenseitig authentifizieren.
    b) Schutz der Repräsentations-Daten
       Die Daten der Repräsentation sollen vor unberechtigtem Zugriff und vor
       Manipulation geschützt sein
       Die Repräsentations-Daten müssen so abgespeichert werden, dass sie
       nur über die Schnittstellen des URM zugänglich sind. Das URM besitzt
       Schnittstellen in zwei Richtungen: Einmal zum Client hin, für den Zugriff
       durch den Benutzer, und zum anderen für weitere MIDMAY Software-
       Module, die Informationen der Repräsentation erstellen oder nutzen. Wei-
       terhin muss durch Authentifizierung- und Autorisierungsmechanismen si-
       chergestellt werden, dass über diese Schnittstellen keine unberechtigten
       Benutzer bzw. Software-Module auf die Repräsentation zugreifen.
    c) Schutz der Zugangsdaten
       Schutz der Zugangsdaten des Benutzers vor unberechtigtem Zugriff
       Um die Informationen der verteilten Datenquellen abzurufen und sie in
       die Repräsentation abzubilden zu können, werden die Zugangsdaten der
       Datenquellen benötigt. Die Repräsentation muss regelmäßig und automa-
       tisch aktualisiert werden um immer den aktuellen Stand zu repräsentieren

                                     10
2 PROBLEMANALYSE

          (Anforderung 4a). Deshalb müssen die Zugangsdaten der Datenquellen
          auf der MIDMAY-Homebase hinterlegt sein. Weil diese Daten den Zu-
          griff auf beliebige Informationen des Benutzers ermöglichen, müssen sie
          vor unberechtigtem Zugriff geschützt werden. Nur MIDMAY Software-
          Module sollen auf die Zugangsdaten zugreifen dürfen, und die Zugangs-
          daten dürfen die MIDMAY-Homebase ausschließlich zum Zweck der An-
          meldung bei einer Datenquelle verlassen.

2.3. Aktuelle Ansätze

Um eine mobile Informationsverteilung und -verwaltung zu realisieren, benötigt
MIDMAY Funktionen, die teilweise auch von anderen Software-Produkten ange-
boten werden. Insbesondere die Funktionen über verschiedene Datenquellen hinweg
Informationen zu indizieren und einheitlich zu repräsentieren (Anforderungen 1a,
1b und 1c), werden in vielen Informationssystemen benötigt. In diesem Abschnitt
werden drei verschiedene Ansätze zur Erfassung und Bereitstellung von Informa-
tionen vorgestellt. Zu den betrachteten Ansätzen gehören Suchmaschinen, Systeme
zur Verwaltung von Informationen (Content Management Systeme) und System zur
Verwaltung von Wissen“ (Knowledge Management Systeme). Suchmaschinen sind
                  ”
darauf spezialisiert Informationen innerhalb großer Datenmengen zu finden. Content
Management Systeme verwalten Informationen, indem sie Funktionen zur Erfas-
sung, Überarbeitung und Veröffentlichung der Informationen bieten. In Knowledge
Management Systemen wird das Wissen eines Unternehmens erfasst und verwal-
tet. Im Folgenden wird untersucht, welche Funktionen und Vorgehensweisen dieser
drei Ansätze sich auch in MIDMAY wiederfinden und wo sich MIDMAY von den
existierenden Software-Produkten unterscheidet.

2.3.1. Suchmaschinen

Suchmaschinen werden zur Suche nach Informationen in großen Datenmengen ver-
wendet. Suchmaschinen müssen dazu die vorliegenden Informationen indexieren. Sie
bauen eine Datenstruktur auf, die dabei hilft den Ort einer Ressource anhand der
Eigenschaften einer Information zu bestimmen. Bei den Informationen kann es sich
um strukturierte Informationen handeln, beispielsweise um Produktinformationen
in einer Datenbank oder in einem XML-Format, oder um unstrukturierte, meist
verteilt gespeicherte Informationen, wie z. B. Webseiten und Dateien im Internet.
Auch in MIDMAY soll für die Suche in unstrukturierten verteilten Informationen
die MIDMAY-Repräsentation als Index erstellt werden. Mit Hilfe der Repräsenta-
tion soll jedoch auch visualisiert werden können, welche Informationen vorhanden
sind und wie diese durch ihre Eigenschaften zusammenhängen. Eine Suchmaschine

                                       11
2 PROBLEMANALYSE

liefert auf eine Suchanfrage nur eine Liste mit passenden, nach Relevanz geordne-
ten Informationen zurück, so dass keine Visualisierung von Zusammenhängen und
Navigation in den Informationen möglich ist.
So genannte Desktop-Suchmaschinen“ kommen dem MIDMAY Ziel den Benutzer
              ”
beim Auffinden persönlicher Informationen zu unterstützen am nächsten. Bei diesen
Suchmaschinen werden die Dateien eines PC indiziert, so dass sich der PC auf glei-
che Weise durchsuchen lässt wie das Internet mit einer Internet-Suchmaschine. Die
Google Desktop Search Software1 indiziert beispielsweise die gängigsten Dateiforma-
te und auch E-Mails. Allerdings findet die Suche nur lokal auf dem Dateisystem
statt. Andere Datenquellen könnten aber durch Plugins integriert werden. Es exis-
tiert bereits ein Plugin2 für die Integration entfernter Dateisysteme und eines, das
den entfernten Zugriff auf die lokale Desktop-Suchmaschine ermöglicht.

2.3.2. Verwaltungs-Systeme (Content Management)

Systeme zur Verwaltung von Informationen werden auch als Content Management
Systeme (CMS) bezeichnet. Unter dem Begriff Content werden inhaltlichen Infor-
mationen jeglicher Art, z. B. strukturierte Datensätze, Textdokumente oder Bilder
verstanden. Content setzt sich aus dem Inhalt und zugehörigen Meta-Informationen
zusammen. Die Meta-Informationen sind nicht unbedingt für den Nutzer sichtbar,
sondern können auch nur zur Verwaltung und Kontrolle des eigentlichen Inhalts
dienen. Die Funktionen eines Content Management Systems sind nicht einheitlich
definiert, sie sind vom Einsatzbereich des Systems abhängig. Im Internet können
z. B. Web Content Management Systeme (WCMS) eingesetzt werden, um die Inhal-
te von Webseiten zu erstellen und zu verwalten. Zur Speicherung der Inhalte kommt
meistens eine Datenbank zum Einsatz.
Im Unterschied zu MIDMAY wird durch ein Content Management System keine
Repräsentation verteilter Informationen erstellt, sondern Informationen werden in
das CMS übertragen und dort gespeichert. Das CMS hat so die Kontrolle über
die Informationen und kann Funktionen wie Versionierung, Suche, Verteilung und
Aufbereitung der Inhalte anbieten. Der Nachteil ist, dass Informationen zur Be-
arbeitung aus dem CMS geholt und nach der Bearbeitung wieder in das System
übertragen werden müssen. In MIDMAY ist es nicht nötig Informationen von ihrer
eigentlichen Datenquelle auf einen Server zu übertragen, um sie für eine Suche oder
Verteilung verfügbar zu machen. Statt der eigentlichen Inhalte werden nur die Meta-
Informationen erfasst, auf die MIDMAY Homebase übertragen und dort verwaltet.

 1
     Google Desktop Search: http://desktop.google.de/
 2
     Google Desktop Search Plugins: http://desktop.google.de/plugins.html

                                            12
3 FORMATE ZUR REPRÄSENTATION VON WISSEN

2.3.3. Knowledge Management Systeme

Mit einem Knowledge Management System (KMS) soll das gesamte in einer Organi-
sation verankerte Wissen erfasst, verwaltet und verfügbar gemacht werden. Know-
ledge Management Systeme und MIDMAY haben als gemeinsames Ziel, verteilte
Informationen verfügbar zu machen. Dafür ist die Integration verschiedener exis-
tierender Datenquellen in das System notwendig. Es ist aber auch möglich, dass
externe globale Ressourcen (das Internet) oder menschliche Ressourcen (Kollegen,
Berater) über ein KMS befragt werden können, wie es in [25] beschrieben wird. Wis-
sensmanagement mit einem KMS geht jedoch über die Versorgung der Benutzer mit
Informationen hinaus. Ein KMS muss den Benutzern auch die Möglichkeit geben,
ihre Informationen und ihr Wissen in das System einzugeben oder bestehende Infor-
mationen zu bearbeiten. Daten, Informationen, Prozesse und Fähigkeiten innerhalb
einer Organisation sollen so explizit gemacht und im KMS gespeichert werden. Der
Fokus in MIDMAY liegt auf der Strukturierung von Informationen, die außerhalb
von MIDMAY erstellt und bearbeitet werden. Das Wissen darüber, wo Informatio-
nen abgelegt sind und wie sie in Beziehung zueinander stehen, soll explizit gemacht
werden.

3. Formate zur Repräsentation von Wissen
Eine Wissensrepräsentation ist ein Platzhalter für reale Objekte, Eigenschaften oder
Ereignisse. Sie bildet die Grundlage zur intelligenten Herleitung von weiterem Wis-
sen und dient als Medium zur Kommunikation über Wissen [3]. In der natürlichen
Sprache wird Wissen informal repräsentiert, für die maschinelle Verarbeitung ist da-
gegen eine formale Darstellung notwendig. In diesem Abschnitt soll untersucht wer-
den, welches Format sich zur Repräsentation des Wissens über Inhalte und Struk-
turen von Datenquellen eignet. Ein solches Format muss einzelne Dateneinheiten
der Datenquellen und ihre Eigenschaften und Beziehungen untereinander darstellen
können. Die Dateneinheiten können unterschiedliche Informationsobjekte wie z. B.
Dateien und Ordner eines Dateisystems, aber auch Termine einer Terminverwaltung
sein.
Die meisten Menschen werden ein gemeinsames Verständnis davon haben was ein
 Termin“ ist und vielleicht auch unter dem Begriff Datei“ dasselbe verstehen. Ein
”                                                       ”
Format zur formalen Wissensrepräsentation muss sich jedoch auf Ontologien stützen,
damit eine Eindeutigkeit der verwendeten Symbole und Begriffe und so eine Wie-
derverwendung und Interoperabilität des repräsentierten Wissens möglich ist. Eine
Ontologie ist die explizite Spezifikation einer vereinfachten Sicht auf einen Ausschnitt
der Welt (Konzeptualisierung) [9]. Mit ihr wird formal festgelegt, welche abstrakten
und konkreten Objekte, Konzepte und Relationen im repräsentierten Weltausschnitt

                                          13
3 FORMATE ZUR REPRÄSENTATION VON WISSEN

existieren. Einzelne Objekte einer Wissensrepräsentation können dann mit dem fest-
gelegten Vokabular der Ontologie beschreiben werden.
Ein Format zur Wissensrepräsentation sollte sich jedoch nicht nur prinzipiell zur
Erfassung und Verarbeitung des beabsichtigten Wissensbereichs eignen, sondern es
sollten auch Werkzeuge für das Format verfügbar sein. Aus diesem Grund werden
hier die beiden standardisierten Formate Topic Maps und RDF betrachtet, für die
bereits verschiedene Verarbeitung-Werkzeuge existieren. Die Grundlagen dieser For-
mate werden erläutert, sowie Ziele und Einsatzgebiete untersucht.

3.1. Topic Maps

Topic Maps ermöglichen die Beschreibung von Wissensstrukturen und die Ver-
knüpfung dieser Wissensstrukturen mit existierenden Informationsressourcen [21].
Eine Topic Map bildet eine strukturierte Informationsschicht über diesen Informati-
onsressourcen, die dadurch mit weiteren Informationen angereichert werden können.
Topic Maps als Format zur Beschreibung und zum Austausch von Wissensstruktu-
ren wurden im ISO Standard 13250 [11] auf Basis von SGML standardisiert. Später
wurde die XML Topic Map Syntax XTM [27] in den ISO Standard mit aufgenom-
men. Zwischen dem Austauschformat der ursprünglichen ISO Spezifikation und der
XTM Syntax von Topic Maps gibt es leichte Unterschiede, so dass noch nicht geklärt
ist, wie sich die beiden Formate aufeinander abbilden lassen [12]. Zur Zeit wird an
einem formalen Topic Map Daten-Modell gearbeitet, welches als Referenz-Modell
zur Einbindung verschiedener Syntax-Definitionen dienen soll [13].
Gegenwärtig ist die XTM Spezifikation [27] der aktuellste gültige Standard und
durch die Verwendung von XML als Austauschformat auch einfacher anzuwenden.
Deshalb bezieht sich die folgende Beschreibung der Topic-Map-Konzepte, soweit
nicht anders angegeben, auf diese Spezifikation.
In den nächsten Abschnitten werden die wesentlichen Bestandteile einer Topic Map
beschrieben: Topics (Themen), Occurrences (Vorkommensangaben) und Associa-
tions (Assoziationen). Als weitere wichtige Konzepte werden Subject Identity und
Scope vorgestellt. Um Topic Map Bestandteile und Strukturen zu veranschaulichen,
wird auf eine in [1] beschriebene UML basierte Notation für Topic Maps zurückge-
griffen.

3.1.1. Topics

In einer Topic Map wird jedes Ding, ob Objekt, Begriff oder Idee, als Topic repräsen-
tiert. Im Topic-Map-Standard werden die Dinge der realen Welt, für die ein Topic
steht, Subjects genannt. Topics (als Repräsentanten) und Subjects (als repräsentierte

                                          14
3 FORMATE ZUR REPRÄSENTATION VON WISSEN

Objekte) sollten möglichst in einer Eins-zu-Eins Beziehung stehen, um Redundanzen
und Widersprüche in der Repräsentation zu vermeiden.
Ein Topic wird durch drei Eigenschaften charakterisiert: Namen, Occurrences (Vor-
kommensangaben) und Rollen in den Assoziationen. Als Namen kann ein Topic
verschiedene Basenames und Variantnames besitzen (siehe Abbildung 3). Ein Ba-
sename ist ein Name in Form einer Zeichenkette, während ein Variantname eine
Ressource referenziert und deshalb eine beliebige andere Form haben kann. Ein Va-
riantname gibt eine alternative Form des Basename an, und legt mit einem oder
mehreren Topics als Parameter den Verarbeitungskontext fest, in dem der Variant-
name verwendet werden soll. Als Parameter für das Anzeigen bzw. Sortieren eines
Topics sind bereits die Topics Display und Sort definiert.

                «Topic»                 «Base Name»
                              1   *
                                      Base Name String
                              1

                   1                       «Variant»           «Parameter»
                                  *                      1 *
                    *                 Variant Name
              «Occurence»

Abbildung 3: Zusammenhang zwischen Topic, Basename, Variantname und Occur-
             rence

Die beiden Topic-Eigenschaften Ocurrences und Rollen werden in den nächsten zwei
Abschnitten erläutert.

3.1.2. Occurrences

Durch Vorkommensangaben werden Topics mit Ressourcen verbunden, die relevante
Informationen zu diesem Topic enthalten. Dies sind z. B. nähere Beschreibungen,
Dokumente oder Bilder, die etwas über das Subject aussagen, welches das Topic
repräsentiert. Die Ressourcen müssen nicht in der Topic-Map selbst vorhanden sein,
sondern es können unterschiedliche externe Quellen referenziert werden. In XTM
wird eine Vorkommensangabe durch einen URI referenziert. Die Topic-Map bildet
durch diese Möglichkeit der Referenzierung eine strukturierte Informationsschicht
über den unzusammenhängenden referenzierten Ressourcen.

3.1.3. Associations

Eine Beziehung zwischen zwei oder mehreren Topics wird durch eine Assoziation
beschrieben. Eine Assoziation ist eine ungerichtete Relation auf den Topics. In der

                                          15
3 FORMATE ZUR REPRÄSENTATION VON WISSEN

Assoziation werden die teilnehmenden Topics definiert und die jeweilige Rolle, die
sie in der Assoziation spielen. Im Standard bereits definiert sind die superclass-
subclass und die class-instance Assoziation mit zugehörigen Rollen. Die superclass-
subclass Assoziation kann verwendet werden um Klassenhierarchien zu definieren.
Abbildung 4 zeigt auf der linken Seite ein Beispiel einer solchen Assoziation und
auf der rechten Seite die Darstellung des gleichen Sachverhalts in UML. Das Topic
 Adresse“ nimmt hier in der Rolle superclass in der Beziehung teil, das Topic E-
”                                                                               ”
Mail Adresse“ in der Rolle subclass. Durch die Assoziation wird beschrieben, dass
 Adresse“ eine Generalisierung des Topics E-Mail Adresse“ ist, bzw. dass E-Mail
”                                          ”                                ”
Adresse“ eine Spezialisierung des Topics Adresse“ ist.
                                         ”

                                                                               Adresse

                              supeclass-subclass

        Adresse       superclass                           E-Mail Adresse   E-Mail Adresse
                                                subclass

Abbildung 4: Eine superclass-subclass Assoziation (links) und die entsprechende
             UML Beschreibung (rechts)

Die class-instance Assoziation wird verwendet um Topics als Instanzen anderer To-
pics zu deklarieren. Abbildung 5 zeigt eine class-instance Assoziation die beschreibt,
dass alice@xyz.com“ eine Instanz des Topics E-Mail Adresse“ ist.
      ”                                         ”

                                                                            E-Mail Adresse

                               class-instance                               «instanceOf»

     E-Mail Adresse                                        alice@xyz.com    alice@xyz.com
                      class                     instance

Abbildung 5: Eine class-instance Assoziation (links) und die Beschreibung in UML
             (rechts)

Rollen wie class, instance, superclass und subclass sind selbst Topics der Topic Map.
Jedes Topic kann als Rolle für Topics in Assoziationen oder als Typ für andere
Topics oder Assoziationen verwendet werden. Durch dieses Konzept können Topic-
und Assoziationstypen und deren Bedeutung frei definiert werden.
Die Topic-Map-Spezifikation lässt allerdings offen, wie Assoziations-Eigenschaften
oder Bedingungen für Assoziationen definiert werden. Die Eigenschaften einer As-
soziationen wie Transitivität, Reflexivität oder Symmetrie ermöglichen zusammen

                                                      16
3 FORMATE ZUR REPRÄSENTATION VON WISSEN

mit Inferenzregeln das automatische Herleiten von weiterem impliziten Wissen aus
einer Topic Map oder auch eine Konsistenzprüfung der repräsentierten Aussagen.
Bedingungen für Assoziationen, z. B. wieviele Topics in welchen Rollen teilnehmen
dürfen, ermöglichen die Validation einer Topic Map gegen die festgelegten Bedin-
gungen. Auch wenn die notwendigen Konzepte für Inferenz, Konsistenzprüfung oder
Validation der Inhalte einer Topic Map nicht von vornherein im Standard spezifiziert
sind, bieten Topic Maps die Möglichkeit diese Konzepte selbst als Topics innerhalb
einer Topic Map zu definieren und für die entsprechenden Zwecke anzuwenden [24].

3.1.4. Scope

Aussagen über ein Topic werden durch die bereits beschriebenen Topic-Eigenschaf-
ten (Namen, Vorkommensangaben und Rollen in Assoziationen) gemacht. Diese Aus-
sagen müssen jedoch nicht universell gültig sein, sondern können mit der Angabe
eines Scope auf einen bestimmten Gültigkeitsbereich beschränkt werden. So kann
z. B. angegeben werden, dass ein Topic-Name nur im Kontext einer bestimmten
Sprache gültig ist oder eine Assoziation nur eine einzelne Meinung repräsentiert, die
nicht von allen geteilt wird. Der Scope (Gültigkeitsbereich) einer Topic-Eigenschaft
kann durch die Angabe einer Menge von Scoping-Topics festgelegt werden. Die Ver-
einigung dieser Topics bestimmt den Kontext, in dem die Topic-Eigenschaften gültig
ist. Ohne diese Angabe liegt eine Topic-Eigenschaft im Unconstrained Scope und ist
damit immer gültig. Es gibt jedoch keine weiteren Vorgaben, wie die Scope-Angabe
bei der Verarbeitung einer Topic Map verwendet werden soll. Insbesondere für die
Herleitung der Gültigkeit einer Topic-Eigenschaft bei gegebenem Kontext gibt es
verschiedene Möglichkeiten, die in [23] betrachtet werden.
Bei Topic-Basenames legt ein angegebener Scope nicht nur den Gültigkeitsbereich
des Namens fest, sondern definiert auch einen Namensraum. Es gilt das so genann-
te Topic Naming Constraint: Es darf keine zwei Topics in einer Topic Map geben,
die den selben Basename im selben Scope besitzen. Falls das doch der Fall ist,
repräsentieren die beiden Topics das selbe Subject und müssen zu einem Topic ver-
einigt werden. Das resultierende Topic besitzt die Eigenschaften beider Topics, also
alle Namen, Vorkommensangaben und Rollen in Assoziationen, welche die beiden
Topics charakterisieren.
Unter Topic Map Experten ist jedoch umstritten, ob das Topic Naming Constraint
sinnvoll ist [5], da es in jedem Fall Scope-Angaben für Topics erzwingt, um Na-
men eindeutig zu halten. In der realen Welt sind eindeutige Namen jedoch eher
die Ausnahme3 . Im neusten Topic Map Draft des ISO Komitees [13] wird deswegen

 3
     Um z. B. ein Telefonbuch zu repräsentieren, könnten die eingetragenen Personen durch eine As-
      soziation mit ihrer Telefonnummer verknüpft werden. Die Namen in einem Telefonbuch sind
      aber nicht eindeutig und die Telefonnummer müsste deshalb im Scope für den Namen einer Per-

                                                  17
3 FORMATE ZUR REPRÄSENTATION VON WISSEN

die Eindeutigkeit der Namen nicht mehr vorgeschrieben. Stattdessen werden Name-
Typen eingeführt, mit denen unter anderem auch die Eindeutigkeit eines Basename
auf Wunsch definiert werden kann.

3.1.5. Subject Identity

Topics sind Stellvertreter für Dinge innerhalb und außerhalb der Topic Map. Deshalb
können in unterschiedlichen Topic Maps verschiedene Topics das gleiche Subject der
realen Welt repräsentieren. Wenn das Wissen zweier Topic-Maps vereinigt werden
soll, ist es sinnvoll für jedes Topic wieder eine Eins-zu-Eins Beziehung zwischen Topic
und Subject herzustellen, um einen einzigen Zugriffspunkt auf das Wissen über ein
Subject zu haben.
Das Konzept der Subject Identity ermöglicht es festzustellen, ob zwei Topics das selbe
Subject repräsentieren. Wenn das der Fall ist, können die Eigenschaften der beiden
Topics vereinigt werden. Die Identität eines Subjects kann auf zwei verschiedene Ar-
ten definiert werden. Wenn eine elektronische Ressource repräsentiert werden soll,
kann einfach deren URL als Subject Address verwendet werden. Topics, welche die
gleiche Subject Address besitzen, repräsentieren das selbe Subject. Für andere Ob-
jekte oder gedachte Begriffe ist es jedoch notwendig eine URI-Adresse zur indirekten
Identifikation des Subjects zu definieren. Eine solche Adresse wird als Subject Identi-
fier bezeichnet, die Informationsressource auf die sie zeigt als Subject Indicator. Die
Subject Identifier Adresse wird vom Computer fast auf die gleiche Weise verwen-
det wie die Subject Address eines direkt adressierbaren Subjects. Haben zwei Topics
einen Subject Identifier gemeinsam, repräsentieren sie das selbe Subject. Der Subject
Indicator wird nicht vom Computer verwendet, sondern vom Menschen. Die Infor-
mationsressource weist Menschen darauf hin (engl.: to indicate) um welches Subject
es sich handelt. Werden Subject Identifiers und Subject Indicators explizit für die
Identifikation von Subjects definiert und erstellt, wird von Published Subject Iden-
tifiers (PSIDs) und Published Subject Indicators (PSIs) gesprochen. Die Definition
von PSIDs und PSIs geschieht nicht zentral, sondern als offener verteilter Prozess.
Jeder kann PSIs verwenden oder eigene definieren, wobei er sich an Empfehlungen
des OASIS Published Subjects Komitees zur Erstellung von PSIs [19] orientieren
kann.

3.2. RDF

Das Ressource Description Framework (RDF) wurde entwickelt, um der Vision des
Semantic Web [2] näher zu kommen, indem es die Strukturierung und Beschrei-

   son benutzt werden. Dann enthält die Topic Map aber redundante Information, die konsistent
   gehalten werden muss.

                                             18
3 FORMATE ZUR REPRÄSENTATION VON WISSEN

bung von Ressourcen im World Wide Web ermöglicht. Es können verschiedene Vo-
kabularien für die Beschreibung von Ressourcen bestimmter Anwendungsdomänen
definiert werden. Mit RDF und darauf aufbauenden Ontologiesprachen wie OWL
kann der Kontext von Ressourcen explizit beschrieben werden, so dass sie durch
den Computer besser interpretiert werden können. Zur RDF-Spezifikation gehört
ein Datenmodell mit einer XML-Syntax [30] sowie eine Syntax zur Definition von
Vokabularien (RDFS [29]).

3.2.1. RDF Konzepte

Das RDF Datenmodell besteht aus den Kernkonzepten Ressource, Property und
Statement. Jedes Ding, das beschrieben werden kann, wird in der RDF-Spezifikation
als Ressource bezeichnet. Im Topic-Map-Standard wird statt Ressource“ der Begriff
                                                             ”
 Subject“ verwendet. Die beschriebenen Dinge werden in RDF, durch einen RDF-
”
Knoten (Node) repräsentiert und durch einen URI identifiziert. Um die Eigenschaft
einer Ressource zu beschreiben, werden so genannte RDF-Properties als Prädikate
auf der Ressource benutzt. Mit einer RDF-Property kann eine gerichtete Eigen-
schaftsbeziehung zwischen zwei Ressourcen, dem Subjekt und dem Objekt herge-
stellt werden. Das Tripel aus Subjekt, Prädikat und Objekt wird als RDF-Statement
(Aussage) bezeichnet. Abbildung 6 zeigt ein RDF-Statement in Graphensyntax-
Notation.

                      Subject                             Objekt
                                           Prädikat

                                           authoredBy
                http://articles/xyz.html                http://alice.net

                   Abbildung 6: Beispiel für ein RDF-Statement

Ebenso wie in Topic Maps ist es möglich Aussagen über Aussagen zu machen. Dazu
wird ein RDF-Statement wieder als Ressource betrachtet werden und kann so in
einem weiteren RDF-Statement verwendet werden.

3.2.2. RDF-Schema

Ein RDF-Schema (RDFS) enthält Aussagen, um die Konzepte einer bestimmten An-
wendungsdomäne zu definieren. Dazu werden unter anderem RDF-Klassen verwen-
det. Als RDF-Klassen werden die Ressourcen innerhalb eines Schemas bezeichnet,

                                             19
3 FORMATE ZUR REPRÄSENTATION VON WISSEN

von denen in einer RDF-Beschreibung Instanzen gebildet werden können. Sie die-
nen also der Typisierung von RDF-Ressourcen. Außerdem kann für eine RDF-Klasse
festgelegt werden, welche Arten von Eigenschaften die Instanz dieser Klasse besitzen
kann. Weiterhin können Klassen- und Eigenschaftshierarchien definiert werden, um
Spezialisierungsbeziehungen zu modellieren.
RDF-Schemata können erweitert und miteinander kombiniert werden. Durch die
Verwendung bereits vorhandener RDF-Schemata soll die Interoperabilität von RDF-
Ressourcenbeschreibungen im Web verbessert werden. Eine RDF-Beschreibung kann
unterschiedliche RDF-Schemata nebeneinander verwenden. Wenn ein RDF-Schema
verwendet werden soll, wird es durch eine URI referenziert. Die XML-Syntax von
RDF erlaubt es, den Namen einer RDF-Klasse im XML-Tag zu verwenden, um eine
Instanz dieser Klasse zu erzeugen (Abbildung 7 zeigt das Statement aus Abbildung 6
in XML-Syntax). Dadurch ist die Menge der XML-Tags für die XML-Syntax von
RDF nicht festgelegt, wie es bei der XML-Syntax von Topic Maps der Fall ist.

                  Abbildung 7: RDF Statement in XML Syntax

3.2.3. Web Ontology Language (OWL)

Die Web Ontology Language (OWL) ist eine formale Beschreibungssprache für On-
tologien, die auf RDF-Konzepten aufbaut. Zusätzlich definierte Sprachkonstrukte
erlauben es, Ausdrücke ähnlich der Prädikatenlogik zu formulieren. OWL soll als
Nachfolger der Ontologiesprache DAML+OIL für die Verwirklichung des Seman-
                                                                         ”
tic Web“ eingesetzt werden, und wird gegenwärtig vom W3C standardisiert [28]. In
OWL wird zwischen Klassen und Individuen als Instanzen der Klassen unterschie-
den. Individuen werden durch Eigenschaften beschrieben, wobei entweder XML-
Schema-Datentypen oder andere Individuen als Eigenschaftswerte verwendet wer-
den können. Für Klassen können verschiedene Eigenschaftsbeschränkungen festge-
legt werden, die ihre Instanzen erfüllen müssen.
OWL existiert in drei unterschiedlichen Varianten, OWL Lite, OWL DL und OWL
Full, die sich durch ihre Ausdrucksmächtigkeit unterscheiden. OWL Lite ist die
einfachste Variante, mit der die Hauptkomponenten einer Ontologie, Hierarchien zur

                                        20
3 FORMATE ZUR REPRÄSENTATION VON WISSEN

Klassifizierung von Individuen, beschrieben werden können. OWL DL4 soll möglichst
umfangreiche Beschreibungsmöglichkeiten bieten, wobei die Entscheidbarkeit jeder
Aussage jedoch garantiert bleiben soll. In OWL DL gibt es als Ergänzung zu den
hierarchischen Beziehungen zwischen Klassen weitere Typen von Beziehungen, mit
denen z. B. ausgedrückt werden kann, dass zwei Klassen disjunkt oder äquivalent
sind. OWL Full bietet die größte Ausdrucksstärke und kann mit den Möglichkeiten,
die RDF und RDFS bieten, um eigene Konzepte zur Beschreibung von Ontologien
erweitert werden.

3.3. Vergleich

RDF und Topic Maps haben viele Gemeinsamkeiten. Beides sind Technologien, die
eine formale Beschreibung verschiedener Dinge, Ressourcen, Konzepte oder Aussa-
gen ermöglichen. Die Entwicklung der beiden Technologien wurde jedoch von un-
terschiedlichen Zielen geleitet, so dass beide verschiedene Schwerpunkte für ihren
Einsatz haben. In diesem Abschnitt werden die Unterschiede der Technologien be-
trachtet, um abschließend bewerten zu können, zu welchen Vor- und Nachteilen ein
Einsatz von Topic Maps in MIDMAY führt.

3.3.1. Ziele der Technologien

Dass die beiden ähnlichen Technologien RDF und Topic Maps nebeneinander exis-
tieren, ist vor allem historisch bedingt. Zwei verschiedene Arbeitsgruppen haben
unabhängig, ohne voneinander zu wissen, begonnen ihre“ Technologie für einen be-
                                                    ”
stimmten Zweck zu entwickeln [7]. Topic Maps sind als Format für die Indizierung
von Informationsressourcen entwickelt, und von der ISO standardisiert worden. Das
Hauptziel bestand darin, ein Austauschformat für Indizes zu schaffen, dessen Daten-
modell eine Navigation“ durch die Informationen ermöglicht und die Vereinigung
             ”
verschiedener Indizes unterstützt [5]. RDF wurde vom W3C zur Unterstützung des
  Semantic Web“ entwickelt. Das Semantic Web“ ist eine Erweiterung des herkömm-
”                                 ”
lichen Webs, in der Informationen mit eindeutigen Bedeutungen versehen werden, so
dass Computer und Menschen besser zusammenarbeiten können. [2]. Ziel von RDF
ist es, ein Datenmodell für die Beschreibung von Ressourcen im World Wide Web
(WWW) anzubieten. Mit diesem Datenmodell können Ressourcen durch strukturier-
te Metadaten beschrieben werden, die als Grundlage für Interferenz-Mechanismen
dienen. Suchmaschinen oder Software-Agenten haben durch die eindeutige Beschrei-
bung bessere Möglichkeiten, für den Menschen relevante Informationen zu finden.

 4
     DL steht für Description Logics

                                         21
Sie können auch lesen