Entwicklung eines Benutzermodells zur nutzeradaptiven Suche von Datensätzen - ELIB-DLR

Die Seite wird erstellt Nathaniel Weiß
 
WEITER LESEN
Entwicklung eines Benutzermodells zur nutzeradaptiven Suche von Datensätzen - ELIB-DLR
Entwicklung eines Benutzermodells zur
 nutzeradaptiven Suche von Datensätzen

                              Masterarbeit

                    zur Erlangung des akademischen Grades
                            Master of Science (M. Sc.)
                           im Studiengang Informatik
                   Friedrich-Schiller-Universität Jena
                    Fakultät für Mathematik und Informatik

                           eingereicht von Tim Surber
                           geb. am 10.07.1996 in Jena

          Themenverantwortliche: Prof. Birgitta König-Ries, FSU Jena
      Betreuer: Sirko Schindler, DLR-Institut für Datenwissenschaften, Jena
Zweitgutachterin: Dr. Friederike Klan, DLR-Institut für Datenwissenschaften, Jena

                              Jena, 17. März 2021
Entwicklung eines Benutzermodells zur nutzeradaptiven Suche von Datensätzen - ELIB-DLR
Kurzfassung
Datenportale stellen eine große Menge an Datensätzen zur Verfügung. Das Finden des
gesuchten Datensatzes stellt dabei eine Herausforderung dar. Das Ziel dieser Arbeit
ist es, den Nutzer gezielter zum gewünschten Datensatz zu führen. Die gewählte
Methode ist das Erstellen eines Benutzermodells, um die Suche nutzeradaptiv zu
gestalten. Als eine mögliche Adaption wird in dieser Arbeit das Unterstützen des
Nutzers bei der Verwendung von Suchfiltern betrachtet. Durch Vorhersage zukün-
figer Interaktionen können Suchfiltervorschläge erzeugt werden. Dazu wurde ein
Modell unter Verwendung von partiell sortierten Sequenzregeln anhand vorheriger
Nutzersitzungen trainiert.

Das Modell wurde anhand eines vorliegenden Datensatzes, den Aufzeichnungen
eines Geodatenportals, geprüft. Es konnten die Suchfilter des nächsten Schrittes mit
einer Genauigkeit von 51% vorhergesagt werden, was eine deutliche Verbesserung
gegenüber eine zufälligen Vorhersage unter gleichen Bedinungen mit 11% darstellt.
Die Ergebnisse zeigen, dass die Entwicklung eines Benutzermodells ein geeignetes
Vorgehen ist, um Suchfilter vorherzusagen. Dies kann eingesetzt werden, um das
Suchen in Datenportalen zu verbessern.

Abstract
Data portals host a large amount of data records. Finding the right data set can
be challenging. The goal of this work is to guide the user to the correct data set.
This is implemented by creating a user model to make the search user-adaptive. This
work focuses on supporting the user in using search filters. By predicting future
interactions, search filter suggestions can be generated. For this purpose, a model is
trained using partially-ordered sequential rules with previous user sessions.

The model was tested on an existing dataset, the records of a geospatial portal. It was
able to predict the search filters of the next step with an accuracy of 51%, which is a
significant improvement over a random prediction under the same conditions with
11%. The results show that the development of a user model is a suitable process to
predict search filters. This can be used to improve searching in data portals.

                                           I
Entwicklung eines Benutzermodells zur nutzeradaptiven Suche von Datensätzen - ELIB-DLR
Inhaltsverzeichnis
1 Einleitung                                                                                                                  1

2 Stand der Forschung                                                                                                          4
  2.1 Sequenzmusteranalyse . . . . . .        .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .    6
      2.1.1 Transaktionsdatenbank . .         .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .    6
      2.1.2 Bewertung der Signifikanz         .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .    8
      2.1.3 Vorhersage . . . . . . . .        .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .    8
      2.1.4 Anwendungen . . . . . . .         .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .    9
      2.1.5 Implementationen . . . .          .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .    9
  2.2 Sequenzregelanalyse . . . . . . .       .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   10
      2.2.1 Bewertung der Signifikanz         .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   10
      2.2.2 Varianten . . . . . . . . .       .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   11
      2.2.3 Anwendungen . . . . . . .         .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   13
      2.2.4 Implementationen . . . .          .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   13
  2.3 Markov-Ketten . . . . . . . . . .       .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   14
      2.3.1 Anwendungen . . . . . . .         .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   15
      2.3.2 Implementierungen . . . .         .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   15
  2.4 Künstliche Neuronale Netze . . .        .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   16
      2.4.1 Anwendungen . . . . . . .         .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   17
      2.4.2 Implementierungen . . . .         .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   17
  2.5 EOWEB® GeoPortal . . . . . . .          .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   18
  2.6 Benutzermodelle . . . . . . . . .       .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   22

3 Konzept                                                                                                                     24
  3.1 Anforderungen an den Datensatz . . . . .                    .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   25
  3.2 Anforderungen an das Vorhersageverfahren                    .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   27
  3.3 Auswahl des Vorhersageverfahrens . . . . .                  .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   27
  3.4 Definition der Elemente . . . . . . . . . .                 .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   30

4 Datensatz                                                                        31
  4.1 Inhalt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

                                         II
Entwicklung eines Benutzermodells zur nutzeradaptiven Suche von Datensätzen - ELIB-DLR
Inhaltsverzeichnis

   4.2    Merkmale des Datensatzes . . . . . . . . . . . . . . . . . . . . . . . . 34

5 Umsetzung                                                                                                          38
  5.1 Datenvorverarbeitung . . . . . . . . . . . . . . . . . . . . . . . . .                                       . 38
      5.1.1 Aggregation . . . . . . . . . . . . . . . . . . . . . . . . . . .                                      . 39
      5.1.2 Generieren der Transaktionsdatenbank aus Feldern des Da-
             tensatzes . . . . . . . . . . . . . . . . . . . . . . . . . . . .                                     . 39
      5.1.3 Filterung . . . . . . . . . . . . . . . . . . . . . . . . . . . .                                      . 40
  5.2 Vorhersage durch Anwendung der Sequenzregelanalyse . . . . . . .                                             . 41
      5.2.1 Vorhersage unter Anwendung partiell sortierter Sequenzregeln
             (PSSR) . . . . . . . . . . . . . . . . . . . . . . . . . . . . .                                      . 42
      5.2.2 Priorisierte partiell sortierte Sequenzregeln (PPSSR) . . . .                                          . 46
  5.3 Technische Umsetzung . . . . . . . . . . . . . . . . . . . . . . . . .                                       . 48

6 Evaluation                                                                                                           49
  6.1 Ergebnisse der Vorfilterung . . . . . .     .    .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   49
  6.2 Parametrisierung . . . . . . . . . . . .    .    .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   50
       6.2.1 Hyperparameter . . . . . . . .       .    .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   50
       6.2.2 Konfiguration . . . . . . . . . .    .    .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   51
       6.2.3 Verwendete Parametergrößen .         .    .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   52
       6.2.4 Parameterkombinationen bilden        .    .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   53
  6.3 Prüfen der Vorhersage . . . . . . . . .     .    .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   53
  6.4 Auswahl des Modells . . . . . . . . . .     .    .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   54
       6.4.1 Auswahlkriterum . . . . . . . .      .    .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   54
       6.4.2 Vorgehen . . . . . . . . . . . .     .    .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   55
  6.5 Vergleichsverfahren . . . . . . . . . . .   .    .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   57
  6.6 Auswertung der Vorhersageergebnisse .       .    .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   58
  6.7 Einfluss der Parameter . . . . . . . . .    .    .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   59
       6.7.1 Umfang der Trainingsdaten . .        .    .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   60
       6.7.2 Optimale Hyperparameter . . .        .    .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   .   61

7 Fazit                                                                                                                63

Literatur                                                                                                              65

Abbildungsverzeichnis                                                                                                  70

Tabellenverzeichnis                                                                                                    71

                                         III
1 Einleitung

Ein Datenportal stellt eine Sammlung von Datensätzen zur Verfügung. Es bietet
Funktionen zum gezielten Auffinden von Datensätzen, dazu werden üblicherweise
Datensätze mit Metadaten versehen, um die Suche zu erleichtern.

Eine Umfrage unter Wissenschaftlern zeigt, dass das Finden von passenden Datensät-
zen in Datenportalen zum Einsatz in der Forschung eine anspruchsvolle (73%) oder
sogar schwierige (19%) Aufgabe ist. Ein häufig genannter Grund dafür ist, dass die
zur Verfügung stehenden Suchwerkzeuge nicht adäquat sind (Gregory u. a. 2020).

Der Prozess des Suchens lässt sich in zwei Formen von Suchanwendungen einteilen
(Heyer u. a. 2011). Die nachschlagende Suche wird etwa zum Aufsuchen von Fakten
oder zum Beantworten einer konkreten Frage genutzt. Ein übliches Bedienelement der
nachschlagenden Suche ist eine Suchleiste zur Eingabe von Stichwörtern (Marchionini
2006).

Bei einem Datenportal wird dem Nutzer hingegen eine andere Suchform zur Verfügung
gestellt. Ein Grund dafür ist, dass die nachschlagende Suche sich auf Datenportalen
als wenig effektiv herausgestellt hat. Eine Studie anhand eines biomedizinischen
Datenportals zeigt, dass die Verwendung einer klassischen Suchleiste in vielen Fällen
nicht zum gewünschten Ergebnis führt (Dixit u. a. 2017). Diese Form des Suchens
wird auch als exploratives Suchen bezeichnet. Als Bedienelement der explorativen
Suche können Suchfilter verwendet werden, um die Ergebnismenge immer weiter
einzuschränken, bis schließlich zu dem gesuchten Datensatz navigiert werden kann.

Die Auswahl der Suchfilter durch den Nutzer ist entscheidend für den Erfolg der
Suche. Eine gezielte Auswahl der Suchfilter führt in wenigen Schritten zum korrekten
Ergebnis, was bereits für den Spezialfall einer Filtersuche, der Facettensuche, unter-
sucht wurde (Basu Roy u. a. 2008). Eine unvorteilhafte Wahl der Suchfilter hingegen

                                          1
1 Einleitung

führt zu einem längeren Suchprozess, was sich negativ auf die Nutzerzufriedenheit
auswirkt (Y. Xu und Mease 2009).

Wenn der Nutzer jedoch bei der Auswahl der Suchfilter unterstützt wird, kann
er gezielter und häufer zu seinen gewünschten Suchergebnissen geführt werden.
Diese Unterstützung lässt sich etwa durch gezieltes Priorisieren bei der Anzeige
der Suchfilter realisieren. Zur Priorisierung der Suchfilter kann eine Vorhersage der
nächsten Nutzerinteraktion dienen.

Die Vorhersage von folgenden Nutzerinteraktion soll in dieser Arbeit betrachtet
werden. Dazu soll ein eine Benutzermodell anhand von historischen Nutzungsdaten
trainiert werden. Hierfür wird in dieser Arbeit ein Prozess entwickelt und angewen-
det. Dieser besteht aus der Vorverarbeitung der Daten, der Wahl eines passenden
Mining- bzw. Analyseverfahrens und abschließender Verifizierung der Korrektheit der
Ergebnisse. Die Vorhersage geschieht nutzerspezifisch, die Adaption erfolgt anhand
des Benutzermodells.

Der Vorhersageprozess soll unabhängig von einem spezifischen Datensatz sein und für
alle Datensätze, die in ein bestimmtes Schema passen, möglich sein. Die Evaluierung
der getätigten Vorhersage soll anhand eines Beispieldatensatzes erfolgen. Dieser
stammt aus dem EOWEB® GeoPortal (EGP) welches vom Deutschen Zentrum für
Luft- und Raumfahrt (DLR) unterhalten wird.

Dieses Datenportal stellt Erdbeobachtungsdaten zur Verfügung. Das EGP hat Such-
filter integriert. Diese erlauben unter anderem eine zeitliche Einschränkung der
Ergebnisse (das Aufnahmedatum) oder eine räumliche Einschränkung (die abgebilde-
te Region). Derzeit ist im EGP noch keine Nutzermodellierung enthalten. Aus den
Aufzeichnungen des EGP lässt sich schließen, dass ein beträchtlicher Teil der Nutzer
den Suchprozess abbricht, bevor ein Ergebnis gefunden werden kann. Dies gibt einen
Hinweis darauf, dass die Optimierung des Suchprozesses für konkret diese Plattform
hilfreich ist.

Für das EGP liegen Aufzeichnungen über mehrere Monate in Form von Logdateien
vor. Aus diesen lassen sich Nutzersitzungen als eine Sequenz von Interaktionen
rekonstruieren. Neben einem Nutzeridentifikator und einem Zeitstempel enthält
jede Interaktion auch Informationen über Art und Inhalt der verwendeten Filter
der Suche. Dies kann als Ausgang für eine Mustererkennung mithilfe eines Data-

                                         2
1 Einleitung

Mining-Prozesses dienen. Darauf aufbauend kann dann eine Vorhersage für zukünftige
Interaktionen ermöglicht werden. Durch die Aufteilung des Datensatzes in Trainings-
und Testdaten kann eine Prüfung der Vorhersagegenauigkeit durchgeführt werden.

Ziel dieser Arbeit ist es, Nutzer der Suchfunktion eines Datenportals gezielter zu
dem gewünschten Datensatz zu führen. In dieser Arbeit soll ein Teilaspekt behandelt
werden, der verwendet werden kann, um dieses Ziel zu erreichen: Das Priorisieren
von Suchfiltern. Dabei soll ein Vorgehen entwickelt werden, um zukünftige Nutzer-
interaktionen des Suchprozesses vorherzusagen. Durchgeführt wird die Vorhersage
ausschließlich anhand von Logaufzeichnungen. Es werden keine Umfragen mit Nut-
zergruppen durchgeführt. Der tatsächliche Einsatz der vorhergesagten Suchfiltern in
der Benutzeroberfläche und die zugehörige Auswertung dessen bleibt Gegenstand
der zukünftigen Forschung.

Bewertet wird das Erreichen des Ziels in dieser Arbeit durch Evaluation des Vor-
hersageergebnis, wobei die Vorhersagegenauigkeit der wichtigste Messwert ist. Dies
erfolgt, in dem der EGP Datensatz in Test- und Trainingsdaten gesplittet wird.

Im folgenden Kapitel wird der Stand der Forschung erläutert, ebenso findet eine
detaillierte Erklärung des EGP statt. In Kapitel 3 wird das Konzept der Vorhersage
vorgestellt. Anschließend folgt eine Informationen über den verwendeten Datensatz.
Kapitel 5 zeigt die zugehörige Implementation, anschließend erfolgt eine Diskussion
der Vorhersageergebnisse. Zum Schluss findet ein Ausblick auf mögliche zukünftige
Entwicklungen statt.

                                        3
2 Stand der Forschung

Es existieren bereits Veröffentlichungen, welche eine Vorhersage von Filtern mit dem
Ziel, das Suchergebnis zu verbessern, durchführen.

In (Chantamunee, Wong und Fung 2020) werden künstliche neuronale Netze zum
Bilden von personalisierten Empfehlungen von Suchfacetten eingesetzt. Das entwi-
ckelte Verfahren wird anhand drei öffentlich verfügbarer Datensätze geprüft, diese
Datensätze kommen aus den Bereichen Tourismus und Filmempfehlungen.

Durch (Niu, Fan und Zhang 2019) wird gezeigt, wie Entscheidungsbäume für die
Vorhersage von Suchfacetten genutzt werden können. Dies geschieht anhand eines
Datensatzes, welcher aus Benutzersitzungen eines Online-Katalogs einer Bibliothek
gewonnen wurde. Zusätzlich wird gezeigt, dass die Facettennutzung stark von vorhe-
rigen Interaktionen des Nutzers abhängig ist.

Diese Werke unterscheiden sich jedoch in zwei entscheidenden Punkten von dieser
Arbeit:

Die vorgestellten Werke beziehen sich auf eine Spezialform der Suchfilter, die Fa-
cetten. Diese ähneln den in dieser Arbeit behandelten klassischen Suchfiltern in
gewisser Weise, zeigen aber dennoch entscheidende Unterschiede auf. Die wichtigsten
Unterschiede sind in Tabelle 2.1 dargestellt. Der verschiedene Aufbau von Suchfiltern
und Facetten resultiert zwangsläufig in einem abweichenden Vorgehen des Nutzers.

Der zweite Unterschied betrifft die Art der untersuchten Plattform. In dieser Arbeit
wird die Suche von Datensätzen in einem Datenportal behandelt. In (Kern und
Mathiak 2015) wird gezeigt, dass die Suche nach Datensätzen sich von sonstigen
Suchsituationen (es wird ein Vergleich mit der Suche nach Literatur durchgeführt)
unterscheidet. Die Nutzer von Datenportalen stellen andere Anforderungen an die

                                         4
2 Stand der Forschung

 Suchfilter                                  Facetten
 Ändern sich nicht während der Suche         Ändern sich abhängig von den Such-
                                             ergebnissen
 Können vor und nach einer Suchanfrage Können nur nach einer Suchanfrage se-
 selektiert werden                     lektiert werden
 Hauptsächlich genutzt in informations- Hauptsächlich in E-Commerce Anwen-
 reichen Seiten                         dungen genutzt
 Leere Ergebnismenge möglich                 Ergebnismenge zeigt immer mindestens
                                             ein Resultat

      Tabelle 2.1: Vergleich Suchfilter mit Facetten. Quelle: (Kennedy 2020)

Ergebnisse, so ist das Vorkommen und die Qualität von Metadaten besonders wich-
tig. Auch die Suchvorgehen unterscheiden sich, eine Suche auf Datenportalen wird
aufgrund der Wichtigkeit für die Nutzer intensiver durchgeführt.

Die Einschränkung auf Datenportale und die Vorhersage von klassischen Suchfil-
tern unterscheidet diese Arbeit von bisherigen Publikationen und behandelt somit
neue Aspekte. Dem Autor ist keine Publikation bekannt, welche Vorhersagen von
Suchfiltern in einem Datenportal durchführt.

Die Vorhersage von zukünftigen Benutzerinteraktionen mit enthaltenen Suchfiltern
erfolgt auf Basis vorheriger Benutzerinteraktionen. Die aufeinanderfolgenden Interak-
tionen können als sequenzielle Daten betrachtet werden. Es folgt eine Vorstellung von
in der Literatur bekannten Verfahren, welche eine Vorhersage anhand vorliegender
sequenzieller Daten durchführen können.

Bei dem Finden von Mustern in sequenziellen Daten ist das Kernproblem, zu un-
tersuchen, welche Elemente häufig nacheinander auftreten. Es unterscheidet sich
dabei von Verfahren, welche die Reihenfolge von Elementen nicht beachten, wie etwa
Frequent Itemset Mining oder die Assoziationsanalyse. Diese werden genutzt, um
häufig zusammen auftretende Elemente zu finden (Brückner und Scheffer 2013).

Nach der Vorstellung der Vorhersageverfahren werden in diesem Kapitel relevante
Hintergrundinformationen des EOWEB GeoPortals genannt. Dieses ist der Ursprung
des in dieser Arbeit verwendeten Datensatzes. Zum Schluss werden Informationen
über Benutzermodelle vorgestellt.

                                         5
2 Stand der Forschung

2.1 Sequenzmusteranalyse

Die Sequenzmusteranalyse ist ein Verfahren, welches als Eingabe eine Transaktionsda-
tenbank benötigt. Aus der Transaktionsdatenbank werden Sequenzmuster extrahiert.
Sequenzmuster zeigen nacheinander auftretende Elemente einer Sequenz, wobei die
signifikanten Sequenzmuster am relevantesten sind.

2.1.1 Transaktionsdatenbank

In Abbildung 2.1 wird ein Beispiel einer Transaktionsdatenbank in zwei verschiedenen
Darstellungsformen gezeigt. In Abbildung 2.1a ist ein Ausschnitt der Transaktions-
datenbank in der ausführlichen Schreibweise gezeigt. In Abbildung 2.1b werden die
gleichen Daten dagegen in einer verkürzten Schreibweise gezeigt, wie sie auch im
Rest der Arbeit verwendet wird. Diese Form eignet sich auch zur Repräsentation der
Transaktionsdatenbank in Textdateien.

Das Beispiel zeigt die Einkäufe von sechs Kunden, jeder Kunde wird durch eine
Kunden-ID bezeichnet. Jedem Kunden lassen sich Einkäufe zuordnen. Ein Einkauf
enthält die erworbenen Produkte A bis E. Die Einkäufe sind sortiert in der Transakti-
onsdatenbank eingefügt, dass bedeutet Einkauf 2 von Kunde 1 fand zu einem späteren
Zeitpunkt als Einkauf 1 von Kunde 1 statt. Jeder Einkauf lässt sich eindeutig durch
das Tupel (Kunden-ID, Einkaufs-ID) bestimmen.

Das Beispiel zeigt etwa, dass Kunde 1 im ersten Einkauf die Produkte A und C
erwarb. Zu einem späteren Einkauf wurde nur Produkt B erworben, zu einem dritten
Einkauf C und E. Kunde 2 erwarb im Beispiel die Produkte A, B und C einzeln in
drei getrennten Einkäufen.

Eine Transaktionsdatenbank wird durch folgende Bestandteile bestimmt:

  • Sequenz Die Transaktionsdatenbank enthält Sequenzen. In Abbildung 2.1a
    wird eine Sequenz durch die gleiche Kunden-ID gekennzeichnet. In Abbil-
    dung 2.1b steht jede neue Zeile für eine Sequenz. Im Beispiel entspricht die
    Sequenz der Einkaufshistorie eines einzelnen Kundens.

                                         6
2 Stand der Forschung

Kunden-ID    Einkaufs-ID    A    B   C    D   E         1: < {A, C}, {B}, {C, E} >
                                                        2: < {A}, {B}, {C} >
    1             1         3 5 3 5 5
                                                        3: < {A, C}, {B}, {D} >
    1             2         5 3 5 5 5
                                                        4: < {B, D}, {E}, {A} >
    1             3         5 5 3 5 3
                                                        5: < {E}, {D}, {B}, {A} >
    2             1         3 5 5 5 5
                                                        6: < {B, D, E}, {A} >
    2             2         5 3 5 5 5
    2             3         5 5 3 5 5
                      ...
          (a) Ausführliche Schreibweise                  (b) Verkürzte Schreibweise

             Abbildung 2.1: Beispiel für eine Transaktionsdatenbank

  • Ereignis Eine Sequenz erhält Ereignisse. Die Ereignisse einer Sequenz sind
    zeitlich sortiert. In Abbildung 2.1a wird jede Sequenz durch die Kombination
    von Kunden-ID und Einkaufs-ID definiert. In Abbildung 2.1b wird eine Sequenz
    durch eine Einfassung in geschweifte Klammern {} begrenzt. Die Einkäufe aus
    dem Beispiel entsprechen den Ereignissen.

  • Element Ein Ereignis enthält eine Menge von Elementen. In dieser Menge
    herrscht keine Ordnungsrelation. Die Elemente entsprechen im Beispiel den
    Artikeln A bis E des Einkaufs .

Eine mögliches Sequenzmuster, welches aus Abbildung 2.1 abgeleitet werden kann,
ist beispielsweise < {A}, {B}, {C} >. Es ist in den Sequenzen 1 und 2 vorhanden.
Die Trennung der Mengen aus Elementen durch ein Komma impliziert eine zeit-
liche Abfolge; {B} tritt somit zu einem späteren Zeitpunkt als {A}. Dabei ist es
keine Anforderung, dass die Elemente der Sequenzmuster in direkt aufeinanderfol-
genden Ereignissen auftreten. Es können auch beliebig viele Ereignisse dazwischen
auftreten.

Ein anderes Sequenzmuster ist < {B, D}, {A} >, welches in den Sequenzen 4 und 6
auftritt. Wenn mehrere Elemente innerhalb der geschweiften Klammern {} vorhanden
sind, dann treten diese zum gleichen Zeitpunkt auf. Dieses Muster gibt somit an,
dass B und D zum gleichen Zeitpunkt erworben werden und {A} zu einem späteren
Zeitpunkt.

                                          7
2 Stand der Forschung

2.1.2 Bewertung der Signifikanz

Bei der Sequenzmusteranalyse an einem umfangreichen Datensatz entstehen entspre-
chend viele Sequenzmuster. Um zu bewerten, wie interessant ein Sequenzmuster ist,
kann der Messwert „Support“ verwendet werden.

Support
Der Support eines Sequenzmusters m gibt an, wie groß der Anteil der Sequenzen ist,
die dieses Muster enthalten.

                           Anzahl der Sequenzen, die m enthalten
                sup(m) =
                                  Anzahl aller Sequenzen

Das Sequenzmuster < {A}, {B}, {C} > tritt in den Sequenzen 1 und 2 von insgesamt
sechs Sequenzen auf, der zugehörige Support-Wert ist somit 26 = 33%.

2.1.3 Vorhersage

Sequenzmuster mit dem zugehörigen Support-Wert sind geeignet um häufig nach-
einander auftretende Elemente zu finden. Wie unter anderem durch (Pitman und
Zanker 2011) und (Fournier Viger, Faghihi u. a. 2012) analysiert wurde, eignen sich
Sequenzmuster nur begrenzt zur Vorhersage.

Die Vorhersage durch Sequenzmuster erfordert einen Trainingsdatensatz in Form
einer Transaktionsdatenbank. In dem Trainingsdatensatz werden häufig auftretende
Sequenzmuster gefunden. Anschließend kann anhand von neuen beziehungsweise
unbekannten Sequenzen eine Vorhersage des folgenden Elements durchgeführt werden.
Dabei wird ein Sequenzmuster gewählt, welches eine große Übereinstimmung mit der
neuen Sequenz besitzt. Die verbleibenden Elemente des gewählten Sequenzmusters
entsprechen der Vorhersage.

Die Einschränkungen der Vorhersage durch Sequenzmuster werden an einem Beispiel
verdeutlicht, welches die Transaktionsdatenbank Abbildung 2.1 als Trainingsdaten
verwendet. Dazu wird die Vorhersage einer neuen Sequenz betrachtet. Es sind bereits
zwei Ereignisse in dieser Sequenz enthalten, wobei das erste Ereignis das Element
{A} und das zweite Ereignis {B} enthält. Ziel ist die Vorhersage des folgenden

                                        8
2 Stand der Forschung

Elements. Dies soll unter der Bedingung durchgeführt werden, dass die Vorhersage
zu mindestens 80% korrekt ist, ansonsten soll keine Vorhersage abgegeben werden.

Diese Information ist jedoch nicht aus dem Sequenzmuster oder dem zugehörigen
Supportwert abzulesen. In der Transaktionsdatenbank lässt sich erkennen, dass auf
{A}, {B} in zwei von drei Fällen C folgt, in Sequenz 1 und 2. In einem von drei
Fällen folgt auf {A}, {B} stattdessen D (in Sequenz 3). Unter der Annahme, dass
die neu eintreffenden Sequenzen gleich wie die Trainingsdaten verteilt sind, ist die
Vorhersage zu 67% korrekt. Damit unterschreitet die Verwendung dieses Musters
den geforderten Anspruch von 80% Korrektheit.

Es lässt sich eine für die Vorhersage nützliche Eigenschaft erkennen, welche in den
Sequenzmustern fehlt: Wenn {A}, {B} auftreten, dann folgt in 67% der Fälle {C}.
Diese Eigenschaft wird von den Sequenzregeln genutzt, welche in Abschnitt 2.2
vorgestellt werden.

2.1.4 Anwendungen

Insbesondere im medizinischen Bereich existieren Forschungsprojekte, welche Se-
quenzmuster verwenden. Sequenzmuster sind geeignet, um etwa Kombinationen von
Risikofaktoren einer Krankheit zu ermitteln. Beispiele dafür sind das Erkennen von
Risikofaktoren einer HIV-Erkrankung (Velez u. a. 2013) oder der Vogelgrippe (Z. Xu
2016). Neben dem Einsatz im medizinischen Bereich können Sequenzmustern zur
Vorhersage des Verkehrsflusses (Ibrahim und Shafiq 2019) verwendet werden.

2.1.5 Implementationen

Das Paket arulesSequence (Hornik, Grün und Hahsler 2005) für die Program-
miersprache R ermöglicht das Erstellen von Sequenzmustern. Dies verwendet den
CSPADE-Algorithmus (Zaki 2000b), welcher eine Erweiterung des SPADE-Algorithmus
(Zaki 2000a) um zusätzliche Parameter ist.

                                         9
2 Stand der Forschung

2.2 Sequenzregelanalyse

Die Sequenzregelanalyse ist ebenso ein Verfahren, welches eine Transaktionsdatenbank
verwendet. Anhand dieser werden Sequenzregeln erzeugt. Sequenzregeln beschreiben
nacheinander auftretende Elemente einer Sequenz. Dabei verwenden Sequenzregeln
eine andere Darstellungsform als Sequenzmuster. Es werden die auftretenden Elemen-
te auf zwei Seiten unterteilt und üblicherweise durch einen Pfeil getrennt dargestellt,
wie etwa X → Y . Die linke, oder auch vorausgehende Seite der Regel (X) stellt die
Bedingung für das Eintreffen der Regel dar. Die rechte, oder auch nachfolgende Seite
der Regel (Y ) zeigt die Elemente, welche danach auftreten (nicht zwangsläufig direkt
danach). Ein Beispiel für Sequenzregeln aus Abbildung 2.1 ist etwa {A}, {B} → {C}
aus den Sequenzen 1 und 2.

2.2.1 Bewertung der Signifikanz

Für die Anwendung der Sequenzregeln ist entscheidend, aus der großen Menge
der generierten Regeln diese auszuwählen, die sich besonders gut für zukünftige
Vorhersagen eignen. Diese Regeln werden als interessant oder signifikant bezeichnet.

Neben dem aus den Sequenzmustern bekannten Support-Wert exisitiert bei Sequenz-
regeln zusätzlich der Konfidenz-Wert.

Support
Für eine Sequenzregel r = X → Y ist der Support folgendermaßen definiert:

             Anzahl der Sequenzen, die zuerst X und anschließend auch Y enthalten
sup(r) =
                                  Gesamtzahl der Sequenzen

Der Support gibt somit an, wie groß der Anteil der Sequenzen ist, die diese Regel
enthalten.

Konfidenz
Für eine Sequenzregel r = X → Y ist die Konfidenz folgendermaßen definiert:

             Anzahl der Sequenzen, die zuerst X und anschließend auch Y enthalten
conf (r) =
                            Anzahl der Sequenzen, die X enthalten

                                          10
2 Stand der Forschung

Die Konfidenz gibt an, wie wahrscheinlich es ist, dass auf ein Antreffen der linke
Seiten X in einer Sequenz, später die rechte Seite Y folgt. Durch die Konfidenz wird
somit angegeben, wie häufig eine Regel korrekt ist.

Zur Auswahl einer interessanten Regel ist das Betrachten von sowohl Support als
auch Konfidenz relevant. Bei Betrachten des Supports als einzigen Wert besteht
die Gefahr, dass Regeln, welche häufig korrekt sind, aber selten auftreten, nicht als
interessant erkannt werden. Trotzdem müssen auch Regeln, welche sich durch einen
hohen Konfidenzwert und einen niedrigen Supportwert auszeichnen mit Vorsicht
behandelt werden. Der hohe Konfidenzwert kann bei einem geringen Support ein
Indiz für einen „Zufallstreffer“ sein.

2.2.2 Varianten

Im Folgenden werden zwei Varianten der Sequenzregeln vorgestellt, es sind sowohl
vollständig sortierte Sequenzregeln als auch partiell sortierte Sequenzregeln bekannt
(Fournier Viger, C.-W. Wu, Tseng und Nkambou 2012).

Vollständig sortierte Sequenzregeln
Diese Variante wird auch „sequential rules between sequential patterns“ genannt.
Sowohl die linke und rechte Seite der Regel ist jeweils ein vollständig sortiertes
Sequenzmuster.

Das Betrachten der Sequenzen 4 bis 6 in Abbildung Abbildung 2.1 erzeugt unter
anderem folgende drei verschiedene Sequenzregeln, welche sehr spezifisch sind, da sie
jeweils nur für eine Sequenz gelten:

                                 {B, D}, {E} → {A}
                               {E}, {D}, {B} → {A}
                                   {B, D, E}, → {A}

Zusätzlich können noch weitere, recht allgemeine Sequenzregeln gebildet werden, wie
etwa die Folgende:
                                    {B} → {A}

                                         11
2 Stand der Forschung

Angenommen, es tritt eine neue Sequenz auf, deren weiterer Verlauf anhand der
vorhandenen Sequenzregeln vorhergesagt werden soll. Diese Sequenz ist {B}, {D, E}.
Diese Sequenz den Mustern ähnelt den Mustern, welche sich auf der linken Seite der
drei spezifischen Regeln befinden. Dennoch passt sie zu keiner der Regeln. Stattdessen
kann nur die allgemeine Regel {B} → {A} verwendet werden. Die Verwendung von
ausschließlich allgemeinen Regeln führt aber dazu, dass verschiedene Ausgangssitua-
tionen nicht hinreichend differenziert werden können. So ist möglicherweise für das
Auftreten der neuen Sequenz {C}, {B}, welche mit {C} ein komplett neues Element
enthält, die Regel {B} → {A} möglicherweise keine ausreichende Unterscheidung
mehr.

Partiell sortierte Sequenzregeln
In (Fournier Viger, C.-W. Wu, Tseng, Cao u. a. 2015) wird das Problem der vollständig
sortierten Sequenzregeln erkannt: Die große Menge an erstellten Regeln sind häufig
zu spezifisch, um sie für Vorhersagen von neuen Sequenzen nutzen zu können.

Deswegen wurde von Fournier-Viger et al. eine andere Definiton der Sequenzre-
geln entwickelt. Diese werden als partiell sortierte Sequenzregeln oder auch „common
to several sequences“ bezeichnet.

Partiell sortierte Sequenzregeln zeichnen sich durch folgende Eigenschaften aus:

   • Die Sequenzrelation zwischen linker und rechter Seite der Regel bleibt erhalten
     – Die rechte Seite folgt weiterhin der linken Seite.

   • Die Unterteilung der linken und rechten Seite in jeweils einzelne Ereignisse
     wird aufgehoben – Alle Elemente stehen innerhalb eines geschweiften Klammer
     {}.

   • Die Muster, welche sich auf der linken und rechten Seite der Regel befinden,
     sind nicht sortiert.

   • Linke und rechte Seite der Regel sind immer disjunkte Mengen.

Ein erneutes Betrachten der Sequenzen 4 bis 6 aus Abbildung 2.1 zeigt folgendes
Muster:
Nach Auftreten von B, D und E in beliebiger Reihenfolge folgt danach A.

                                         12
2 Stand der Forschung

Diese drei Sequenzen lassen sich alle durch die folgende partiell sortierte Sequenzregel
beschreiben:
                                  {B, D, E} → {A}

Untersuchungen zeigen, dass partiell sortierte Sequenzregeln bei den betrachteten
Datensätzen stets bessere Vorhersageergebnisse erzielte als die vollständig sortierten
Sequenzregeln (Fournier Viger, C.-W. Wu, Tseng, Cao u. a. 2015).

2.2.3 Anwendungen

Sequenzregeln wurden eingesetzt um Kursverläufe an der Börse (Yang, Hsieh und J.
Wu 2006) oder Besuche von Webseiten vorherzusagen (Singh, M. Kaur und P. Kaur
2017). Ein weitere Anwendung der Sequenzregeln ist es, Abhängigkeiten zwischen
verschiedenen Sensormessswerten eines Gebäude-Automatisierungssystems zu finden
(Stinner u. a. 2019).

2.2.4 Implementationen

Mit dem bereits erwähnten Paket arulesSequence der Programmiersprache R kön-
nen mit der Funktion ruleInduction aus vorher erstellten Sequenzmustern vollstän-
dig sortierte Sequenzregeln generiert werden.

SPMF (Fournier-Viger, Lin u. a. 2016), was sowohl als eigenständiges Programm als
auch als Java-Softwarebibliothek verwendet werden kann, implementiert verschiede-
ne Data-Mining-Algorithmen. Es können aus einer Transaktionsdatenbank sowohl
vollständig sortierte (RuleGen-Algorithmus) als auch partiell sortierte Sequenzregeln
(u.a. TRuleGrowth-Algorithmus) erstellt werden.

                                          13
2 Stand der Forschung

2.3 Markov-Ketten

        PAA                   PBB
                   PAB
                   PBA
         A                     B

                                                        A      B     C
                PAC PCB
                                                    A   PAA    PBA   PCA
       PCA                     PBC                  B   PAB    PBB   PCB
                                                    C   PAC    PBC   PCC
                    C

                  PCC
        (a) Darstellung als Graph                    (b) Übergangsmatrix

                        Abbildung 2.2: Beispiel Markov-Kette

Eine Markov-Kette ist eine weitere Möglichkeit, eine Vorhersage aus sequenziellen
Daten zu erzeugen. Die Markov-Kette ist eine Beschreibung eines Zufallsprozesses.
Eine übliche Darstellungsform ist ein Diagramm, wie in Abbildung 2.2a dargestellt.
Die gezeigte Markov-Kette besteht aus den Zuständen (A, B, C). Der Prozess befindet
sich immer in einem Zustand. Es ist ein Übergang in andere Zustände möglich. Es
werden sowohl zwischen verschiedenen Zuständen Übergangswahrscheinlichkeiten
(u.a. PBA , PAC ) angegeben, als auch Wahrscheinlichkeiten, im gleichen Zustand zu
bleiben (u.a. PAA , PBB ). Die Wahrscheinlichkeiten können in einer Übergangsmatrix
angegeben werden (siehe: Abbildung 2.2b).

Um Markov-Ketten zur Vorhersage zu nutzen, wird ein Trainingsdatensatz eingesetzt,
um die Übergangswahrscheinlichkeiten bestimmen zu können. Die in Abbildung 2.2
dargestellte Form besitzt kein Gedächtnis. Dies bedeutet, dass der nächste Zustand
nur vom derzeitigen Zustand abhängig ist.

Bei Verwendung von Markov-Ketten zur Vorhersage sequenzieller Daten führt die
Betrachtung der vorherigen Zustände zu genaueren Vorhersagen (Rosvall u. a. 2014),
(Chierichetti u. a. 2012). Dazu werden Markov-Ketten höherer beziehungsweise n-ter
Ordnung benötigt. Die Ordnung beschreibt, von wie vielen Zuständen die Vorhersage
abhängig ist. Abbildung 2.2 zeigt eine Markov-Kette erster Ordnung, da sie insgesamt

                                        14
2 Stand der Forschung

von einem Zustand abhängig ist.

Wenn das gezeigte Beispiel stattdessen eine Markov-Kette zweiter Ordnung wäre,
dann wäre die Vorhersage vom derzeitigen Zustand und vom vorherigen Zustand
abhängig. Dies wird erreicht, in dem Zustände erzeugt werden, welche eine An-
einanderreihung der Zustände der Markov-Kette erster Ordnung sind. Die Zustän-
de sind in diesem Fall alle Variationen von {A, B, C} mit einer Länge von zwei:
({AA}, {AB}, {AC}, {BA} . . .). Bei Markov-Ketten höherer Ordnung steigt die An-
zahl der benötigten Zustände und die benötigte Rechenleistung somit schnell an
(Deshpande und Karypis 2004).

2.3.1 Anwendungen

Markov-Ketten können eingesesetzt werden, um algorithmisch Texte oder Musik zu
generieren (McAlpine, Miranda und Hoggar 1999). Eine weitere Einsatzmöglichkeit
ist die Vorhersage des Klickpfades von Nutzern einer Webseite (Sarukkai 2000).
Die Vorhersage des Klickpfades konnte bessere Ergebnisse erzielen, in dem mehrere
Übergangsmatrizen aus verschiedenen Zeiträumen erstellt wurden, wobei neuere
stärker gewichtet werden (Jayalal, Hawksley und Brereton 2007).

2.3.2 Implementierungen

Es existiert unter anderem die Python-Bibliothek mchmm, welche genutzt werden
kann, um aus einer gegebenen Sequenz eine Übergangsmatrix mit den zugehörigen
Wahrscheinlichkeiten zu erstellen (Terpilowski 2021).

                                       15
2 Stand der Forschung

2.4 Künstliche Neuronale Netze

                        Eingabe-     Verdeckte      Ausgabe-
                         schicht      Schicht        schicht

           Eingabe #1

           Eingabe #2                                           Ausgabe

           Eingabe #3

  Abbildung 2.3: Schematische Darstellung eines Künstlichen Neuronalen Netzes

Ein künstliches Neuronales Netz (KNN) besteht aus künstlichen Neuronen, welche
untereinander verbunden sind. In Abbildung 2.3 ist ein einfaches Feedforward-Netz
dargestellt. Dies bedeutet, dass die Ausgaben der Neuronen ausschließlich in eine
Richtung weitergeführt werden, eine Rückkopplung findet in dem Fall nicht statt. Die
Neuronen sind in einzelnen Schichten angeordnet. Die dargestellte Eingabeschicht
kann drei verschiedene Eingaben verarbeiten. Häufig werden als Eingaben normierte
Zahlenwerte zwischen 0 und 1 verwendet.

Es existieren Verbindungen beziehungsweise Kanten zwischen den Neuronen. Je-
der Verbindung wird eine bestimmte Gewichtung zugeordnet. Das Netz lernt, in
dem die Gewichte der Verbindungen angepasst werden. Dazu sind Trainingsdaten
notwendig.

Die Entwicklung von Trainingsalgorithmen, welche auf leistungsfähigen Grafikprozes-
soren ausgeführt werden können, erlaubt die Verwendung sehr großer Datenmengen
als Trainingsdaten (Paine u. a. 2013).

Die Ausgabe der einzelnen Neuronen wird von Schicht zu Schicht bis zu einer
Ausgabeschicht geleitet. An dieser kann das Ergebnis observiert werden.

Die Zustände und Gewichtungen innerhalb eines KNN sind für den Menschen schwer
interpretierbar, insbesondere wenn deutlich mehr Neuronen und Schichten als in
dem gezeigten Beispiel vorhanden sind. Ein fertig trainiertes KNN erzeugt zu einer
Eingabe eine Ausgabe, es ist jedoch schlecht nachzuvollziehen, wie die Ausgabe

                                        16
2 Stand der Forschung

erzeugt wurde. Dieses Verhalten wird oft als Black-Box-Verhalten bezeichnet. Es gibt
Bestrebungen den inneren Zustand der KNN durch Visualisierungen verständlicher
darzustellen (Murdoch und Szlam 2017), diese befinden sich jedoch noch in einem
recht frühen Stadium.

Es existieren viele Arten der KNN. Zur Vorhersage sequenzieller Daten werden
häufig Long short-term memory („langes Kurzzeitgedächtnis“) Netze eingesetzt.
Erstmals in (Hochreiter und Schmidhuber 1997) vorgestellt, ist es heutzutage ein weit
verbreitetes Verfahren. Im Gegensatz zum Feedforward-Netz in Abbildung 2.3 nutzt
ein Long short-term memory Netz zusätzlich Neuronenverbindungen, welche entgegen
der Verabeitungsrichtung verlaufen, um bessere Vorhersageergebnisse erzielen zu
können.

2.4.1 Anwendungen

Im letzten Jahrzehnt wurde viel an KNN geforscht, so steigt die Anzahl der Publika-
tionen, welche sich auf KNN beziehen, im letzten Jahrzehnt jährlich an1 .

So wird beispielsweise ein Long short-term memory Netz eingesetzt, um Kunden-
und Einkaufsverhalten im Versandhandel zu analysieren, das gezeigte Vorgehen ist
besonders geeignet für große Datenmengen (Jamshed, Mallick und Kumar 2020).
Auch die Handschrifterkennung (Graves u. a. 2009) oder die Spracherkennung (Sak,
Senior und Beaufays 2014) sind häufige Anwendungsgebiete. In (Park u. a. 2018)
wird ein KNN genutzt um die Fahrbahn von Fahrzeugen vorherzusagen.

2.4.2 Implementierungen

Es existieren viele Softwarepakete um KNN nutzen zu können. Populäre Beispiele sind
scikit-lern (Pedregosa u. a. 2011) und TensorFlow (Martı́n Abadi u. a. 2015).

 1
     Anhand der Suchfunktion der https://www.sciencedirect.com Datenbank bestimmt

                                            17
2 Stand der Forschung

2.5 EOWEB®GeoPortal

Das EOWEB® GeoPortal (EGP) ist ein Datenportal des Deutschen Zentrums für
Luft- und Raumfahrt e.V. Auf diesem Datenportal stehen Erdbeobachtungsdaten
aus dem Deutschen Satellitendaten-Archiv zur Verfügung (Deutsches Zentrum für
Luft- und Raumfahrt e.V. 2020). Das Portal ist online2 verfügbar.

Um einen Datensatz zu erwerben, durchläuft ein Nutzer üblicherweise mehrere
Schritte. Zuerst erfolgt die Anmeldung auf dem Datenportal. Die Verwendung
eines Gastzugangs ist ebenso möglich. Im nächsten Schritt existieren Such- und
Filterfunktionen, um den Nutzer beim Auffinden von Datensätzen zu unterstützen.
In der Ergebnisliste erscheinen Einträge mit einer Vorschau der Ergebnisse. Falls
ein passender Datensatz gefunden wurde, kann dieser erworben und anschließend
heruntergeladen werden. Dazu wird auf ein weiteres Portal weitergeleitet.

 2
     https://eoweb.dlr.de

                                       18
2 Stand der Forschung

                                            0

                    1                      2                       3

                                           4

                                 (a) Products-Ansicht

              5                    1                     2              6

                        (b) Suchoptionen der Collections-Ansicht

Abbildung 2.4: EOWEB Benutzeroberfläche.
               0 Tab um zwischen Ansichten zu wechseln
               1 Räumlicher Filter
               2 Zeitlicher Filter
               3 Kollektionsfilter
               4 Ergebnisliste
               5 Stichwortsuche
               6 Filterung nach Typ

Die Benutzeroberfläche des EGP ist in der Abbildung 2.4 dargestellt. Die angebotenen
Beobachtungsdaten sind in Kollektionen unterteilt. Eine Kollektion fasst verschiedene,
ähnliche Beobachtungen zusammen. Ein Beispiel für eine Kollektion ist METOP
GOME-2 - Nitrogen Dioxide (NO2) - Global. Dabei handelt es sich um Aufzeichnungen
der METOP Satelliten. Gemessen wurde die Stickstoffdioxid-Konzentration weltweit.
Die Kollektionen sind mit Metadaten versehen. Mögliche Informationen können unter
anderem eine Kurzbeschreibung, Auflösung der Messwerte oder die Nennung eines
Ansprechpartners sein.

                                          19
2 Stand der Forschung

Eine Kollektion enthält Produkte. Im Fall der METOP GOME-2 Kollektion ist ein
Produkt ein Datensatz zu einem konkreten Zeitpunkt. Eine Vorschau eines METOP
GOME-2 Datensatzes wird in Abbildung 2.5 gezeigt.

Abbildung 2.5: Vorschau der Stickstoffdioxid-Messwerte des METOP-Satelliten. Quel-
               le: (DLR EGP 2020)

Die Benutzeroberfläche wird anhand der Anmerkungen in Abbildung 2.4 erläutert,
sie lässt sich in Menü, Suchelemente und Ergebnisliste unterteilen.

Über das Menü lässt sich zwischen zwei Ansichten umschalten. Je nachdem, ob der
Nutzer entweder nach Kollektionen oder nach Produkten sucht, stehen verschiedene
Ansichten zur Verfügung, zwischen denen über Tabs ( 0 ) in der Kopfzeile umgeschaltet
werden kann. Die Ansichten unterscheiden sich in der Anzeige der Ergebnisse und in
den verfügbaren Suchfiltern.

Folgende Suchfilter werden im EGP angeboten:

   • Räumlich ( 1 ) Der räumliche Filter ermöglicht die Spezifizierung der Region,
     zu der Erdbeobachtungsdaten abgerufen werden sollen. Dies kann durch Zeich-
     nen eines Begrenzungsrahmens auf einer Weltkarte erfolgen, durch Auswahl
     eines Ortes aus einer vordefinierten Liste oder durch Hochladen eines shape file,
     welches eine räumliche Einschränkung definiert.

   • Zeitlich ( 2 ) Durch den zeitlichen Filter kann die Auswahl auf Beobach-

                                         20
2 Stand der Forschung

      tungsdaten eingeschränkt werden, die innerhalb eines bestimmten Zeitfensters
      aufgenommen wurden. Es besteht sowohl die Möglichkeit vorgeschlagene In-
      tervalle wie Letzter Monat zu verwenden, als auch individuell ein Start- sowie
      Enddatum festzulegen.

  • Bestandteil einer Kollektion ( 3 ) Dieser Filter legt fest, zu welcher Kollekti-
    on die angezeigten Produkte gehören. Eine Auswahl von mehreren Kollektionen
    zur gleichen Zeit wird unterstützt.

  • Eingabe eines Schlüsselworts ( 5 ) Dieser Filter ermöglicht eine freie Suche
    in den Metadaten der Kollektionen. Es existiert eine Suchvervollständigung.
    Bei Eingabe eines Suchbegriffes werden Vorschläge angezeigt.

  • Typ ( 6 ) Der Typ einer Kollektion kann drei verschiedene Werte annehmen.
    Ein Datensatz enthält ein einzelnes Produkt, eine Datensatzserie hingegen
    mehrere zusammenhängende Aufzeichnungen. Dies kann etwa die Betrachtung
    des gleichen Messwertes zu verschiedenen Zeitpunkten sein. Die dritte Mög-
    lichkeit, ein Service, enthält keine Produkte, sondern bietet Zugriff auf einen
    Webservice an, der weitere Daten zur Verfügung stellt. Es können verschiedene
    Kollektionstypen zeitgleich gewählt werden.

Die Collections-Ansicht (siehe: Abbildung 2.4b) zeigt in der Ergebnisliste ausschließ-
lich Kollektionen an. Diese Ansicht ermöglicht die Verwendung der räumlichen und
zeitlichen Suchfilter, die Nutzung der Schlüsselwortsuche oder die Wahl des Typs.

Bei Verwendung der Products-Ansicht hingegen (siehe: Abbildung 2.4a) enthält die
Ergebnisliste nur Einträge vom Typ Produkt. Die Schlüsselwortsuche und Typfil-
terung ist in dieser Ansicht nicht verfügbar, stattdessen ist eine Filterung nach
Zugehörigkeit zu einer Kollektion möglich.

Die Ergebnisliste ( 4 ) verwendet Paginierung. Bei vielen Suchresultaten werden die
Ergebnisse auf mehrere Seiten aufgeteilt, der Nutzer kann die angezeigte Seite und
die Anzahl der Ergebnisse pro Seite anpassen.

Eine Analyse der EOWEB-Logdaten und damit der gleiche Datensatz, welcher in
dieser Arbeit verwendet wurde, wurde in (Schindler, Paradies und Twele 2019) durch-
geführt. Darin wurde eine Übersicht über die Verwendungshäufigkeit der einzelnen

                                         21
2 Stand der Forschung

Filter erstellt. Es wurden die Eingaben der Nutzer in den Suchfeldern detailliert
analysiert. Dazu erfolgte eine Einteilung der Bedeutung der Suchbegriffe in einzelne
Klassen.

Die Autoren konnten feststellen, dass die vorhandenen Begriffe der Suchvervoll-
ständigung oft nicht ausreichend waren, um die Intentionen der Nutzer abzubilden.
Außerdem wurde gezeigt, dass in der vorhandenen Stichwortsuche Schreibfehler
oder alternative Schreibweisen eines Begriffes selten zum Erfolg führten. Es wurden
Vorschläge formuliert, um die Suchleistung in Zukunft verbessern zu können. Dazu
gehört die Verwendung eines Stemming-Algorithmus, um abweichende Schreibweisen
eines Wortes zu erkennen und die Verwendung einer OpenStreetMaps-Schnittstelle,
um lokalisierte Ortsbezeichnungen nutzen zu können.

Die durchgeführten Analysen behandelten die Suchanfragen als einzelne Ereignisse.
Eine Betrachtung der Anfragen als Sequenz in einer Sitzung eines Nutzers fand nicht
statt. Eine Vorhersage zukünftiger Anfragen, wie es Bestandteil dieser Arbeit ist,
wird nicht durchgeführt.

2.6 Benutzermodelle

Ein Benutzermodell ist eine synthetische Repräsentation einer Person. Das Modell
wird durch verschiedene Attribute (ein Schema) bestimmt (Thierry 2005). Ein
Benutzermodell kann als offen oder auch als geschlossen klassifiziert werden. Offen
bedeutet hierbei, dass der Nutzer einsehen kann, welche Informationen über ihn
existieren. Zusätzlich ist ein gezieltes, aktives Anpassen des Modells direkt durch
den Nutzer möglich. Ein Beispiel ist in Abbildung 2.6 zu sehen. Dort dargestellt ist
Grapevine (Rahdari, Brusilovsky und Babichenko 2020). Grapevine ist ein System
zum Finden von Forschungsberatern, in dem der Anwender durch verschiedene Slider
seine Interessen spezifizieren kann.

                                        22
2 Stand der Forschung

Abbildung 2.6: Beispiel eines Systems mit offenem Nutzermodell.
               A: Stichworteingabe, B: Verwandte Stichworte, C: Interessen-Slider,
               D: Ergebnisse
               Quelle: nach Rahdari, Brusilovsky und Babichenko 2020, S. 4

Ein offenes Benutzermodell erhöht die Transparenz für den Nutzer und erlaubt eine
gewisse Kontrolle über die Adaption (Frasincar, Borsje und Levering 2009). Dies
ist allerdings auch nicht ohne Risiken. Es ist durchaus möglich, dass ein geringes
Vorwissen der Nutzer dazu führt, dass irreführende Pfade eingeschlagen werden
(Ahn u. a. 2007). Ein offenes Benutzermodell kann zur Bestimmung der Risikobereit-
schaft von Nutzern im Kontext der mobilen Datennutzung (Molnar und Muntean
2019) verwendet werden. Eine weitere mögliche Nutzung ist der Einsatz im interakti-
ven Schulunterricht (Molnar, Virseda und Frias-Martinez 2015). Ein geschlossenes
Nutzermodell hingegen bietet keine Möglichkeit der aktiven Anpassung durch den
Nutzer. Der Nutzer beeinflusst die Adaption zwar durch seine Interaktionen, es
besteht aber keine Möglichkeit der Beeinflussung durch ein zur Verfügung gestelltes
Bedienelement.

Anhand eines Benutzermodells können drei grundlegende Arten der Personalisierung
(Molnar und Muntean 2019) durchgeführt werden:

   • Personalisierung anhand des Nutzers Die Ausgabe passt sich den vorherigen Ak-
     tionen der Nutzer an. Alternativ können Informationen von anderen Systemen
     importiert werden (Wongchokprasitti u. a. 2015).

   • Personalisierung anhand des Geräts Die Ausgabe passt sich dem verwendeten
     Gerät an. So kann die Darstellung von Webseiten abhängig von der Bildschirm-
     auflösung des Endgeräts sein (Anam, Ho und Lim 2014).

   • Personalisierung anhand des Kontexts Die Ausgabe passt sich an den Kontext
     des Nutzers an. Dies kann zum Beispiel der derzeitige Standort sein.

                                        23
3 Konzept

In diesem Kapitel wird das Konzept beschrieben, um eine Vorhersage von Benut-
zerinteraktionen durchzuführen. Um eine Vorhersage zu treffen, wird ein Verfahren
namens Kollaboratives Filtern angewendet. Dabei werden vergangene Interaktionen
vieler anderer Nutzer verwendet, um die Interaktionen eines neuen Nutzers vorherzu-
sagen (Resnick und Varian 1997). Kollaboratives Filtern arbeitet nach folgendem
Prinzip (Hansen 2008):

   1. Aus einem vorliegenden Trainingsdatensatz, welcher eine Sammlung vergange-
      ner Nutzerinteraktionen enthält, werden Muster extrahiert und gespeichert.

   2. Anhand der bisherigen Interaktionen eines neues Nutzers wird ein vergleichbares
      Muster aus dem Speicher gesucht.

   3. Die folgende Interaktion des Vergleichsmusters wird als Vorhersage gewählt.

Kollaboratives Filtern wird bereits vielfach eingesetzt, etwa um anhand der Inter-
essen des Nutzers News-Artikel zu zeigen (Konstan u. a. 1997) oder um bei einem
Streamingdienst Musiktitel zu empfehlen (Baer 2015). Eine Einschränkung dieses
Verfahren ist jedoch, dass die Empfehlung, welche von der Auswahl der anderen
Nutzer abhängig ist, zwar eine beliebte, aber nicht zwingend die optimale Wahl ist.
Ein großer Vorteil dieses Verfahrens ist, dass es einfach möglich ist, an einen großen
Datensatz zu gelangen. Es müssen keine Umfragen durchgeführt werden, stattdessen
können Informationen aus der üblichen Benutzung des Systems gewonnen werden.

Um die Vorhersage durchzuführen wird ein Benutzermodell trainiert. Die Perso-
nalisierung findet anhand der bisherigen Interaktionen dieses Nutzers statt. Das
Bennutzermodell ist geschlossen: Der Nutzer kann nicht aktiv die persönlichen
Präferenzen festlegen.

                                         24
3 Konzept

Das Konzept beschränkt die Form des zu verarbeitenden Datensatzes auf ein Format,
welches häufig verwendet wird, um Nutzerinteraktionen abzubilden. Als Quelle des
Datensatzes können etwa Logdateien dienen, wie sie zum Beispiel von Serveran-
wendungen erstellt werden. Um diese Art des Datensatzes genauer zu definieren,
werden die Anforderungen, die durch den Datensatz erfüllt sein müssen, im Folgen-
den beschrieben. Danach wird ein Überblick über das Vorhersageverfahren gegeben,
anschließend wird die Wahl des Vorhersagealgorithmus begründet. Später wird vor-
gestellt, wie aus den Feldern des Datensatzes Elemente für die Vorhersage gewonnen
werden können.

Das Konzept wurde in einem iterativen Prozess entwickelt. Dazu wurden unter
Anwendung des Konzepts die Vorhersageergebnisse stets übeprüft. Dies geschah
einerseits anhand eines als „Zaki“ bezeichneten Datensatz (Zaki 2001), welcher oft zur
Demonstration von Sequenzmustern und Sequenzregeln verwendet wird. Andererseits
anhand des EGP-Datensatzes, welcher Aufzeichnungen über Nutzerinteraktionen
eines Geodatenportals enthält und in Kapitel 4 vorgestellt wird. Anschließend flossen
die so gewonnen Erkenntnisse in die Aktualisierung des Konzepts ein.

3.1 Anforderungen an den Datensatz

Das in diesem Konzept vorgestellte Vorhersageverfahren ist für verschiedene Daten-
sätze anwendbar. Im Folgenden werden abstrakte Anforderungen an den verwendeten
Datensatz vorgestellt, damit eine Vorhersage nach dem vorgestellten Konzept möglich
ist. Dazu wird eine Klasse an Datensätzen definiert, für die das vorgestellte Konzept
verwendet werden kann. Ziel dieser Definition ist es, allgemein genug zu sein, so dass
eine große Menge an Datensätzen existiert, die für dieses Verfahren verwendbar sind.
Gleichzeitig soll die Definition spezifisch genug sein, so dass alle Datensätze dieser
Klasse mit wenigen Anpassungen verwendbar sind.

Diese Klasse an Datensätzen wird bestimmt durch gewisse Anforderungen an den
Inhalt des Datensatzes. Um die Allgemeinheit der Definition zu unterstreichen, erfolgt
bei Beschreibung der Anforderungen eine Zuordnung zu Beispielen aus verschiedenen
Situationen: Die Suche auf einer Webseite ( 1 ), Einkäufe im Geschäft ( 2 ) und das
Vorliegen einer Medikamentenhistorie ( 3 ).

                                         25
3 Konzept

  • Der Datensatz muss eine Menge aus Sitzungen enthalten. Eine Sitzung kann
    etwa eine Sitzung auf einer Webseite ( 1 ), der Einkaufsverlauf eines Kunden
    ( 2 ) oder die Medikamentenhistorie eines Patienten ( 3 ) sein.

  • Die Sitzungen bestehen aus Interaktionen. Die Interaktionen sind zeitlich
    geordnet. Eine Interaktion kann beispielsweise das Starten einer Suchanfrage
    ( 1 ), ein einzelner Einkauf ( 2 ) oder die Verordnung eines Medikaments ( 3 )
    sein.

  • Interaktionen enthalten eine unsortierte Menge an Feldern. Diese Felder können
    beispielsweise die verwendeten Suchfilter ( 1 ), die gekauften Artikel eines
    Einkaufs ( 2 ), oder die verschriebenen Medikamente eines Arztbesuchs ( 3 )
    sein. Dies ist eine wichtige Unterscheidung, da viele Datensätze nur ein Feld
    pro Interaktion enthalten können, zum Beispiel der Klickpfad von Nutzern
    auf einer Webseite. Auch einige Vorhersageverfahren sind nur auf ein Feld pro
    Interaktion ausgelegt sind, wie etwa CPT (T. Gueniche, Fournier Viger und
    Tseng 2013).

  • Es existiert eine beschränkte Menge an möglichen Werten für ein Feld. Eine
    Möglichkeit ist es, zu unterscheiden ob ein Feld einen Inhalt hat oder alternativ
    leer ist (zwei mögliche Werte). Falls der Inhalt des Feldes relevant ist und
    für die Vorhersage betrachtet werden soll, können Strategien wie Binning
    für Zahlenwerte oder das Zuordnen zu einzelnen Klassen bei Zeichenketten
    vorgenommen werden.

Falls die Quelle des Datensatzes eine Logdatei in einem unstrukturierten Textformat
ist, muss vorher eine Zerlegung der relevanten Information der Logeinträge in einzelne
Felder vorgenommen werden. Ein mögliches Vorgehen wäre das Zerlegen durch
reguläre Ausdrücke und das Speichern in entweder einer JSON-Datei oder einer
Datenbank.

                                         26
3 Konzept

3.2 Anforderungen an das Vorhersageverfahren

   Trainings-
     daten

                                    Verfahren                       Vorhersage

      Neue
     Sitzung

                       Abbildung 3.1: Vorhersageverfahren

Abbildung 3.1 zeigt in einer abstrakten Darstellung, welche Eingabe das Vorhersa-
geverfahren erwartet und was die Ausgabe ist. Um eine Vorhersage durchzuführen
zu können, erfolgt zuerst ein Training des Benutzermodells anhand eines Trainings-
datensatzes. Der Trainingsdatensatz muss den vorgestellten Anforderungen eines
Datensatzes entsprechen. Weiterhin muss bereits eine Vorverarbeitung des Datensat-
zes vorgenommen wurden sein.

Nachdem das Modell trainiert wurde, kann eine Vorhersage von neuen, unbekannten
Sitzungen vollzogen werden. Anhand des trainierten Benutzermodells kann entschie-
den werden, welche Interaktion am wahrscheinlichsten folgt. Diese wird dann als
Vorhersage ausgegeben.

3.3 Auswahl des Vorhersageverfahrens

Im Kapitel „Stand der Forschung“ konnten verschieden Vorhersageverfahren anhand
einer Literaturrecherche vorgestellt werden. Die vorgestellten Algorithmen erhalten
nun eine Bewertung auf Eignung für die Vorhersage an einem Datensatz, welcher
den vorgestellten Anforderungen entspricht. Es ist nicht als allgemeine Empfehlung
zur Vorhersage von Daten zu werten.

                                        27
3 Konzept

Künstliche neuronale Netze

Aufgrund der intensiven Forschung zur Nutzung von künstlichen neuronalen Netzen
(KNN) existieren für viele Anwendungsfälle Algorithmen, welche eine hohe Vorhersa-
gegenauigkeit erreichen können. Ebenso eignen sich Neuronale Netze für sehr große
Datenmengen, oft als Big-Data bezeichnet.

Eine grundlegende Herausforderung bei der Verwendung von KNN ist das Verhalten,
welches sich als „Black Box“ beschreiben lässt. Das Durchführen von Optimierun-
gen, um die Vorhersageergebnisse zu beeinflussen, ist komplex. Grund dafür ist
die schlechte Interpretierbarkeit der Verbindungen der Neuronen mit den zugehö-
rigen Gewichtungen. Weiterhin benötigt das Training viel Rechenleistung und die
Komplexität einer korrekten Implementation ist hoch.

Aus diesen Gründen werden KNN in diesem Fall nicht zur Vorhersage verwendet.

Markov-Ketten

Ein wichtiger Schritt, um Markov-Ketten anwenden zu können, ist das Definieren
der mögliche Zustände des Prozesses. Aus den Zuständen wird anschließend die
Transaktionsmatrix abgeleitet. Um eine Vorhersage eines Datensatz des vorgestellten
Formats durchzuführen können, werden bei Verwendung von Markov-Ketten eine
große Anzahl an Zuständen benötigt. Dies wird an dem folgenden Beispiel erläutert.

Angenommen es soll abgebildet werden, dass eine Interaktion acht verschiedene
Felder A, B, . . . H enthält. Basis der Vorhersage soll ausschließlich sein, ob ein Feld
vorhanden (A) oder nicht vorhanden (Ā) ist. Es müssen alle Kombinationen „von
Feld vorhanden“ oder „Feld nicht vorhanden“ als eigene Zustände abgebildet werden:
< ABCDEF GH >, < ĀBCDEF GH >, < AB̄CDEF GH > . . . < ĀB̄ C̄ D̄Ē F̄ ḠH̄ >
Die Gesamtzahl der benötigten Zustände beträgt in diesem Fall:

                                      28 = 256

Dies beschreibt jedoch nur die nötigen Zustände für eine Markov-Kette erster Ord-
nung. Bei einer Markov-Kette neunter Ordnung, welche notwendig ist, um acht
Elemente aus der Vergangenheit in die Vorhersage einzubeziehen, tritt eine drastische

                                         28
Sie können auch lesen