Kognitive Robotik - Herausforderungen an unser Verst andnis nat urlicher Umgebungen - Universität Stuttgart

Die Seite wird erstellt Yves-Leander Schindler
 
WEITER LESEN
Kognitive Robotik - Herausforderungen an unser Verst andnis nat urlicher Umgebungen - Universität Stuttgart
at 8/2004

Kognitive Robotik – Herausforderungen an
unser Verständnis natürlicher Umgebungen
Cognitive Robotics – challenges for our understanding of natural environments

Marc Toussaint, Tobias Lang, Nikolay Jetchev, FU Berlin

Wir diskutieren einen Ansatz, der kognitive Robotik als die Erweiterung der Methoden
der Robotik – insb. Lernen, Planen und Regelung – auf “äußere Freiheitsgrade” versteht.
Damit verschiebt sich der Fokus: Weg von Gelenkwinkeln, Vektorräumen und
Gauß’schen Verteilungen, hin zu den Objekten und der Struktur der Umwelt. Letztere
können wir nur schwer formalisieren und in geeignete Repräsentationen und Priors
übersetzen, mit denen effizientes Lernen und Planen möglich wird. Es wird deutlich,
welche theoretischen Probleme sich hinter dem Ziel automomer Systeme verbergen, die
durch intelligente Exploration und Verallgemeinerung ihre Umwelt zu verstehen lernen
und die gelernten Modelle zur Handlungsplanung nutzen. Die momentan diskutierte
Integration von Logik, Geometrie und Wahrscheinlichkeiten – und damit die
Überbrückung der klassischen Disziplinbarrieren zwischen Robotik, Künstlicher
Intelligenz und statistischer Lerntheorie – ist eine der zwangsläufigen Herausforderungen
der kognitiven Robotik. In diesem Kontext skizzieren wir eigene Beiträge zum
relationalen Reinforcement-Lernen, zur Exploration und dem Symbol-Lernen.

Schlagwörter: Autonomes Lernen, relationales Reinforcement-Lernen, intelligente
Exploration und Verallgemeinerung, Inferenz

Keywords: autonomous learning, relational reinfocement learning, intelligent exploration
and generalization, inference

1 Einleitung                                                    lieren verschiedene Modelle zielgerichteten Verhaltens1 .
                                                                Diese Modelle sind im Prinzip sehr allgemeingültig, in
                                                                der Praxis hängen sie jedoch fundamental von der Wahl
Anfang des 20. Jahrhunderts führte Wolfgang Köhler            der Zustandsbeschreibung ab: Welche Repräsentationen
seine Intelligenzprüfungen an Menschenaffen“ (Köhler,         (und Priors, siehe unten) nutzt das System, um intern
      ”
1917) durch. Ein eindrückliches Experiment ist in Abb.         zu planen oder Verhalten zu organisieren? Nimmt man
1 illustriert. In einem Käfig hängt eine Banane an der        im Falle des Stapelns von Holzkisten eine diskretisier-
Decke, zu hoch für eine Schimpansin. Das Tier versucht         te Repräsentation des Problems an, die sowohl Welt-
mehrmals vergeblich an sie heranzukommen und springt            zustände als auch mögliche Aktionen deterministisch
immer wieder hoch. Schließlich gibt es auf und setzt sich       und symbolisch abstrahiert, so funktionieren KI Metho-
in die Ecke. In einer anderen Ecke des Käfigs steht ei-        den effizient. Echte Welten sind jedoch nicht symbolisch,
ne Holzkiste. Köhler beschreibt, dass nach einiger Zeit        wir haben es mit kontinuierlichen Größen zu tun, mit
der Blick der Schimpansin zwischen Banane und Kiste             Geometrie und Physik, mit Objekten und ihren Merk-
wechselt, sie dann zielgerichtet zur Holzkiste läuft, diese
unter die Banane zieht, darauf steigt und zugreift.             1
                                                                   D.h. planendes Verhalten, im Kontrast zu konditionier-
                                                                tem, durch wiederholte Belohnung habituiertem Verhalten.
                                                                Siehe Niv et al. (2006) für eine Definition von zielgerichte-
Was genau geht in dem Tier vor, wenn es in der Ecke             tem vs. habituiertem Verhalten in der Psychologie. In der
sitzt und abwechselnd Banane und Holzkiste anvisiert?           KI entspricht dies grob dem Unterschied zwischen modell-
Die Psychologie und die Künstliche Intelligenz formu-          basiertem und modell-freiem Reinforcement-Lernen.

                                                      at – Automatisierungstechnik 68 (2020) 8     c Oldenbourg Verlag      1
04
Kognitive Robotik - Herausforderungen an unser Verst andnis nat urlicher Umgebungen - Universität Stuttgart
malen. Eine der großen und bisher ungelösten Heraus-
forderungen ist es, solche fundamentalen Eigenschaften
natürlicher Welten in geeignete Repräsentationen und
Priors zu übersetzen.
Im Gegensatz zur KI ist für die Robotik der Um-
gang mit Geometrie und Physik alltäglich. Beispiele
sind die klassischen Methoden der Pfadplanung unter
Berücksichtigung der Geometrie, oder die Kraftregelung
von Freiheitsgraden. Allerdings bringt die naive Inte-
gration solcher Methoden mit der Planung auf symbo-
lischer Ebene unweigerlich Probleme: Sollte man zum
Stapeln von Holzkisten geometrische Pfadplaner für je-
des mögliche Objekt starten, ohne einen Zielort für das
einzelne Objekt vorweg zu kennen? Wie kämen Pfad-
planer auf “die Idee” eine Holzkiste zunächst heranzu-
ziehen, um dann auf sie zu steigen? Während in sym-
bolischen Repräsentationen die Kombinatorik voll ex-
ploriert werden kann, scheint das in geometrischen Re-          Bild 1: Eine Intelligenzprüfung am Menschenaffen“ (Köhler,
                                                                1917)       ”
präsentationen ineffizient. Kaelbling and Lozano-Pérez
(2011) diskutieren eindrücklich das Problem der Inte-
gration von geometrischer und symbolischer Planung.
                                                                gen, welche prinzipiellen Herausforderungen sich erge-
Die zentrale Herausforderung sind hier integrierte Me-
                                                                ben, will man die Methoden dieser drei Wissenschaf-
thoden zum Umgang mit Geometrie, Logik (im Sinne
                                                                ten vereinen. Das Ziel sind künstliche Systeme, die Pro-
der symbolischen Repräsentation) und Unsicherheit, die
                                                                bleme autonom und auf Basis gelernten Wissens lösen
klassisch getrennt betrachtet werden.
                                                                können, etwa wie es der Schimpansin mit der Holzki-
Neben der Planung sind das Lernen und die Generali-             ste gelang. Gelegentlich werden solche Fähigkeiten auch
sierung weitere zentrale Punkte, die entscheidend von           als kognitiv“ bezeichnet. In Abschnitt 2 werden wir ei-
der Wahl der Repäsentation abhängen. Es ist nicht                 ”
                                                                ne Begriffsdefinition von kognitiv“ vorschlagen, die den
plausibel, dass der Affe bereits ein Modell besitzt, wel-                                 ”
                                                                Fokus auf den qualitativen Unterschied zwischen der
ches dezidiert die Nutzung einer Holzkiste zum Errei-           Handhabung innerer und äußerer Freiheitsgrade legt.
chen einer Banane enthält. Stattdessen muss er sei-            Diese Sichtweise stellt den Bezug zwischen kognitiven
ne bisher gemachten Erfahrungen verallgemeinern. Das            Fähigkeiten und den oben diskutierten Wechselwirkun-
wirft das Problem der Generalisierung auf, beispielswei-        gen her, die zwischen den geometrischen und physikali-
se die Nutzung von Objekten zu neuen Zwecken in voll-           schen Eigenschaften natürlicher Welten, zwischen sym-
kommen neuen Situationen. Aus der Lerntheorie wis-              bolischer und geometrischer Planung sowie beim Ler-
sen wir, dass Generalisierung Unsicherheit bedingt und          nen von Modellen der Umwelt existieren. In Abschnitt
durch den Prior bestimmt wird, der seinerseits durch die        3 geht es um Forschungsprojekte zur Objektmanipula-
Wahl der Repräsentation induziert wird2 . Die Wahl der         tion in natürlichen Umwelten. Während hier viele be-
Repäsentation und der Umgang mit Unsicherheit sind             eindruckende Leistungen demonstriert wurden, bleiben
also auch beim Lernen von zentraler Bedeutung.                  prinzipielle Forschungsfragen weiterhin offen. In den
Dies zeigt die starke Verzahnung der Forschungsfragen,          Abschnitten 4 bis 6 gehen wir auf drei solcher Fra-
die üblicherweise in der Robotik, der KI und beim Ma-          gen ein: des Lernen & Planen in relationalen Welten,
schinellen Lernen getrennt behandelt werden. In die-            das Symbol-Lernen und die autonome Exploration. Wir
sem Artikel wollen wir an einigen Beispielen aufzei-            schließen mit einer Diskussion weiterer offener Fragestel-
                                                                lungen und einem Ausblick.
2
   In der Bayesianischen Sicht auf ein lernenden Systems
wird Wissen“ über X durch die Bayes’sche Regel P (X|D) ∝
      ”
P (D|X)P   (X) aktualisiert, wobei D die gesehenen Daten
sind. Generalisierung bedeutet hier grob, dass selbst wenn      2 Innere vs. äußere Freiheitsgrade
die Daten nur wenige Komponenten von X direkt betreffen,
auch das Wissen“ bzgl. anderer Komponenten aktualisiert         Der Begriff Kognition“ wird oft benutzt, um zwischen
wird. Die ”Struktur des Priors bedingt dabei maßgeblich die-                ”
se Struktur des Posteriors. Bei all dem ist die entscheidende   der motorischen (niederen) Ebene und der Ebene ab-
Frage, wie das Wissen“ P (X) bzw. P (X|D) repräsentiert
                 ” oder implizit, als Verhaltensregeln oder
                                                                strakter Aktionen zu unterscheiden. Wir wollen statt-
wird – ob explizit                                              dessen zunächst den Schwerpunkt auf die qualitativen
logische Ausdrücke, als neuronales Netzwerk oder logisti-
sche Regression mit Kern-Merkmalen. Wenn wir im Folgen-         Unterschiede zwischen inneren und äußeren Freiheits-
den also den Begriff der Repräsentation nutzen, so verweisen   graden legen. Typische Beispiele für innere Freiheits-
wir gleichzeitig auf die Struktur des Priors und der entspre-   grade in der Robotik sind der Vektor q ∈ Rn der Ge-
chenden Generalisierung erlernten Wissens. Siehe auch Pearl
(1988).
                                                                lenkwinkel (oder (q, q̇)), oder die Position-Orientierung-

2
Kognitive Robotik - Herausforderungen an unser Verst andnis nat urlicher Umgebungen - Universität Stuttgart
Geschwindigkeit (x, θ, v) eines Fahrzeugs. Die traditio-
nell in der Robotik entwickelten Methoden beziehen
sich im Wesentlichen auf Modelle zur Prädiktion, Zu-
standsschätzung und Regelung dieser inneren Freiheits-
grade. Auch die Anwendung von Lernmethoden in der
Robotik sind bzgl. dieser Freiheitsgrade besonders er-
folgreich (Vijayakumar et al., 2005). Können solche Me-
thoden innerer Freiheitsgrade direkt auf Freiheitsgrade
der Umwelt verallgemeinert werden? Was als Objektma-          Bild 2: Forschung an integrierten, kognitiven Systemen in der
nipulation bezeichnet wird, kann man als eine Form der        Gruppe um Prof. Beetz (Beetz et al., 2008).
 Regelung“ äusserer Freiheitsgrade – der Positur von
”
Objekten – ansehen. Einer der vielen qualitativen Un-
                                                              der Robotik verlassen, wie etwa der Umgang mit rela-
terschiede liegt jedoch darin, dass dieser externe Frei-
                                                              tionalen Wahrscheinlichkeitsmodellen oder die Formu-
heitsgrad zunächst nicht regelbar ist, wenn das Objekt
                                                              lierung von Wahrscheinlichkeitsmodellen, die fundamen-
nicht gegriffen ist.3 Das Greifen wird damit zum zentra-
                                                              tale geometrische und physikalische Randbedingungen
len Gegenstand der Forschung in der Objektmanipula-
                                                              abbilden. In diesem Sinne führt unsere Begriffsdefiniti-
tion.
                                                              on kognitiver Systeme direkt zu der in der Einleitung
Das Greifen ist nur ein Beispiel dafür, dass die Hand-       diskutierten Wechselwirkung zwischen Robotik, KI und
habung externer Freiheitsgrade qualitativ neue Heraus-        dem Maschinellen Lernen.
forderungen zu denen innerer Freiheitsgraden stellt. In-
nere Freiheitsgrade lassen sich oft in einen endlich-
dimensionalen Vektorraum einbetten. Dagegen ist der
                                                              3 Forschungsüberblick
Zustandsraum äußerer Freiheitsgrade komplex und sei-
ne Struktur schwer formal abzubilden. Auf inneren Frei-       Im allgemeinen wird der Begriff kognitiv“ unschärfer
heitsgraden haben wir Methoden, um effiziente Wahr-                                              ”
                                                              als oben vorgeschlagen genutzt. Dennoch zeigt sich bei
scheinlichkeitsmodelle zu formulieren – etwa Gaussver-        existierenden Forschungsinitiativen in der kognitiven
teilungen über dem Vektorraum. Dies liefert letztlich        Robotik, dass der Fokus auf Aspekte intelligenter Sy-
die Grundlage für effiziente Inferenz (Zustandsschätzung    steme gesetzt wird, die über Regelung und Bahnpla-
und -prädiktion) und Lernmethoden. Das Formulieren           nung hinausgehen. Die Forschung beschäftigt sich mit
von Wahrscheinlichkeitsmodellen über die äußere Um-         komplexem sequentiellem Verhalten, Objektmanipulati-
welt ist schwer. Beschreibt man beispielsweise den Zu-        on, Mensch-Maschine Interaktion, der Kombination aus
stand als eine Menge von Objekten mit den jeweiligen          symbolischem Planen mit Regelung und Wahrnehmung,
geometrischen, physikalischen und kinematischen Eigen-        sowie schließlich der Fähigkeit, in diesen Szenarien zu
schaften und Relationen, so existieren relationale Wahr-      lernen. Diese Aspekte der kognitiven Robotik“ sind mit
scheinlichkeitsmodelle, die logische Repräsentationen                                  ”
                                                              unserer Begriffsdefinition konsistent, in dem die Um-
und Wahrscheinlichkeiten vereinen. Sind jedoch Men-           welt und ihre Struktur als zentraler Gegenstand der For-
schen oder andere autonome Systeme Teil der Um-               schung mit einbezogen wird.
welt, wird die Frage nach geeigneten Repräsentationen
                                                              Ein gutes Beispiel dafür, was ein kognitiver Roboter sein
und Wahrscheinlichkeitsmodellen wesentlich schwieri-
                                                              könnte, der effizient externe Freiheitsgrade manipuliert,
ger. Für innere Freiheitsgrade haben wir gut moti-
                                                              findet sich in einem PR1-Video4 . Der Roboter der Firma
vierte Priors (quadratische Regelungskosten, Gaussche
                                                              Willow Garage räumt hier ein Wohnzimmer vollständig
Übergangsmodelle), für externe nicht. Um interne Frei-
                                                              auf: Er stapelt die Zeitschriften ordentlich, räumt Spiel-
heitsgrade in einen Soll-Zustand zu überführen, ist meist
                                                              zeug in eine Box und schüttelt die Kissen auf. Leider
kein hierarchischer Ansatz nötig – Pfadplanung und sto-
                                                              ist die komplette Sequenz von einem Menschen teleo-
chastische Regelungstheorie liefern meist direkte Trajek-
                                                              periert! Der Roboter selbst nutzt keinerlei Perzeption,
torien. Äußere Freiheitsgrade zu manipulieren verlangt
                                                              Bewegungs- oder Handlungsplanung, sondern ist letzt-
oft hierarchisches und sequentielles Verhalten.
                                                              lich eine Verlängerung des vom Menschen gesteuerten
In dieser Sichtweise kann man unter kognitiver Ro-            Joysticks. Das Video demonstriert, was heutige Robo-
                                         ”
botik“ die Erweiterung der theoretisch fundierten             ter im Prinzip, trotz der rudimentären Mechanik, tun
Methoden der Regelungstheorie, Pfadplanung, Zu-               könnten und veranschaulicht damit das unerreichte Ziel
standsschätzung, etc auf äußere Freiheitsgrade verste-      der Forschung an autonomen Robotern. Offensichtlich
hen. Will man dies jedoch rigoros verfolgen, ergeben sich     ist das vornehmliche Problem der autonomen kognitiven
grundlegende Fragestellungen, die das klassische Gebiet       Robotik nicht die Mechanik, sondern fehlende Methoden
                                                              der Handlungsplanung, Modellierung und der Kontrolle
3
   Formal: In der lokalen Linearisierung der Gesamtsystem-    externer Freiheitsgrade.
dynamik zeigt die Steuerbarkeitsanalyse im Sinne der linea-
ren Regelungstheorie, dass der externe Freiheitsgrad nicht
                                                              4
regelbar ist.                                                     http://www.youtube.com/watch?v=jJ4XtyMoxIA

                                                                                                                         3
Kognitive Robotik - Herausforderungen an unser Verst andnis nat urlicher Umgebungen - Universität Stuttgart
Michael Beetz’ Forschungsgruppe entwickelt sehr inter-       ziehungen untereinander festgelegt wird. Wir können
essante, integrierte kognitive Systeme, die Aufgaben in      diese Struktur mit abstrakten Symbolen abbilden: Et-
Küchenumgebungen lösen (Beetz et al., 2008). Abb. 2        wa mit Symbolen für den Typ, die Größe oder die Form
zeigt ein solches Szenario zusammen mit den benutz-          eines Gegenstandes oder für geometrische Muster, wie
ten Sensoren am Roboter und auf den Gegenständen.           beispielsweise, dass ein Gegenstand auf einem anderen
Die erreichten Manipulationssequenzen sind nahe, aber        liegt oder in einem anderen enthalten ist. Die symbo-
nicht ganz so flexibel wie die Handlungssequenzen aus        lische Abstraktion umfasst auch die Handlungen mit
obigem PR1-Video, werden aber autonom vom Robo-              Gegenständen. Verschiedene konkrete Greifbewegungen
ter ausgeführt. Neuere Arbeiten zeigen einen Roboter,       können mittels eines einzigen Symbols für Greifen ab-
der Pfannkuchen macht und dafür symbolische Hand-           strahiert werden.
                                                 ”
lungsanleitungen“ aus dem Internet nutzt, wie sie un-        Selbst wenn die Welt auf diese Weise symbolisch ab-
ter howto.com oder roboearth.org speziell für Ro-           strahiert wird, bleibt die Anzahl möglicher Situationen
boter zu finden sind. Aus Anwendungssicht ist dieser         unüberschaubar groß – nämlich exponentiell in der An-
Ansatz, bei dem der einzelne Roboter nicht mehr ler-         zahl der repräsentierten Gegenstände. Erhält ein ko-
nen muss, sondern vorverarbeitetes Wissen über Ob-          gnitives System beispielsweise die Aufgabe, zehn Teller
jekte und Handlungen aus dem Internet bezieht, be-           übereinander zu stapeln, so kann es dies auf 10! verschie-
sonders vielversprechend. Die Karlsruher Forschungs-         dene Weisen tun. Nicht jeder einzelne mögliche Stapel
gruppe betrachtet ähnlich integrierte Robotiksysteme in     soll als Ziel definiert werden. Daher muss ein kogniti-
Küchenumgebungen (Asfour et al., 2006). Am Bielefel-        ves System in der Lage sein, in seiner symbolischen Be-
der CITEC liegt der Schwerpunkt eher auf der Interak-        schreibung über Gegenstände und Situationen zu verall-
tion zwischen Mensch und Roboter, aber auch auf der          gemeinern. Verallgemeinerung ist generell wichtig, um
Grundlagenforschung am Greifen (Steil et al., 2004).         aus wenigen Erfahrungen lernen und in verschiedenarti-
Die erwähnten Forschungsvorhaben sind Beispiele für        gen Situationen handeln zu können. Wenn wir jede zuvor
integrierte Systeme, die Perzeption, Handlungsplanung,       ungesehene Teetasse als einen vollkommen unbekannten
Objektmanipulation und Bewegungssteuerung im Zu-             Gegenstand auffassen und jedes Greifen eines weiteren
sammenspiel an relevanten Anwendungsszenarien de-            Gegenstands als eine neuartige Bewegung, sind wir nicht
monstrieren. Eine bisher unzureichend gelöste Proble-       fähig, in unserer vielschichtigen Umgebung sinnvoll zu
matik in solchen Systemen ist das autonome Lernen            handeln.
auf der Handlungsebene. Nur wenige existierende For-         So genannte relationale Repräsentationen (Fikes and
schungsarbeiten widmen sich dem Problem des Hand-            Nilsson, 1971) bieten die Möglichkeit, erlerntes Wis-
lungslernens (auf symbolischer Objektebene) in voll in-      sen zu verallgemeinern. Relationale Repräsentationen
tegrierten Robotiksystemen (Beetz et al. (2008), sie-        beschreiben eine Situation durch die Menge der Ei-
he auch die Diskussionen zum Lernen auf Systemebene          genschaften und Beziehungen (Relationen) von Ge-
(Thrun, 2000; Andre and Russell, 2001)).                     genständen in Form von logischen Prädikaten und Funk-
Im Folgenden wollen wir einige eigene Arbeiten disku-        tionen. Zum Beispiel drückt das Prädikat on(a, b) aus,
tieren, die den Fokus auf sogenanntes relationales Rein-     dass der Gegenstand a auf b liegt. Grundlegend für
forcement Lernen legen, das ein vielversprechender An-       die Fähigkeit zu verallgemeinern ist die Annahme, dass
satz für das Lernen auf Ebene der Objektmanipulation        die Wirkung von Handlungen nur von den Eigenschaf-
und symbolischer Handlungsplanung ist. Während diese        ten und Typen der Gegenstände abhängt (beschrie-
Methoden symbolische, logische Repräsentationen mit         ben durch die Prädikate), nicht aber von den jewei-
der statistischen Lerntheorie kombinieren, ergibt sich ein   ligen Identitäten der Gegenstände (dass es sich um
klassisches Problem: Woher kommen die Symbole? Ab-           Gegenstand a handelt und nicht b). Indem man Va-
schnitt 5 wird explizit auf Symbol-Lernen zum Zwecke         riablen für Gegenstände einführt, können strukturelle
der Handlungsplanung eingehen und Abschnitt 6 auf au-        Äquivalenzklassen von Situationen beschrieben werden.
tonome Exploration.                                          Zum Beispiel kann das Symbol on(a, X) dazu benutzt
                                                             werden, alle möglichen Weltsituationen zusammenzufas-
                                                             sen, in denen sich der Gegenstand mit dem Bezeich-
                                                             ner a auf irgendeinem anderen, nicht weiter spezifizier-
4 Relationales Lernen und Planen                             ten Gegenstand X befindet. Abstrakte relationale Be-
Die Künstliche Intelligenz verfolgt den Ansatz, grund-      schreibungen ermöglichen dadurch, kompakte, verallge-
legende Zusammenhänge in der Welt mittels abstrakter        meinernde Modelle über die Wirkungsweise von Hand-
Symbole zu beschreiben. Unsere Alltagswelten zeichnen        lungen zu definieren.
sich durch eine Vielzahl an Gegenständen aus. In unse-      Um relationale Modelle tatsächlich auch in den kom-
ren Küchen etwa finden wir Gläser, Teller und Töpfe,      plexen Szenarien der echten Welt einsetzen zu können,
in unseren Büros Blätter, Stifte und Ordner. Kenn-         ist es von entscheidender Bedeutung, in ihnen die Un-
zeichnend für diese Umgebungen ist die Struktur, die        sicherheit von Wissen auszudrücken. Die Wirkung von
durch die Eigenschaften der Gegenstände und ihre Be-        Handlungsketten ist selbst in einfachen Alltagsumge-

4
Kognitive Robotik - Herausforderungen an unser Verst andnis nat urlicher Umgebungen - Universität Stuttgart
bungen nicht immer eindeutig vorherzusagen; das heißt,         der Möglichkeit, Wahrscheinlichkeiten mit diesen Regeln
wir können nicht eindeutig abschätzen, ob im Folge-          auszudrücken. Das Inkaufnehmen von Modellungenau-
zustand einer Handlung ein Symbol wahr oder falsch             igkeiten ist also entscheidend für Lernen, Generalisie-
sein wird. Beim Einschenken in ein Glas kann Wasser            rungsfähigkeit und Kompaktheit.
verschüttet werden, Teller fallen auf den Boden, Busse        Das Nutzen erlernter probabilistischer Regeln zur Hand-
haben Verspätung. Diese Unsicherheit über die Wirkung        lungsplanung ist Gegenstand aktueller Forschung. Die
hat vielfältige Gründe. Zunächst mag die Welt inhärent     Herausforderung liegt einerseits in dem exponenziell
stochastisch sein. Doch wichtiger als Stochastitizät ist,     großen Zustandsraum, der mit relationalen Regeln be-
dass wir Vorhersagen nie mit völliger Sicherheit treffen      schrieben wird, andererseits in der Stochastizität des
können, weil wir stets nur unvollständige Informationen      Modells, was die direkte Anwendung klassischer deter-
über die Welt zur Verfügung haben. Teller mögen feuch-      ministischer Logik verhindert. Ein möglicher Ansatz ist
ter und rutschiger sein, als wir annehmen, wir wissen          es, die Regeln zunächst in eine andere Repräsentation
nicht, dass ein Bus eine Panne hat. Wir können unse-          – faktorisierte Dynamische Bayesnetze – zu übersetzen
re Welt stets nur teilweise und ungenau wahrnehmen.            und dann probabilistische Inferenzmethoden zur Pla-
Darüber hinaus ist es gerade der Zweck einer abstrak-         nung zu nutzen. Lang and Toussaint (2010) beschrei-
ten Beschreibung, Einzelheiten außer Acht zu lassen und        ben den ersten Algorithmus, der effizient mit erlernten
damit nur teilweise Information zu repräsentieren. Vor        probabilistischen Regeln planen kann.
allem aber ist Wissen zwangsläufig unsicher, wenn es
aus Erfahrung gelernt und generalisiert wird. In Bayesia-
nischen Modellen ist die Wechselwirkung zwischen Ge-
neralisierung, Prior und Unsicherheit des Modells ex-          5 Symbole lernen
plizit. In frequentistischen Modellen wird die inhärente
Unsicherheit eines verallgemeinernden Modells über die        Bei der Diskussion relationalen Lernens und Planens
Regularisierung geregelt. In beiden Fällen lässt sich die    nahmen wir an, dass bereits abstrakte Symbole existie-
Unsicherheit einer verallgemeinernden Prädiktion nicht        ren. Ein autonomes System nimmt die Welt jedoch über
vermeiden (bias-variance tradeoff ).                           Sensoren war, die im Wesentlichen geometrische Infor-
Stochastische relationale Modelle ermöglichen die Mo-         mationen liefern. Symbole müssen daher entweder von
dellierung von Unsicherheit, und damit sowohl das Er-          einem menschlichen Experten vorgegeben oder, wie wir
lernen kompakter und verallgemeinernder Modelle aus            vorschlagen, aus Erfahrung gelernt werden. Was sind ge-
Erfahrung als auch das Planen mit erlernten Modellen.          eignete Kriterien und Gütemaße für Symbole, die eine
Ein Beispiel für stochastische relationale Modelle bilden     Grundlage für das Lernen bieten können? Im Folgenden
probabilistische relationale Regeln wie die folgende:          diskutieren wir kurz Beispielansätze.
                                                               Wellens et al. (2008) modelliert Lernen von Symbolen
       greife(X) : klotz(X), ball(Y ), auf(Y, X)               als Kommunikationproblem: Agenten müssen die Be-
               
                70% : inhand(X), ¬auf(Y, X)                   deutungen von unbekannten Wörtern so lernen und für
          →       20% : ¬auf(Y, X)                             sich selbst definieren, dass kohärente Kommunikation
                  10% : noise
               
                                                               möglich ist. Die Autoren testen dieses Modell in Szena-
                                                               rien, in denen Roboter Objekte bewegen und dies einem
Diese Regel beschreibt auf abstrakte Weise eine Situa-
                                                               anderen Roboter kommunizieren müssen. Die Roboter
tion, in der ein System versucht, einen Klotz zu greifen,
                                                               lernen dadurch eine Abbildung von visuellen Merkmalen
auf dem ein Ball liegt. Diese Regel dient der Vorhersage
                                                               der Objekte auf symbolische Wörter. Lernen ist erfolg-
in jeder Situation, in der das System einen sonst nicht
                                                               reich, falls die Agenten einander zeigen können, welche
näher spezifizierten Klotz, auf dem ein Ball liegt, greifen
                                                               Objekte sie demnächst manipulieren wollen.
möchte. Die relationale Beschreibung fasst hierbei eine
exponenzielle Anzahl an möglichen Situationen in einer        Kollar et al. (2010) lernt die Bedeutung von Wörtern,
kurzen probabilistischen Regel zusammen.                       die in Wegbeschreibungen vorkommen, aus Beispielen
Pasula et al. (2007) beschreiben einen Algorithmus             von Bewegungstrajektorien und deren Beschreibung in
zum Lernen von Mengen solcher Regeln aus einer                 natürlicher Sprache von einem Lehrer. Man kann auf
Erfahrungsmenge. Der Algorithmus folgt fundamen-               Grund dieser Daten die geometrische Bedeutung vieler
tal der klassischen Lerntheorie: Er versucht alle Er-          Wörter (z.B. links abbiegen“) lernen. Es wird aber ein
                                                                             ”
fahrungen mit der Regelmenge zu erklären (like-               Lehrer benötigt, der große Datenmengen erzeugt.
lihood -Maximierung), aber gleichzeitig möglichst we-         Feldman (2012) argumentiert als Kognitionswissen-
nige und kompakte Regeln zu nutzen (Regularisie-               schaftler, dass eine symbolische Beschreibung alle wich-
rung in Form einer minimalen Beschreibungslänge).             tigen Eigenschaften einer kontinuierlichen Welt beinhal-
Bei wenig Erfahrung entstehen wenige, kompakte und             ten kann. Die Formalisierung mittels üblicher Mixtur-
stark (über-)verallgemeinernde Regeln; bei mehr Erfah-        Modelle in einem Vektorraum scheint jedoch naiv, wenn
rung werden die Regeln mehr, expliziter und genau-             man an natürliche Welten denkt. Zudem wird in keiner
er. Dieser gewünschte Effekt basiert fundamental auf          Weise der Nutzen von Symbolen für die Organisation

                                                                                                                     5
von Verhalten, z.B. für das Lernen und Planen in Be-
tracht gezogen.
Unserer Meinung nach sollten sich gute Symbole für ko-
gnitive Systeme gerade dadurch auszeichnen, dass sie
die für die Handlungsplanung wesentlichen Aspekte der
Umwelt repräsentieren und effizientes, generalisieren-
des Lernen ermöglichen. Dies steht im Gegensatz zum
rein unüberwachten Lernen, das Symbole oder Unterdi-                        (a)                         (b)
mensionen sucht, die die Varianz in Daten erklärt, un-      Bild 3: Bespielwelt für das Manipulieren von Objekten und ge-
abhängig von deren eigentlichen Nutzen.                     lernte Symbole füer stehtauf(X,Y) : es ist wahr, wenn zwei
                                                             Blöcke aufeinander gestapelt sind.
Unser Ansatz versucht dies in konkreten Robotik-
Szenarien zu realisieren (Jetchev et al., 2013). Wir be-
trachten einen Agenten, der aus einer Menge moto-
                                                             nem Agenten bewegt werden können (siehe Abbildung
rischer Fähigkeiten (Primitive) wählen kann, um eine
                                                             3(a)). Unser Agent beobachtet Sequenzen zufälliger Ak-
Bewegungssequenz zu erzeugen und damit die Objek-
                                                             tionen. Die Belohnung ist abhängig von der Höhe der
te in der Welt zu manipulieren. Der Agent muss aus
                                                             gebauten Türme. Ohne zuvor definierte Symbole be-
beobachteten kontinuierlichen Objektmerkmalen und
                                                             steht die Beobachtung des Agenten ausschliesslich aus
-relationen y ∈ Rd abstrakte Symbole lernen. Diese
                                                             den geometrischen Effekten der Aktionen: Wie sich (re-
Symbole sollen idealerweise die wichtigen Muster re-
                                                             lative) Koordinaten und geometrische Beziehungen zwi-
präsentieren, zum Beispiel, ob gewisse Fähigkeiten in
                                                             schen den Objekten ändern. Durch den oben genannten
der momentanen Situation anwendbar sind und wel-
                                                             Optimierungsprozess lernt der Agent aus diesen Daten
che Wirkung sie erzielen. Die Bedeutung von wich-
                                                    ”        Prädikate, die wir z.B. mit istinhand(X), stehtauf(X,Y)
tig“ kann sich aber in verschiedenen Situationen unter-
                                                             benennen würden – aus Sicht des Agenten besteht die
scheiden. Wenn ein Affe etwas Essbares in einem Wald
                                                             Semantik dieser gelernten Symbole aus nichts anderem
sucht, sind vielleicht Eigenschaften wie rot“, weich“
                                           ”      ”          als deren Rolle in den prädiktiven Modellen. Auf Grund
und giftig“ wichtig. Wenn derselbe Affe eine Waffe
      ”                                                      der Optimierungskriterien erlauben es die Symbole ef-
sucht, sind hart“ und scharf“ wichtige Symbole. Er-
             ”            ”                                  fektiv – auf Basis der im vorigen Abschnitt diskutier-
folgreiche Agenten, die ihre Ziele erreichen können, ha-
                                                             ten Methoden – Aktionssequenzen zu planen, die dem
ben Symbole gelernt, die zu Belohnung führen (hier: Ziel
                                                             Agenten hohe Belohnung verschaffen. Zum Beispiel wird
erreicht). Die Qualität der gelernten Symbole wird indi-
                                                             erlernt, dass manche Gegenstände, etwa Kugeln, nicht
rekt gemessen, mittels der Fähigkeit des Agenten, ziel-
                                                             gestapelt werden können. In unserem Experiment wurde
gerichtetes Verhalten mit diesen Symbolen zu erzeugen.
                                                             ein entsprechendes Symbol gelernt (wir könnten es istku-
Wir definieren ein Symbol als relationales Prädikat oh-     gel(X) benennen), da es zu einem besseren prädiktiven
ne immanente Semantik. Zu diesem Symbol gehört ei-          Modell führt. Viele andere denkbaren Symbole, wie z.B.
ne Abbildung (Klassifikator) von geometrischen Merk-         linksvon(X,Y) wurden nicht gelernt, da sie für die Be-
malen auf binäre Wahrheitswerte des Prädikats – dem        lohnung oder Transitionsvorhersage in der konkreten Te-
Grounding des Symbols. Symbol-Lernen reduziert sich          stumgebung irrelevant sind.
dann auf das Lernen geeigneter Klassifikatoren. Ent-
scheidend ist nun die Wahl der Gütefunktion dieser
Klassifikatoren. Unser Ansatz kombiniert drei Kriterien:
Erstens sollen die Symbole gleichzeitig prädikiv und dis-   6 Autonome Exploration
kriminativ bzgl. der Wirkung von Aktionen sein. Sym-
bole sollen also den Vor- und Nach-Zustand einer Aktion      Kognitive Systeme sollen selbstständig und zielgerich-
unterscheiden können und gleichzeitig hinreichend Infor-    tet in ihrer Umgebung handeln. Aus ihren Erfahrungen
mationen liefern, dass ein auf diesen Symbolen gelerntes     müssen sie verstehen lernen, auf welche Weise sie auf
Model den Nach-Zustand vorhersagen kann. Zweitens            ihre Umgebung einwirken können. Nur selten steht ih-
sollen Symbole Belohnungs-diskriminativ sein, d.h. sie       nen dabei ein Lehrer zur Seite. Stattdessen müssen sie
sollen hinreichend Informationen liefern, so dass ein auf    ihren derzeitigen Wissensstand überdenken und darauf-
diesen Symbolen gelerntes Modell die Belohnung vorher-       hin selbst aussuchen, was sich lohnt zu explorieren.
sagen kann. Drittens sollen Symbole einfach sein, d.h.       Wie kann man ein kognitives System bauen, das eine
möglichst wenige und selten wechselnde Symbole sollen       neue Umgebung in möglichst kurzer Zeit erkundet und
gesucht werden.                                              dadurch ein Modell der eigenen Handlungen erlernt? Die
Diese drei Kriterien lassen sich formal fassen. Das Erler-   in der jüngeren KI- und Robotik-Forschung entwickelten
nen geeigneter Symbole wird dadurch zu einem Optimie-        Explorationsmethoden realisieren eine Form von Neu-
                                                                                                                  ”
rungsproblem der entsprechenden Klassifikatoren (Jet-        gier“, die Lernoptimalität oder -effizienz in dem ein oder
chev et al., 2013). Ein anschauliches Beispiel betrachtet    anderen Sinne garantiert. Zentrale Paradigmen sind et-
die klassische Welt aus Blöcken und Kugeln, die von ei-     wa das sog. Bayesische Reinforcement-Lernen (Poupart

6
et al., 2006) und auch R-max (Brafman and Tennen-             in oberflächlicher Hinsicht vergleichbar geblieben. Den-
holtz, 2002). Im Wesentlichen erhält das System eine for-    noch gab es hinter diesen Demonstrationen wichtige
male Belohnung jedes Mal, wenn es etwas Neues lernt.          Fortschritte in der Robotik, KI und im Maschinellen
Ein wesentliches Problem ist dabei das Abwägen zwi-          Lernen: Die Leistungen von Shakey – genauso wie die im
schen dem möglichen Wert neuer Erfahrungen und dem           telegesteuerten PR1-Video – spiegeln direkt die Intelli-
Ausnutzen bereits erlernten Wissens (der exploration-         genz der Ingenieure wieder, nicht die des Roboters. Die
exploitation tradeoff ). Die genannten Methoden geben         Forschung versucht seitdem, mehr Autonomie und In-
mögliche optimale Antworten auf dieses Problem.              telligenz im System selbst zu verwirklichen, insbesonde-
Bei der Anwendung solcher Explorationsmethoden in             re die Fähigkeit des Lernens. Im Zuge dieser Forschung
Alltagsumgebungen ergeben sich interessante Heraus-           schärfte sich vor allem unser Verständnis der fundamen-
forderungen: Die Anzahl möglicher Handlungen ist             talen Probleme, die in der Anfangszeit der Künstlichen
unüberschaubar, der Raum möglicher Weltzustände ist        Intelligenz und Robotik nicht wahrgenommen wurden.
wie oben dargelegt exponentiell in der Anzahl der             Eines dieser Probleme ist Unsicherheit: In der klassi-
modellierten Gegenstände. In einem dermaßen großen           schen KI wurde oft von fehlerfreien symbolischen Mo-
Suchraum kommt es so gut wie nie vor, dass exakt die-         dellen der Umwelt ausgegangen – woher die notwendi-
selbe Situation zweimal auftritt. Vielmehr ist jede Si-       gen symbolischen Abstraktionen und das Wissen selbst
tuation neu. Daher kann Neuheit allein keine effiziente       kommt, wurde vernachlässigt. Erlerntes Wissen ist aber
Explorationsstrategie sein. Von entscheidender Bedeu-         zwangsläufig mit Unsicherheit behaftet. Für das effizi-
tung ist die Verallgemeinerung des eigenen Wissens auf        ente Lernen, die Exploration und Planung mit unsiche-
neue, aber strukturell äquivalente Situationen. Wenn ein     rem Wissen sind erst in jüngerer Zeit vielversprechende
bisher erlerntes Modell scheinbar gut auf eine neue Si-       Methoden entwickelt worden. Das Erlernen geeigneter
tuation verallgemeinert werden kann, so ist diese weni-       symbolischer Abstraktionen bleibt weiterhin ein wichti-
ger interessant für die Exploration. Die oben beschriebe-    ges Forschungsfeld. Die hier diskutierten Methoden sind
nen stochastischen relationalen Modelle implizieren also      nur ein erster Schritt.
nicht nur eine bestimmte Form der Verallgemeinerung           Es werden auch Lücken in unseren theoretischen Me-
beim Lernen, sondern auch eine bestimmte Explorati-           thoden erkennbar. Um die Schätzung, Prädiktion und
onsstrategie. Nehmen wir als Beispiel einen Roboter, der      Manipulation externer Freiheitsgrade zu ermöglichen,
einige Zeit mit blauen und roten Blöcken Erfahrung ge-       brauchen wir geeignete Repräsentationen, strukturier-
sammelt hat. Danach wird ihm ein grüner Klotz und            te Wahrscheinlichkeitsmodelle. Die hier diskutierten re-
ein grüner Ball gegeben. Beide Gegenstände hat der Ro-      lationalen Modelle sind nur ein Beispiel für geeignete
boter noch nie gesehen. Ein simpel gestricktes System         Repräsentationen, die die Struktur der Umwelt wieder-
würde beide daher als gleich interessant einstufen. Ein      spiegeln – in diesem Fall ihre Komposition aus Objekten.
Roboter, der relationale Modelle lernt, kann hingegen         Für viele andere Charakteristika der natürlichen Um-
ausnutzen, dass er bereits zuvor anhand der blauen und        welt haben wir bisher noch keine mathematischen For-
roten Klötze gelernt hat. Er weiß, was er mit Klötzen an-   malismen, um sie auszudrücken und entsprechend gene-
fangen und dass er sie zum Beispiel aufeinander stapeln       ralisierende Lern- und Planungsmethoden abzuleiten.
kann. Insbesondere hat er erkannt, dass die Farbe ei-
nes Klotzes keine Auswirkung darauf hat, was mit ihm          Wenn man also unter kognitiver Robotik, wie hier vor-
gebaut werden kann. Ein solcher Roboter wird daher            geschlagen, die Erweiterung von Lernen, Planen, Infe-
den grünen Ball zur Exploration bevorzugen, auf den          renz und Regelung auf äußere Freiheitsgrade verstehen
sein zuvor erlerntes Wissen nicht verallgemeinert. Ak-        will, so wird es zum zentralen Problem, die Struktur die-
tuelle Systeme, die in der stochastischen relationalen KI     ser äußeren Welt in geeignete Priors, Repräsentationen
erforscht werden, zeigen in Experimenten genau dieses         und Modellannahmen zu übersetzen. Mit den hier disku-
Verhalten (Lang et al., 2010, 2012).                          tierten Ansätzen zum relationalen Lernen und Symbol-
                                                              Lernen sind erste Beispiele gegeben. Die existierenden
                                                              Forschungsrichtungen zur Integration von Logik, Geo-
                                                              metrie und Wahrscheinlichkeiten (etwa (Kaelbling and
7 Zusammenfassung                                             Lozano-Pérez, 2011)) gehen in dieselbe Richtung. Den-
                                                              noch wird die Forschung vermutlich noch einige Zeit
In den 1960er Jahren stellte das MIT Shakey vor, einen        mit ähnlichen Szenarien beschäftigt sein, wie sie ober-
mobilen Roboter, der Objekte verschieben, greifen und         flächlich schon vor 50 Jahren mit Shakey begonnen wur-
plazieren konnte (Nilsson, 1984). Im Grunde hat die hier      den. Anders als damals sind das Ziel jedoch Systeme,
diskutierte Forschung, und generell die Forschung an          die durch intelligente Exploration und Verallgemeine-
kognitiven Systemen, immer noch sehr ähnliche Ziele.         rung autonom lernen. Mit selbst erlernten Modellen und
Hat die Robotikforschung also in den letzten 40 Jah-          Symbolen sollen sie in gewisser Weise begreifen“, was
                                                                                                      ”
ren keinen Fortschritt gemacht? Tatsächlich ist das, was     sie tun, und dies eigenständig zur Verhaltensorganisati-
mit Robotern im Kontext der autonomen Objektma-               on nutzen. Die Fortschritte in der Lerntheorie und Ro-
nipulation und Handlungsplanung demonstriert wird,            botik erlauben uns es heute besser zu verstehen, welche

                                                                                                                     7
fundamentalen wissenschaftlichen Probleme sich hinter
diesem Ziel verbergen.

Danksagung
Die Autoren bedanken sich bei der Deutschen For-
schungsgemeinschaft für die Einrichtung des Schwer-
punktprogramms SPP 1527. Diese Forschung wurde im
Rahmen des Projekts TO 409/7-1 gefördert.

8
at 8/2004

Literaturverzeichnis
D. Andre and S. Russell. Programmable reinforcement              Y. Niv, J. D., and D. P. A normative perspective on
  learning agents. In Proceedings of the 13th Con-                 motivation. Trends in Cognitive Sciences (TICS), 10:
  ference on Neural Information Processing Systems                 375–381, 2006.
  (NIPS 2001), pages 1019–1025, 2001.
T. Asfour, K. Regenstein, P. Azad, J. Schroder, A. Bier-
  baum, N. Vahrenkamp, and R. Dillmann. Armar-iii:
  An integrated humanoid platform for sensory-motor
                                                                 H. M. Pasula, L. S. Zettlemoyer, and L. P. Kaelb-
  control. In Humanoid Robots, 2006 6th IEEE-RAS In-
                                                                   ling. Learning symbolic models of stochastic domains.
  ternational Conference on, pages 169–175. Ieee, 2006.
                                                                   Journal of Artificial Intelligence Research (JAIR), 29:
M. Beetz, F. Stulp, B. Radig, J. Bandouch, N. Blodow,              309–352, 2007.
  M. Dolha, A. Fedrizzi, D. Jain, U. Klank, I. Kresse,
  et al. The assistive kitchen—a demonstration sce-
  nario for cognitive technical systems. In Robot and
  Human Interactive Communication, 2008. RO-MAN
  2008. The 17th IEEE International Symposium on,                J. Pearl. Probabilistic Reasoning In Intelligent Systems:
  pages 1–8. IEEE, 2008.                                            Networks of Plausible Inference. Morgan Kaufmann,
R. I. Brafman and M. Tennenholtz. R-max - a general                 1988.
  polynomial time algorithm for near-optimal reinforce-
  ment learning. Journal of Machine Learning Research
  (JMLR), 3:213–231, 2002.
J. Feldman. Symbolic representations of probabilistic
                                                                 P. Poupart, N. Vlassis, J. Hoey, and K. Regan. An ana-
  worlds. Cognition, 123:61–83, 2012.
                                                                   lytic solution to discrete Bayesian reinforcement lear-
R. Fikes and N. Nilsson. STRIPS: a new approach to                 ning. In Proc. of the Int. Conf. on Machine Learning
  the application of theorem proving to problem solving.           (ICML), pages 697–704, 2006.
  Artificial Intelligence Journal, 2:189–208, 1971.
N. Jetchev, T. Lang, and M. Toussaint. Learning groun-
  ded relational symbols from continuous data for ab-
  stract reasoning. Submitted to ICRA 2013, 2013.
L. Kaelbling and T. Lozano-Pérez. Hierarchical task and         J. Steil, F. Röthling, R. Haschke, and H. Ritter. Situated
  motion planning in the now. In Robotics and Auto-                 robot learning for multi-modal instruction and imita-
  mation (ICRA), 2011 IEEE International Conference                 tion of grasping. Robotics and Autonomous Systems,
  on, pages 1470–1477. IEEE, 2011.                                  47(2):129–141, 2004.
W. Köhler. Intelligenzprüfungen an Menschenaffen.
  Springer, Berlin (3rd edition, 1973), 1917. English ver-
  sion: Wolgang Köhler (1925): The Mentality of Apes.
  Harcourt & Brace, New York.                                    S. Thrun. Towards programming tools for robots that
T. Kollar, S. Tellex, D. Roy, and N. Roy. Toward under-            integrate probabilistic computation and learning. In
  standing natural language directions. In HRI, pages              Proceedings of the IEEE Int. Conf. on Robotics and
  259–266, 2010.                                                   Automation (ICRA 2000), 2000.
T. Lang and M. Toussaint. Planning with noisy probabi-
  listic relational rules. Journal of Artificial Intelligence
  Research (JAIR), 39:1–49, 2010.
T. Lang, M. Toussaint, and K. Kersting. Exploration
                                                                 S. Vijayakumar, A. D’Souza, and S. Schaal. Incremental
  in relational domains for model-based reinforcement
                                                                    online learning in high dimensions. Neural Computa-
  learning. In Proc. of the European Conf. on Machine
                                                                    tion, 17(12):2602–2634, 2005.
  Learning (ECML), 2010.
T. Lang, M. Toussaint, and K. Kersting. Exploration
  in relational domains for model-based reinforcement
  learning. Journal of Machine Learning Research, 13:
  3691–3734, 2012.                                               P. Wellens, M. Loetzsch, and L. Steels. Flexible word
N. Nilsson. Shakey the robot. Technical Note 323. AI               meaning in embodied agents. Connection Science, 20
  Center, SRI International 323, 1984.                             (2-3):173–191, 2008.

                                                       at – Automatisierungstechnik 68 (2020) 8   c Oldenbourg Verlag     9
04
Prof. Dr.rer.nat. Marc Toussaint ist Pro-
     fessor und Leiter des Machine Learning and
     Robotics Lab an der Universität Stuttgart.
     Hauptarbeitsgebiete: Maschinelles Lernen,
     Reinforcement Lernen, Robotik.
     Adresse:        Universität Stuttgart, Uni-
     versitätsstraße    38,     70569   Stuttgart,
     marc.toussaint@informatik.uni-stuttgart.de

     Dr.rer.nat. Tobias Lang ist Wissenschaft-
     ler im Machine Learning and Robotics Lab der
     FU Berlin und erforscht autonome Explorati-
     on und Schlussfolgerung kognitiver Systeme.
     Adresse: tobias.lang@fu-berlin.de

     Dr.rer.nat. Nikolay Jetchev ist Wissen-
     schaftler im Machine Learning and Robotics
     Lab der FU Berlin und erforscht, wie Robo-
     ter aus Demonstration lernen und ihre Umwelt
     in symbolischen Beschreibungen abstrahieren
     können.
     Adresse: nikolay.jetchev@fu-berlin.de

10
Sie können auch lesen