ERFASSUNG NICHT VIDEOBASIERTER BLICKDATEN

Die Seite wird erstellt Julia Schumacher
 
WEITER LESEN
Proseminar Eye Tracking des Institute for Web Science and Technologies, Wintersemester 2020/21

E RFASSUNG NICHT VIDEOBASIERTER B LICKDATEN
 Luca Gerhards
 lgerhards@uni-koblenz.de

                                    Z USAMMENFASSUNG

         Die Erfassung von Blickdaten kann in viele verschiedene Gruppen unterteilt wer-
         den. Eine mögliche Unterteilung ist die in videobasierte und nicht videobasierte
         Erfassung. Im Folgenden wird auf die nicht videobasierte Erfassung eingegan-
         gen, um einen generellen Überlick zu vermitteln und die beiden Verfahren der
         Elektrookulografie und der Scleral Search Coil genauer zu erläutern. Um dies
         nachvollziehbar zu gestalten werden des Weiteren auch biologische Aspekte an-
         gesprochen. Ohne diese, welche auch als die Eigenschaften des Auges betrachtet
         werden können wäre die Messung der Augenbewegung nicht möglich.

1   E INF ÜHRUNG

Eye Tracking ist heutzutage ein gängiger Begriff, welcher meist spezielle videobasierte Methoden
der Blickdatenerfassung beschreibt. Diese dienen um zu messen, auf welche Bereiche eines
Objektes, wie z.B. einen Bildschirm, der Blick der Testperson fällt bzw. welches Element des
Bildes momentan im Fokus der Person liegt. Das gilt für viele der hier besprochenen Methoden
nicht, diese befassen sich nicht nur mit der reinen Blickrichtung, sondern dem generellen Verhalten
der Augen. Dies wird unter anderem in medizinischen Verfahren oder im Bereich der Activity
Recognition benutzt, was nach Bulling et al. [2] sowie Brown et al. [1] zu sehen ist. Das Ziel dieses
Reports ist es einen generellen Überblick über das Thema Eye Tracking, besonders im Bezug auf
die eher unbekannten, nicht videobasierten Verfahren zu vermitteln.

Die Messgeräte, welche für die Erfassung von Blickdaten benutzt werden, sind meist als Eye Tracker
bekannt. Diese können in zwei Arten der Messung unterteilt werden: Diejenigen, welche die Posi-
tion der Augen relativ zur Position des Kopfes messen und diejenigen, welche die Orientierungen
der Augen im dreidimensionalen Raum erfassen. Letztere wird auch oft point of regard oder gaze
Messung gennant. Die erste Messart kann jedoch Ergebnisse äquivalent der zweiten liefern, falls
parallel die Position des Kopfes im Raum gemessen wird und beide Bewegungsdaten kombiniert
verarbeitet werden.

2   G ESCHICHTE DER E RFASSUNG VON B LICKDATEN / H ISTORISCHER
    H INTERGRUND

Die Blickdatenerfassung wurde das erste Mal nachweisbar im späten 18. Jahrhundert angewandt.
Nach Drewes [4] wurden die Augenbewegungen durch Nachbilder beschrieben, welche durch
längeres Fokussieren eines Punktes entstehen. Bis in die Mitte des 20. Jahrhundert wurden die Bewe-
gungen des Auges über die zuvor beschriebenen Nachbilder, Geräusche oder auch durch Fotos und
Reflexionen der Lichtstrahlen im Auge erfasst. Die Geräusche entstehen z.B. durch die mechanische
Verbindung des Auges mit dem Ohr über ein Gummiband. Die erste nicht invasive Methode wur-
de 1901 mit Fotoaufnahmen erfunden, welche aber nur horizontale Bewegungen erfassen konnte,
wie von Drewes [4] beschrieben. 1939 wurde das Verfahren der Elektrookulografie (EOG) erfun-
den, welches auch noch heute Verwendung findet. Dieses Verfahren ermöglichte auch erstmals die
Auswertung von Blickdaten in Echtzeit, sowie die Messung von vertikalen und horizontalen Bewe-
gungen zur gleichen Zeit. Ab den 1980er Jahren gewann die videobasierte Erfassung immer mehr
an Popularität und ist heute zu einer der gängigsten Methoden der Messung von Augenbewegungen
geworden. Weiteres zur Geschichte der Blickdatenerfassung kann Singh & Singh [8] entnommen
werden.

                                                 1
Proseminar Eye Tracking des Institute for Web Science and Technologies, Wintersemester 2020/21

                                                     Lederhaut (Sklera)

                                                                    Limbus

                                                                                 Hornhaut (Cornea)
Sehgrube
(fovea centralis)
                                                                                    Tränenflüssigkeit

          Sehnerv                                                                     Pupille

                                                                          Iris

                                                                Linse

                                     Netzhaut (Retina)

      Abbildung 1: Grober Aufbau des Auges mit den für diesen Bericht relevanten Bestandteilen

3     C HARAKTERISTIKEN DES AUGES

Bevor Blickdaten erfasst werden können, muss erst bestimmt werden, für welche Charakteristiken
des Auges eine eindeutige Messung möglich ist. Eine wichtige Rolle dabei spielt auch wie diese mit
den Bewegungen des Auges in Verbindung stehen. Diese Charakteristiken können in zwei Gruppen
unterteilt werden: Die visuell messbaren Eigenschaften, wie z.B. die Pupille, sowie die nicht visuell
messbaren, wie z.B. elektronische Ladungen in Muskeln.
Da einige der hier besprochenen Begriffe nicht gängig sind, ist in Abbildung 1 ein grobes Schema
des Auges zu sehen, in welchem diese dargestellt werden.
Um zu verdeutlichen in welcher Größenordnung Bewegungen, in einigen der Methoden, gemessen
werden folgt eine Erklärung zweier oft gennanter Einheiten. Eine Winkelminute ist 60 1
                                                                                         von 1◦ und
eine Winkelsekunde ist 60 einer Winkelminute. Somit ist eine Winkelsekunde weiter 3600 von 1◦ .
                         1                                                              1

3.1     V ISUELL MESSBARE E IGENSCHAFTEN DES AUGES

Ein Großteil der messbaren Eigenschaften des Auges ist visuell messbar. Diese spielen bei den vi-
deobasierten Verfahren eine größere Rolle als bei den nicht videobasierten. Jedoch unterscheidet
sich dies stark von Methode zu Methode, wodurch auch manche nicht videobasierte Verfahren kom-
plett auf diesen Eigenschaften aufbauen.

3.1.1     D ER L IMBUS
Der Limbus ist die Zone des Auges, in welcher die Netzhaut in die Lederhaut übergeht. Diese beiden
Bereiche können visuell klar voneinander getrennt werden. Die Position des Limbus im Verhältnis
zum Kopf kann so klar nachverfolgt werden. Diese Messung kann, nach Young & Sheena [10] auf
zwei Wege erfolgen: Entweder direkt über Photodetektoren oder indirekt über Bildaufnahmen des
Auges. Das Verhältnis der dunklen Iris und Hornhaut zur hellen Lederhaut steht immer im Bezug
zur horizontalen Position des Auges und ermöglicht somit die Messung.

3.1.2     D IE P UPILLE
Die Pupille kann klar von der Iris unterschieden werden, da die Reflexionsgrade dieser beiden Be-
standteile stark unterschiedlich sind. So kann unter anderem durch Anpassung der Lichtquellen die

                                                 2
Proseminar Eye Tracking des Institute for Web Science and Technologies, Wintersemester 2020/21

Helligkeit von Iris und Pupille beeinflusst werden, wodurch diese optisch leicht zu unterscheiden
sind. Dies basiert auf dem Einfallswinkel des Lichtes und wie dieser in Relation zur optischen Ach-
se steht. So wird die Pupille deutlich dunkler erscheinen, wenn das Licht nicht genau der optischen
Achse folgt. Die runde, jedoch leicht elliptische Form der Pupille ermöglicht es den Mittelpunkt zu
berechnen. Daraus folgt, wie in Young & Sheena [10] beschrieben, dass die Blickrichtung über den
Winkel im Bezug zum Kopf ermittelt werden kann.

3.1.3    D IE C ORNEA
Die Cornea ist gut sichtbar und reflektiert Licht ähnlich wie ein konvexer Spiegel mit leichter
Krümmung. Dies kann über Aufnahmen analysiert werden, indem eine Kamera frontal auf die Per-
son gerichtet wird. Die Messung der Augenbewegung über die Reflexion der Cornea hat jedoch
zwei Nachteile, welche auch in Hartridge & Thomson [6] erwähnt werden. Erstens ist die Bewe-
gung des reflektierten Bildes nur halb so lang wie die Bewegung der Cornea selbst. Weiter hat die
unterschiedliche lokale Dichte der Tränenflüssigkeit über die gesamte Cornea Auswirkungen auf die
Reflexion, besonders wenn der betrachtete Punkt nahe den Augenlidern liegt.

3.1.4    D IE S KLERA
Wie in Hartridge & Thomson [6] beschrieben kann die Sklera unter unterschiedlichen Bedingungen
zur Messung von Augenbewegungen genutzt werden. Dies ist möglich wenn, die Gefäße mit Blut
gefüllt sind und so auf Fotos erkannt werden können, ein Teil der Sklera tättowiert wurde oder ein
Objekt an der Sklera platziert wird. Zwei Möglichkeiten dafür sind die Befestigung eines Spiegels
oder das Anbringen eines kleinen Tropfen Quecksilbers an der Linse. Ein Nachteil an Messungen
über die Sklera ist, dass sich Objekte, welche an dieser platziert wurden, verrücken können und so
die Messdaten verändern.

3.2     N ICHT VISUELL MESSBARE E IGENSCHAFTEN DES AUGES

Das Auge besitzt deutlich weniger nicht visuell messbare Eigenschaften als visuell Messbare. Trotz-
dem sind auch diese Eigenschaften wichtig und spielen abhängig von dem genutzen Verfahren eine
große Rolle. Die Messarten dieser unterscheiden sich stark von den visuell messbaren und haben
andere Stärken und Schwächen.

3.2.1    AUSBUCHTUNG DER C ORNEA
Die Hornhaut liegt an der Front des Auges und besitzt eine geringere Krümmung als der Rest des
Auges. Diese Ausbuchtung kann auch durch die Augenlider mittels Drucksensoren gemessen wer-
den. Mathematische Eigenschaften sowie ein möglicher Aufbau können in Young & Sheena [10]
nachvollzogen werden.

3.2.2    DAS RUHEPOTENZIAL DER N ETZHAUT (C ORNEO -R ETINAL P OTENTIAL )
Zwischen der Hornhaut des Auges und der Retina gibt es eine Potenzialdifferenz von bis zu 1mV,
wobei die Hornhaut im Bezug zur Retina positiv geladen ist. Diese Potenzialdifferenz hängt von
äußeren Faktoren, wie z.B. der Beleuchtung ab, weshalb jene bei Messungen beachtet und kontrol-
liert werden müssen. Der negative Pol liegt am Sehnervenkopf. Die geringen Spannungen fließen
durch das Gewebe im Auge von der Hornhaut bis zur Retina. Das elektrische Feld, welches durch
beide Pole erzeugt wird, ist nicht nach der optischen Achse ausgerichtet, was zu Problemen bei Mes-
sungen der horizontalen und vertikalen Augenbewegung führen kann. Dies ist nur der Fall, wenn es
gleichzeitig zu torsionalen Bewegung des Auges kommt. Weitere Informationen zu dieser Eigen-
schaft können aus Young & Sheena [10], sowie aus Singh & Singh [8] entnommen werden.

3.3     B EWEGUNGSARTEN

Die Arten auf die sich das Auge bewegen kann können in zwei Kategorien eingeteilt werden. Wie
diese Unterteilung geschieht ist auch in Singh & Singh [8] zu sehen: Stabilisierende Bewegungen,
welche dafür sorgen, dass der Punkt oder das Objekt, welches beobachtet wird weiterhin die Fovea
centralis trifft und somit scharf im Blickfeld der Person bleibt. Sakkadische Bewegungen sind

                                                 3
Proseminar Eye Tracking des Institute for Web Science and Technologies, Wintersemester 2020/21

ruckartige Bewegungen die dazu dienen, Bildausschnitte die von Interesse sind in den Fokus zu
rücken.

3.3.1   S AKKADEN
Sakkaden sind schnelle Bewegungen des Auges von einem Punkt zum anderen, um diese auf die
Fovea centralis zu fokussieren. Diese sind unter anderem an einer hohen Anfangsbeschleunigung
sowie einer abrupten Bremsung am Ende von bis zu 40000◦ /sec2 zu erkennen. Es wird dabei eine
maximale Geschwindigkeit zwischen 400◦ /sec und 600◦ /sec erreicht. Diese Bewegung kann so-
wohl gewollt als auch reflexiv ausgeführt werden. Die Sakkaden weisen meist eine Dauer zwischen
30ms und 120ms auf. Weiter tritt diese Bewegung auch oft in Verbindung mit der Bewegung des
Kopfes auf. In Young & Sheena [10] wird diese Bewegung noch ausführlicher beschrieben.

3.3.2   F IXATION
Bei der Fixation wird das Bild eines fokussierten Teils des Blickfeldes auf der Retina gehalten.
Dies geschieht durch geringe Bewegung und hat eine Dauer zwischen 100ms und 1000ms. Singh &
Singh [8] erwähnen, dass die Dauer der Fixation hauptsächlich von der Qualität der Informationen
abhängt. Dabei bezieht sich die Information auf den Inhalt des fixierten Gebiets des Blickfelds.

3.3.3   V ERFOLGUNG
Bei der Verfolgung handelt es sich um Bewegungen des Auges auf ein sich langsam bewegendes
Ziel, die ähnlich zur Fixation dafür sorgen, dass das Bild dieses Ziels auf der Retina gehalten wird.
Das funktioniert bei Objekten die sich bis zu 30◦ /sec im Verhältnis zum Auge bewegen. Diese
Bewegung geschieht nicht willentlich, sondern benötigt meist ein sich bewegendes Objekt, welches
vor dessen Bewegung fokussiert wurde. Das Verhalten der Verfolgung wird so in Singh & Singh [8]
und Young & Sheena [10] beschrieben.

3.3.4   KOMPENSIERUNG
Ähnlich zu der Verfolgung dienen die Kompensierungsbewegungen auch dazu das Bild des betrach-
teten Objekts auf der Retina zu stabilisieren, nur ist der Auslösungsgrund ein anderer. Hier geht es
darum, gewollte sowie ungewollte Bewegungen des Kopfes oder des Torsos zu kompensieren und
gegen diese zu wirken, wie bei Young & Sheena [10] nachzuvollziehen ist.

3.3.5   M INIATUR -AUGENBEWEGUNG
Miniatur-Augenbewegungen sind Bewegungen die während der Fixation auftreten und Amplituden
von weniger als 1◦ besitzen. Diese können, wie auch von Singh & Singh [8] in die folgenden drei Ka-
tegorien unterteilt werden. Zittern ist eine Bewegung mit hoher Frequenz von 30Hz bis 150Hz und
mit Amplituden bis 30 Winkelsekunden. Drift ist eine langsame und zufällige Bewegung des Auges
von maximal wenigen Winkelminuten pro Sekunde. Diese tritt, nach Young & Sheena [10] innerhalb
der dead zone der Fovea centralis auf. Jene ist ein Bereich innerhalb der Fovea centralis, in welchem
geringe Bewegungen nicht zu einer Änderung des Fokus führen. Die letzte dieser Bewegungen sind
Mikrosakkaden. Jene sind nichts anderes als normale Sakkaden in der Größenordnungen von 1 bis
2 Winkelminuten.

3.3.6   V ERGENZ
Vergenzbewegungen der Augen grenzen sich von den anderen hier beschriebenen Bewegungsarten
ab. Diese Abgrenzung von Singh & Singh [8] entsteht daraus, dass hier beide Augen nicht gleich
agieren, sondern die Bewegung des anderen Auges horizontal spiegeln. Der Zweck dieser Bewe-
gung ist das Fokussieren von Objekten, welche nah oder fern der Augen liegen. So drehen sich die
Augen zueinander, wenn nahe Objekte fokussiert werden sollen. Bei fernen Objekten drehen sie
sich in Richtung der äußeren Augenwinkeln. Diese Art ist langsamer als viele der anderen Arten
von Bewegungen. Die Geschwindigkeit dieser beträgt nach Young & Sheena [10] bis zu 10◦ /sec
über eine Strecke bis zu 15◦ .

                                                  4
Proseminar Eye Tracking des Institute for Web Science and Technologies, Wintersemester 2020/21

3.3.7    N YSTAGMUS
Nystagmus ist eine Augenbewegung, welche als Reaktion auf verschiedene Reize ausgeführt wird.
Dabei kann sich das Verhalten je nach Reiz stark von anderen Arten des Nystagmus unterscheiden.
Alle Arten des Nystagmus beinhalten, wie in Singh & Singh [8] erläutert eine relativ langsame
Verfolgung eines Objektes und einen darauffolgenden abrupten Sprung. Dieser ist ähnlich einer
Sakkade und dient dazu einen anderen Teil des Blickfeldes zu fokussieren. Nach Young & Sheena
[10] existieren folgende Arten von Nystagmus: Der vestibulärer Nystagmus ist eine Reaktion auf
Bewegungen des Kopfes. Der optokinetische Nystagmus ist eine Reaktion auf ein sich bewegendes
visuelles Feld, welches wiederholende Muster enthält. Weiter existiert der spontane Nystagmus,
welcher auch gaze Nystagmus genannt wird. Beide sind meist mit neurologischen Störungen in
Verbindung zu bringen.

3.3.8    T ORSIONALE AUGENBEWEGUNG
Die torsionale Augenbewegungen sind Rotationsbewegungen des Auges über die Blickrichtung die
maximal bis 10◦ gehen. Diese Bewegung kann durch rotierenden optokinetische Nystagmus oder
durch vestibuläre Reaktionen stimuliert werden. Diese Reaktionen werden durch Neigung des Kopf-
es oder die Rotation des Sichtfelds ausgelöst, wie in Singh & Singh [8] und Young & Sheena [10]
erklärt.

4     E LEKTROOKULOGRAFIE
Die Elektrookulografie (EOG) entstand 1934 und ist eine auf dem Ruhepotenzial der Cornea basie-
renden Methode um Augenbewegungen zu messen. Die Messungsergebnisse haben eine Änderung
zwischen 14 und 20 mV pro Grad der Augenbewegung und liegen insgesamt innerhalb von bis zu
200 mV. Um dieses Potenzial zu messen werden Elektroden benötigt die am Kopf angebracht wer-
den. Der Aufbau dieser Methode ist zusammen mit tiefergehenden Informationen in Singh & Singh
[8] und Young & Sheena [10] beschrieben.

4.1     AUFBAU

Das erste Elektrodenpaar wird jeweils an den äußeren Augenwinkeln der Person angebracht und
dienen dazu die horizontale Bewegung der Augen zu erfassen. Zur Minimerung der Störsignale
sollte man diese möglichst nah an den Schläfen platzieren. Dies ermöglicht erstmal nur die Messung
der horizontalen Bewegung beider Augen als Paar. Wenn diese getrennt gemessen werden sollen
kann eine weitere Elektrode am Nasenrücken angebracht werden, welche sich beide Augen teilen.
Weiter benötigt man für beide Augen jeweils noch zwei Elektrodenpaare die über und unter den
Augen angebracht werden um die vertikalen Bewegungen pro Auge zu messen. Zuletzt wird
meist eine weitere Elektrode an der Stirn der Person angebracht, welche genutzt wird um einen
Referenzwert zu liefern. Alle Elektroden werden getrennt nach Ausrichtung, also horizontal und
vertikal mit Gleichstrom- bzw Wechselstromvertärkern verbunden. Das verstärkte Signal wird
danach weitergeleitet um aufgezeichnet zu werden.

Ein möglicher Aufbau mit Referenzelektrode, sowie Elektroden zur Messungen der horizontalen
und vertikalen Bewegung beider Augen einzeln ist in Abbildung 2 zu sehen.

4.2     P ROBLEME

Die Wahl des Verstärkers hat Auswirkungen auf die Anwendung dieses Verfahrens. Der Wechsel-
stromverstärker bietet sensiblere Messungen und wird genutzt um auch die schnellen und langsa-
men Phasen eines Nystagmus zu messen. Mit einem Gleichstromverstärker können diese nicht so
klar aufgenommen werden. Dieses Verfahren nennt man auch Elektronystagmographie (ENG) und
grenzt dieses von der normalen EOG ab. Wenn horizontale und vertikale Bewegungen simultan
gemessen werden führt das zu möglicherweise erheblich ungenaueren Ergebnissen. Die Probleme
durch die Kopplung der Achsen können vermindert werden, indem man die sogenannte Vektor EOG
nutzt. Diese Abwandlung des Verfahrens wurde in Uenoyama et al. [9] erforscht. Das Prinzip hinter
dieser ist die Summierung von elektronischen Vektoren. Worum es sich dabei genau handelt wird

                                                 5
Proseminar Eye Tracking des Institute for Web Science and Technologies, Wintersemester 2020/21

                                                 Referenzelektrode

                                                                           Vertikale
                                                                           Positionen
                                                                  Gleichstrom
                                                                  Verstärker

                                                                            Horizontale
                                                                            Positionen
                                                                  Gleichstrom
                                                                  Verstärker

       Abbildung 2: Ein Schema einer möglichen Arnordnung der Elektroden für die EOG

im folgenden erklärt. Durch die, oben genannten angebrachten Elektroden wird die Projektion elek-
trischer Vektoren, in diesem Fall die Potentialdifferenzen, in horizontal und vertikal getrennt auf-
genommen. Diese werden dann einzeln verstärkt und in Umlenkplatten einer Kathodenstrahlröhre
gelenkt, welche ein Bild erzeugen kann. In dem erzeugten Bild kann nun die Summierung dieser
beiden Vektoren betrachtet werden, wobei die in dem Bild gezeigte Bewegung proportional zu der
Richtung und den Rotationswinkeln der echten Augenbewegung ist. Mit dieser Methode und leich-
ten Modifikationen wird es auch möglich direkt die Geschwindigkeit der Bewegung zu messen.
Hierbei werden jeweils die beiden unteren und oberen Elektroden für die Vertikalmessung kurzge-
schlossen. Ein weiteres bekanntes Problem ist die Störung bei der vertikalen Messung durch Bewe-
gung des oberen Augenlides. Mögliche Lösungen dieser Probleme werden in Young & Sheena [10]
angesprochen.

4.3   A NWENDUNGSBEREICHE

Auch heutzutage wird die EOG noch in medizinischen und wissenschaftlichen Kontexten benutzt
und erforscht. Der in 2016 erschienene Bericht von Dhuliawala et al. [3] z.B. hat die EOG als
mögliches Interface in Betracht gezogen. Die Idee dahinter ist, dass viele Eyetracker, besonders vi-
deobasierte, als Steuerung für jede Benutzung kalibriert werden müssen. Weiterhin benötigen diese
viel Rechenleistung im Gegensatz zur EOG welche somit eine realistische Alternative darstellen
kann. Dafür wird eine Brille benutzt, diese hat insgesamt drei Elektroden auf dem Nasenrücken und
den Nasenpads der Brille. Diese Signale werden dann ohne Kontext interpretiert, das bedeutet, dass
nur die Augenbewegungen gemessen werden und nicht bekannt ist was die aktuelle Blickrichtung
im Raum ist. Das ist der Grund dafür, dass keine Kalibrierung nötig und die benötigte Rechenleis-
tung gering ist. Diese Methode ist präzise genug um auch geringe Augenbewegungen mit hoher
Präzision zu erkennen solange die Person sich während Nutzung nicht bewegt, da ansonsten signifi-
kante Störungen entstehen. Die Brille kann somit Gesten erkennen, die Steuerung wäre dann ähnlich
zu Gestensteuerung in modernen Smartphones, nur dass es sich hierbei um Augen- statt Fingerbe-
wegungen handelt. Somit könnte diese Methode ein sinnvolles und leicht nutzbares Interface für

                                                 6
Proseminar Eye Tracking des Institute for Web Science and Technologies, Wintersemester 2020/21

Personen mit ALS oder anderen starken Beeinträchtigungen darstellen, welches z.B. die Nutzung
eines Computers erleichtert.
Ein weiteres Anwendungsgebiet ist die Aktivitätserkennung, diese wurde in Bulling et al. [2] un-
tersucht. Viele der Erkentnisse aus der Forschung zu diesem Thema basieren auf Methoden die auf
Bewegungen des Körpers, Interaktionen oder Geräuschen basieren. Außerdem sind videobasierte
Eyetracker störender und weisen höhere Kosten auf als die EOG. Das resultiert daraus, dass die,
für diesen Anwendungszweck genutzten videobasierten Eyetracker am Kopf getragen werden. Die
Mehrkosten entstehen durch die hohe nötige Rechenleistung um alle einzelnen Bilder eines Videos
zu bearbeiten. Die dort betrachteten Aktivitäten: Das Kopieren eines Textes, das Lesen eines Pa-
piers, handschriftliche Notizen anfertigen, ein Video ansehen und das nutzen eines Internetbrowsers
werden durch videobasierte Verfahren nicht so effizient abgedeckt. Es wurde erfolgreich versucht
diese Aktivitäten über durch EOG erkannte Sakkaden, Fixationen und blinzeln zu erkennen. Der
generelle Aufbau ist wie folgt: Die horizontalen und vertikalen Signale werden bearbeitet durch
Algorithmen zur Entfernung von Basisliniendrift und Störungen. Dann werden bei beiden Signalen
Sakkaden und Fixationen erkannt, wobei das Blinzeln nur in der vertikalen Messung erkennbar ist.
Diese Bewegungen stellen dann das Fundament für das Erkennen von Merkmalen, die relevantesten
werden darauf für die Klassifikation von Aktivitäten genutzt. Die Aktivitäten können somit über
die Stärke und Ausrichtung der Augenbewegung klassifiziert und erkannt werden, ohne dabei die
genaue Blickrichtung zu kennen.
In der Medizin findet die EOG weitere Anwendungen. In Brown et al. [1] wurde ein neuer klinischer
Standard für die EOG entwickelt. Im diesem Kontext dreht sich das Verfahren nicht um die Blick-
winkelbestimmung oder wie sich die Augen bewegen, sondern darum welches Ergebnis die Messung
bei bekannten Abläufen liefert. Der Hintergrund dafür ist wie folgt: Das Ruhepotenzial der Netzhaut
verändert sich mit Änderungen der Beleuchtung der Retina. Wenn die Beleuchtung abnimmt sinkt
das Potenzial für bis zu 10 Minuten, bei darauffolgender Erhöhung der Beleuchtung sinkt dieses
kurz und nimmt darauf über bis zu 14 Minuten wieder zu. Diese Reaktion des Ruhepotenzials ist bei
gesunden Menschen und festen Bedingungen bei der Durchführung des Tests vorhersehbar. Zu die-
sen Bedingungen zählen die Vorbereitung der Testperson, der genaue Ablauf des Tests und spezielle
Anforderungen an die benutzten Geräte. Große Abweichungen zu diesem Erwartungswert sind ein
Indiz für mehrere Krankheiten, da diese Auswirkungen auf die Reaktion des Auges auf Licht haben.
Zu diesen Krankheiten können Entzündungen oder Stäbchenfunktionsstörungen zählen.

4.4   FAZIT ZUR EOG

Die EOG hat mit bis zu ±70◦ einen der größten Messbereiche was nicht videobasierte Blickda-
tenerfassungsmethoden angeht. Dies stammt daher, dass das Auge nicht visualisiert werden muss
und somit unabhängig von den visuell messbaren Eigenschaften des Auges ist. Die Genauigkeit der
Elektroden liegt zwischen 1, 5◦ − 2◦ . Außerdem kann EOG auch problemlos bei Tieren angewandt
werden, was bei vielen der anderen Verfahren nicht der Fall ist. Negative Aspekte existieren auch.
Einer dieser ist die schlechte Linearität ab Bewegung die mehr als 30◦ spannen, wobei die vertikale
Messung davon stärker betroffen ist. Weitere Störungen können unabhängigen Muskelbewegungen
und Variationen im Ruhepotenzial der Netzhaut zugeschrieben werden. Diese und weitere Schlüsse
wurden in Young & Sheena [10] angesprochen. Abschließend ist zu sagen, dass die EOG keine
Alternative zu z.B. videobasierten Methoden für das gaze tracking ist. Medizinische, sowie die an-
deren hier angesprochenen Anwendungsbereiche profitieren jedoch stark von den Eigenschaften der
EOG. Daher sollte diese Methode getrennt von dem heute bekannteren gaze tracking betrachtet wer-
den. Weiter zeigt die EOG somit, dass das Themengebiet Eye Tracking nicht vollständig aus diesem
Teilgebiet besteht.

5     S CLERAL S EARCH C OIL

Die Methode der Scleral Search Coil nutzt eine Sklerallinse, diese ist ähnlich einer Kontaktlinse
aber liegt im Gegensatz zu dieser nicht auf der auf der Cornea sondern auf der Sklera auf. An einer
Sklerallinse können unterschiedliche Apparate befestigt werden wie z.B. Spiegel oder Drahtspulen,
über welche die Erfassung der Blickdaten ermöglicht wird. Hier wird speziell auf die Variante
mit der Drahtspule eingegangen, diese birgt nämlich einige Vorteile gegenüber der Methode
des Spiegels an der Sklerallinse. Einer dieser Vorteile wäre z.B. dass die Linse nicht individuell

                                                 7
Proseminar Eye Tracking des Institute for Web Science and Technologies, Wintersemester 2020/21

                               Magnetfeld Hz

Blickachse                                                    Auge

                        θ                               x-Achse

                     y-Achse                                 Linse mit N Umwicklungen
                                        z-Achse
                                                             des Drahts

      Abbildung 3: Schema zur Ermittlung der vertikalen θ Komponente der Augenposition

angepasst werden muss, ohne dabei an Genauigkeit oder Sensitivität zu verlieren Robinson [7].
Durch die hohe Genauigkeit und die Aufnahme auch minimaler Bewegung ist diese Methode
oft bei medizinischen oder psyschologischen Studien sowie Forschungsprojekten vertreten. Diese
Methode hat aber auch Nachteile. Im Vergleich zur EOG ist die Sklerallinse zwar genauer, jedoch
muss in dieser Methode eine Sklerallinse getragen werden und wird somit als invasiver Eyetracker
klassifiziert. Nach Duchowski [5] sogar als invasivste Methode, die dabei noch zu leichten Schmer-
zen führen kann. Des Weiteren wird auch oft ein lokales Betäubungsmittel benutzt bevor die Linse
eingesetzt wird. Dies geht aus dem in Singh & Singh [8] beschriebenen Verfahren hervor.

5.1   AUFBAU

Der Aufbau ist wie folgt: Am äußeren Rand der Sklerallinse wird der Draht N -mal um diese gelegt
und diese wird einem vertikalen alternierenden Magnetfeld Hz ausgesetzt. Dieses Magnetfeld wird
durch zwei Feldspulen an gegenüber liegenden Seiten des Kopfes erzeugt. Aufgrund dessen wird
nicht die Position der Augen im Kopf sondern die Position der Augen in dem durch die Feldspulen
erzeugten Raum gemessen. Dies ermöglicht erstmal nur die Messung der horizontalen oder
vertikalen Bewegung der Augen. Um beide messen zu können müssen zwei weitere Feldspulen
benutzt werden um ein weiteres Magnetfeld zu erzeugen, somit gibt es ein vertikales und ein
horizontales Magnetfeld. Diese beiden Signale müssen unterschieden werden können, dies ist unter
anderem über ein Zeitschlitzverfahren, Frequenzcodierung oder Phasencodierung möglich. Der
Draht um die Linse läuft weiter in einen Wechselstromverstärker, welcher dann das Signal an z.B.
einen Phasendetektor weiterleitet. Die daraus entstehenden Signale werden dann aufgezeichnet.
Eine vereinfachte Abbildung dieses Aufbaus für die Messung der vertikalen Bewegung des Auges
ist in Abbildung 3 zu sehen. Robinson [7]

Diese Methode ermöglicht durch Anpassung an der Linse und deren Draht auch die Messung der
torsionalen Bewegung des Auges. Dafür muss der zweite Draht aufrecht im Bezug auf den in der
x-z-Ebene liegen. Der zweite angebrachte Draht ermöglicht es, über zwei Mangetfelder und zwei
Drahtspulen drei Signale zu erzeugen. Diese sind genau die horizontale, vertikale und torsionale Be-
wegung. Genauer beschrieben findet man diesen Aufbau in Robinson [7] und weitere Informationen
können Singh & Singh [8] entnommen werden.

                                                  8
Proseminar Eye Tracking des Institute for Web Science and Technologies, Wintersemester 2020/21

5.2   M ATHEMATISCHER H INTERGRUND

Der Grund dafür, dass dieses Verfahren funktionieren kann ist das in Robinson [7] beschriebene von
Michael Faraday formulierte Induktionsgesetz:
                                               dθ
                                        e = −N     × 10−8
                                               dt
Diese Gesetz besagt, dass sich die Spannung einer Spule verändert, wenn diese von einem Magnet-
feld umgeben ist, welches sich verändert. Das geschieht bei dieser Methode über die Bewegung
des Auges und somit auch der Linse, wodurch sich das Magnetfeld relativ zur Spule an der Linse
verändert. Der Betrag der induzierten Spannung hängt von der Geschwindigkeit der Änderung an
dem Magnetfeld ab und somit in diesem Kontext von der Geschwindigkeit der Augenbewegung.
Während das Auge in der Ruheposition ist und entlang der in Abbildung 3 gezeigten y-Achse schaut
liegt die Drahtspule auf der x-z-Ebene und hat somit keine induzierte Spannung. Folgend wird am
Beispiel der vertikalen Bewegung gezeigt wie diese Berechnung funktioniert, dies ist tiefgehender
und für die anderen Richtungen in Robinson [7] nachvollziehbar:
                         e1 = N ∗ A ∗ sin(θ) ∗ Hz ∗ ω ∗ sin(ω ∗ t) ∗ 10−8
N hat die gleiche Bedeutung wie vorher: Die Anzahl der Umdrehungen der Spule um die Linse.
A ist hier die Fläche der Spule, welche in der x-z-Ebene liegt. θ stellt Winkel der Blickachse zur
y-Achse dar. Hz steht für die Stärke des Magnetfeldes in Gauß. ω ist die Kreisfrequenz. Für die
Beispielrechnung betrachten wir nun eine Bewegung des Auges um 10◦ mit folgenden Parametern:
                 A = 2.55cm2 , ω = 2π ∗ 5000, N = 10, Hz = 2.19Gs, θ = 10◦
    e1 = 10 ∗ 2.55cm2 ∗ sin(10◦ ) ∗ 2.19Gs ∗ 2π ∗ 5000 ∗ sin(2π ∗ 5000 ∗ t) ∗ 10−8 = 2.2mv
                                                                                        1
Da die Störung des Verstärkers unter 2µv liegen, bedeutet dies, dass es möglich ist 1000 dieser 10◦
Bewegung präzise messen zu können. Umgerechnet kann die Sklerallinse also Bewegungen von
mindestens 36 Winkelsekunden erkennen und aufzeichnen.

5.3   FAZIT ZUR S CLERAL S EARCH C OIL

Ähnlich zur EOG hat auch diese Methode ihre Vor- und Nachteile die in Singh & Singh [8], Young
& Sheena [10] und Duchowski [5] beschrieben sind. Im Gegensatz zu der EOG mit zwei Freiheits-
graden bietet die Scleral Search Coil drei. Dieser dritte Freiheitsgrad entsteht, da mit angepasster
Linse auch torsionale Bewegungen erfasst werden können. Weiter profitiert sie von einer sehr hohen
Präzision die es ermöglicht auch Miniatur Augenbewegungen wie die Mikrosakkaden zu erkennen.
Aber im Gegensatz zur EOG ist die Messreichweite dieser Methode stark eingeschränkt, was bedeu-
tet, dass sich die Nutzen dieser Methode hauptsächlich auf minimale Bewegungen beschränkt. Das
wohl größte Problem das bei der Durchführung von Messungen mit der Sklerallinse auftritt ist die
inhärente invasive Art dieser. Ein Betäubungsmittel sollte vor Nutzung angewandt werden und die
Dauer der Messung ist unter anderem dadurch begrenzt. Außerdem kann es zu Komplikationen bei
dem Anbringen der Sklerallinse kommen. Dies geschieht über negativen Druck und dabei besteht
die Möglichkeit, dass eine Verformung der Cornea oder Beschädigung der anliegenden Muskeln
auftritt. Diese Kombination an Stärken und Schwächen führt dazu, dass dieses Verfahren für die
Forschung von Interesse ist, aber im klinischen Umfeld die EOG vorgezogen wird.

6     W EITERE V ERFAHREN
In diesem Teil werden noch nicht erwähnte Verfahren zur Blickdatenerfassung in kurzen Abschnitten
erklärt. Dabei handelt es sich unter anderem um Variationen der bis jetzt besprochenen Methoden,
sowie um welche mit gänzlich anderen Vorgehensweisen.

6.1   W EITERE S KLERALLINSENVERFAHREN

Eine neben der Scleral Search Coil bekannte, von Young & Sheena [10] beschriebene Methode nutzt
eine Sklerallinse in Kombination mit Spiegeln. Dabei werden eine oder mehrere glatte spiegelende
Oberflächen an die Linse angebracht. Diese reflektieren Licht auf eine Fotozelle. Dabei hängt der

                                                  9
Proseminar Eye Tracking des Institute for Web Science and Technologies, Wintersemester 2020/21

Reflexionswinkel nur von der Bewegung des Auges ab, was bei manch anderen Methoden nicht der
Fall ist. Das gilt solange die Lichtquelle die Spiegel beleuchtet. Ein weiterer Vorteil ist eine hohe
Genauigkeit, aber im Vergleich zu der Scleral Search Coil ist dies nicht ohne weiteres möglich.
Um diese Genauigkeit zu erzielen sollte hier eine Kopftstütze genutzt werden. Durch Änderungen
an dem Aufbau und der Position der Spiegel können bis zu drei Freiheitsgrade gemessen werden.
Weiter kann die Genauigkeit der Messung von drei Achsen-Rotation so auf bis zu 2 Winkelsekun-
den gebracht werden. Die Nachteile sind, gleich denen der Scleral Search Coil, hauptsächlich die
invasive Natur der Sklerallinse und die geringe Reichweite.

6.2   F OTOOKULOGRAFIE

Wie in Duchowski [5] beschrieben ist die Fotookulografie eine generelle Gruppierung von Ver-
fahren, welche über Bilder die visuell erkennbaren Charakteristiken des Auges betrachten. Diese
Verfahren sind eng mit videobasierten Verfahren verknüpft, da diese auf den gleichen Prinzipien
beruhen.

6.3   I NFRAROTOKULOGRAFIE

Die in Singh & Singh [8] erläuterte Methode besagt, dass bei einer festen Lichtquelle, welche auf ein
Auge gerichtet ist, die Menge an zurück reflektiertem Licht abhängig von der Position des Auges ist.
Um dies zu messen wird eine Infrarotlichtquelle benutzt, da diese Wellenlänge für Menschen nicht
sichtbar ist und somit keine Störung darstellt. Die Messung geschieht über mehrere Fotodetekto-
ren die so ausgerichtet sind, dass sie das reflektierte Infrarotlicht auffangen. Über die resultierenden
Bilder kann dann der Limbus und der Übergang von Pupille und Iris erkannt und verfolgt wer-
den. Die Position dieser beiden Zonen ermöglicht dann die Berechnung der Position des Auges,
aber nicht der des Blickwinkels. Diese Methode kann Bewegungen über 0.1◦ erkennen und misst
am verlässlichsten in den Bewegungsgrenzen von ±15◦ und ±40◦ . Ein Nachteil ist, dass die Mes-
sung der vertikalen Bewegungen nur schwer möglich ist, da die Augenlider den Limbus und den
Übergang zwischen Pupille und Iris in diese Richtung verdecken.

6.4   D IFFERENTIAL R EFLECTION M ETHODS

Diese Gruppierung enthält viele verschiedene Implementationen, wie aus Young & Sheena [10] her-
vorgeht. Einige dieser funktionieren wie folgt:
In den frühesten Versuchen dieser Methodik wurde ein Bild einer Seite des Auges erstellt. Dies
geschieht über einen kleinen horizontalen Schlitz einer Platte, welche zwischen dem Auge und Pho-
tomultiplier platziert wird. Der Photomultiplier hat die Aufgabe auch sehr schwache Lichtsignale zu
erkennen. Das resultierende Bild kann dann über die Menge an hell abgebildeter Sklera ausgewer-
tet werden. Nur horizontale Augenbewegungen können über diese Methode erfasst werden. Weiter
benötigt diese Methode um genau zu sein die Nutzung einer Kopftstütze, wodurch eine Genauigkeit
von 15 Winkelminuten über mehrere Grad erreicht werden kann.
Eine andere Variante nutzt zwei Lampen um jeweils ein kleine Scheibe an der linken und rechten
Seite der Iris zu beleuchten. Das von jeder Scheibe reflektierte Licht wird dann von einer darauf
gerichteten Fotozelle aufgenommen. Über die Unterschiede des pro Scheibe reflektierten Lichtes
kann somit die horizontale Bewegung erkannt werden. Das lässt eine höhere messbare Bewegungs-
reichweite von ±15◦ zu. Diese Methode kann noch erweitert werden indem Fotodioden an ein Bril-
lengestell angebracht werden. Das sorgt dafür, dass eine Genauigkeit von 15 − 30 Winkelminuten
erreicht werden kann. Bis zu 10 Winkelsekunden Genauigkeit sind möglich, wenn der Kopf fest an
einem Ort gehalten wird und Schmalstrahl-Fotodioden mit weniger Reichweite genutzt werden.
Zusammenfassend gibt es viele Varianten der Differential Reflection Methods die hohe Genauigkei-
ten erreichen, aber hauptsächlich für horizontale Bewegungen. Für die meisten Zwecke bieten sich
jedoch die Elektrookulografie oder die Scleral Search Coil mehr an, da diese präziser sind und eine
größere Bewegungsreichweite abdecken.

6.5   D OPPEL P URKINJE -B ILDER

In Young & Sheena [10] wird erläutert: Wenn Licht in das Auge tritt entstehen vier Purkinje-Bilder.
Dies geschieht da je die vordere, sowie hintere Oberfläche der Cornea und Linse das Licht reflektie-

                                                   10
Proseminar Eye Tracking des Institute for Web Science and Technologies, Wintersemester 2020/21

ren. Die für diese Methode betrachteten Purkinje-Bilder sind die, die durch die Reflektionen der vor-
deren Cornea und der hinteren Linse entstehen. Diese nennt man auch das erste und vierte Purkinje-
Bild. Jene beiden verhalten sich unter Translation gleich, aber unterscheiden sich bei Rotation des
Auges. Für die Durchführung dieses Verfahrens wird eine Lichtquelle genutzt, die über eine runde
Blendenöffnung zwei Purkinje-Bilder im Auge erzeugt. Sammeloptiken sind auf das Auge gerichtet
und bilden die beiden Bilder auf seperate Fotodetektoren ab, indem über einen Spiegel reflektiert
wird. Diese sind Vier-Quadranten Fotodetektoren, die ein Signal erzeugen, welches proportional
dazu ist wie weit das Bild vom Mittelpunkt entfernt ist. Durch das Signal werden Servomotoren
gesteuert, welche den Spiegel steuern. Das Signal führt zu einer Bewegung des Spiegels sodass das
Bild immer auf den Mittelpunkt abgebildet wird. Die Differenz der an die Motoren gerichteten Si-
gnale ermöglicht die Berechnung der Augenbewegung. Da sich bei Translation die Purkinje-Bilder
auf gleiche Weise ändern wird diese Bewegung so ignoriert und nur die horizontale und vertikale Be-
wegung aufgenommen. Die Doppel Purkinje-Bilder ermöglichen eine Messung mit Genauigkeiten
von 2 Winkelminuten für 1◦ Schritte und eine Reichweite von ±15◦ .

7   Z USAMMENFASSUNG UND FAZIT
In dieser Ausarbeitung wurden einige nicht videobasierte Verfahren der Blickdatenerfassung
erläutert. Dazu gehört die EOG, welche über Elektroden die Veränderung im Ruhepotenzial der
Netzhaut aufzeichnet und somit Augenbewegungen über große Strecken messen kann. Auch die
Scleral Search Coil, welche durch die Verbindung von Induktion, Magnetfeldern und einer Skleral-
linse eigens messbare Werte erzeugt und interpretiert, wurde beschrieben. Weiter wurde die Historie
des Eye Tracking, welche in das 18. Jahrhundert verfolgt werden kann, angesprochen.
Die wichtigste Erkentniss ist wohl die Abgrenzung vom Oberbegriff Eye Tracking zu dem speziel-
len Untergebiet des gaze tracking. Weiterführend somit auch, dass die verschiedenen Untergebiete
von den unterschiedlichsten Eigenschaften der einzelnen Messmethoden profitieren. Es gibt keine
Methode die als beste Methode betitelt werden könnte, da auch die Anwendungsgebiete bestimmen
welche Eigenschaften wichtig sind. So ist für die Forschung die Scleral Search Coil aufgrund ih-
rer exzellenten Präzision unverzichtbar, während die Medizin von der universellen und einfachen
Nutzung der EOG profitiert. Auch die Möglichkeit über das gemessene Ruhepotenzial Krankhei-
ten zu erkennen ist durch andere Methoden nicht abdeckbar und macht die EOG in diesem Aspekt
unschlagbar. Diese beiden Methoden sind jedoch nicht für das gaze tracking geeignet, was aber wie-
derum durch videobasierte Methoden besser abgedeckt wird.
Die Unterscheidung dieser Methoden anhand ihrer jeweiligen Stärken, Schwächen und Anwen-
dungsgebieten ist wichtig. Videobasierte Verfahren sind im öffentlichen Raum öfter vertreten und
bekannter. Nichtvideobasierte Verfahren sind dadurch aber nicht unwichtiger oder schlechter, son-
dern erfüllen wie schon erklärt andere Anwendungsgebiete. All diese Methoden ergänzen sich ge-
genseitig in den Bereichen, in welchen sie jeweils ungeeigneter sind. Somit bildet die Menge an
Methoden erst das gesamte Forschungsfeld des Eye Tracking.

                                                 11
Proseminar Eye Tracking des Institute for Web Science and Technologies, Wintersemester 2020/21

L ITERATUR
 [1] Malcolm Brown, Michael Marmor, Eberhard Zrenner, Mitchell Brigell, Michael Bach, et al.
     Iscev standard for clinical electro-oculography (eog) 2006. Documenta ophthalmologica, 113
     (3):205–212, 2006.
 [2] Andreas Bulling, Jamie A Ward, Hans Gellersen, and Gerhard Troster. Eye movement analysis
     for activity recognition using electrooculography. IEEE transactions on pattern analysis and
     machine intelligence, 33(4):741–753, 2010.
 [3] Murtaza Dhuliawala, Juyoung Lee, Junichi Shimizu, Andreas Bulling, Kai Kunze, Thad Star-
     ner, and Woontack Woo. Smooth eye movement interaction using eog glasses. pp. 307–311,
     2016.
 [4] Heiko Drewes. Eye gaze tracking for human computer interaction. PhD thesis, lmu, 2010.
 [5] Andrew T Duchowski. Eye tracking methodology: Theory and practice. Springer, 2007.
 [6] Hamilton Hartridge and LC Thomson. Methods of investigating eye movements. The British
     journal of ophthalmology, 32(9):581, 1948.
 [7] D. A. Robinson. A method of measuring eye movemnent using a scieral search coil in a
     magnetic field. IEEE Transactions on Bio-medical Electronics, 10(4):137–145, 1963. doi:
     10.1109/TBMEL.1963.4322822.
 [8] Hari Singh and Jaswinder Singh. Human eye tracking and related issues: A review. Interna-
     tional Journal of Scientific and Research Publications, 2(9):1–9, 2012.
 [9] Kenshiro Uenoyama, Noriko Uenoyama, and Iwao Iinuma. Vector-electro-oculography and
     its clinical application: Two-dimensional recording of eye movements. The British journal of
     ophthalmology, 48(6):318, 1964.
[10] Laurence R Young and David Sheena. Survey of eye movement recording methods. Behavior
     research methods & instrumentation, 7(5):397–429, 1975.

                                               12
Sie können auch lesen