ERFASSUNG NICHT VIDEOBASIERTER BLICKDATEN
←
→
Transkription von Seiteninhalten
Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten
Proseminar Eye Tracking des Institute for Web Science and Technologies, Wintersemester 2020/21 E RFASSUNG NICHT VIDEOBASIERTER B LICKDATEN Luca Gerhards lgerhards@uni-koblenz.de Z USAMMENFASSUNG Die Erfassung von Blickdaten kann in viele verschiedene Gruppen unterteilt wer- den. Eine mögliche Unterteilung ist die in videobasierte und nicht videobasierte Erfassung. Im Folgenden wird auf die nicht videobasierte Erfassung eingegan- gen, um einen generellen Überlick zu vermitteln und die beiden Verfahren der Elektrookulografie und der Scleral Search Coil genauer zu erläutern. Um dies nachvollziehbar zu gestalten werden des Weiteren auch biologische Aspekte an- gesprochen. Ohne diese, welche auch als die Eigenschaften des Auges betrachtet werden können wäre die Messung der Augenbewegung nicht möglich. 1 E INF ÜHRUNG Eye Tracking ist heutzutage ein gängiger Begriff, welcher meist spezielle videobasierte Methoden der Blickdatenerfassung beschreibt. Diese dienen um zu messen, auf welche Bereiche eines Objektes, wie z.B. einen Bildschirm, der Blick der Testperson fällt bzw. welches Element des Bildes momentan im Fokus der Person liegt. Das gilt für viele der hier besprochenen Methoden nicht, diese befassen sich nicht nur mit der reinen Blickrichtung, sondern dem generellen Verhalten der Augen. Dies wird unter anderem in medizinischen Verfahren oder im Bereich der Activity Recognition benutzt, was nach Bulling et al. [2] sowie Brown et al. [1] zu sehen ist. Das Ziel dieses Reports ist es einen generellen Überblick über das Thema Eye Tracking, besonders im Bezug auf die eher unbekannten, nicht videobasierten Verfahren zu vermitteln. Die Messgeräte, welche für die Erfassung von Blickdaten benutzt werden, sind meist als Eye Tracker bekannt. Diese können in zwei Arten der Messung unterteilt werden: Diejenigen, welche die Posi- tion der Augen relativ zur Position des Kopfes messen und diejenigen, welche die Orientierungen der Augen im dreidimensionalen Raum erfassen. Letztere wird auch oft point of regard oder gaze Messung gennant. Die erste Messart kann jedoch Ergebnisse äquivalent der zweiten liefern, falls parallel die Position des Kopfes im Raum gemessen wird und beide Bewegungsdaten kombiniert verarbeitet werden. 2 G ESCHICHTE DER E RFASSUNG VON B LICKDATEN / H ISTORISCHER H INTERGRUND Die Blickdatenerfassung wurde das erste Mal nachweisbar im späten 18. Jahrhundert angewandt. Nach Drewes [4] wurden die Augenbewegungen durch Nachbilder beschrieben, welche durch längeres Fokussieren eines Punktes entstehen. Bis in die Mitte des 20. Jahrhundert wurden die Bewe- gungen des Auges über die zuvor beschriebenen Nachbilder, Geräusche oder auch durch Fotos und Reflexionen der Lichtstrahlen im Auge erfasst. Die Geräusche entstehen z.B. durch die mechanische Verbindung des Auges mit dem Ohr über ein Gummiband. Die erste nicht invasive Methode wur- de 1901 mit Fotoaufnahmen erfunden, welche aber nur horizontale Bewegungen erfassen konnte, wie von Drewes [4] beschrieben. 1939 wurde das Verfahren der Elektrookulografie (EOG) erfun- den, welches auch noch heute Verwendung findet. Dieses Verfahren ermöglichte auch erstmals die Auswertung von Blickdaten in Echtzeit, sowie die Messung von vertikalen und horizontalen Bewe- gungen zur gleichen Zeit. Ab den 1980er Jahren gewann die videobasierte Erfassung immer mehr an Popularität und ist heute zu einer der gängigsten Methoden der Messung von Augenbewegungen geworden. Weiteres zur Geschichte der Blickdatenerfassung kann Singh & Singh [8] entnommen werden. 1
Proseminar Eye Tracking des Institute for Web Science and Technologies, Wintersemester 2020/21 Lederhaut (Sklera) Limbus Hornhaut (Cornea) Sehgrube (fovea centralis) Tränenflüssigkeit Sehnerv Pupille Iris Linse Netzhaut (Retina) Abbildung 1: Grober Aufbau des Auges mit den für diesen Bericht relevanten Bestandteilen 3 C HARAKTERISTIKEN DES AUGES Bevor Blickdaten erfasst werden können, muss erst bestimmt werden, für welche Charakteristiken des Auges eine eindeutige Messung möglich ist. Eine wichtige Rolle dabei spielt auch wie diese mit den Bewegungen des Auges in Verbindung stehen. Diese Charakteristiken können in zwei Gruppen unterteilt werden: Die visuell messbaren Eigenschaften, wie z.B. die Pupille, sowie die nicht visuell messbaren, wie z.B. elektronische Ladungen in Muskeln. Da einige der hier besprochenen Begriffe nicht gängig sind, ist in Abbildung 1 ein grobes Schema des Auges zu sehen, in welchem diese dargestellt werden. Um zu verdeutlichen in welcher Größenordnung Bewegungen, in einigen der Methoden, gemessen werden folgt eine Erklärung zweier oft gennanter Einheiten. Eine Winkelminute ist 60 1 von 1◦ und eine Winkelsekunde ist 60 einer Winkelminute. Somit ist eine Winkelsekunde weiter 3600 von 1◦ . 1 1 3.1 V ISUELL MESSBARE E IGENSCHAFTEN DES AUGES Ein Großteil der messbaren Eigenschaften des Auges ist visuell messbar. Diese spielen bei den vi- deobasierten Verfahren eine größere Rolle als bei den nicht videobasierten. Jedoch unterscheidet sich dies stark von Methode zu Methode, wodurch auch manche nicht videobasierte Verfahren kom- plett auf diesen Eigenschaften aufbauen. 3.1.1 D ER L IMBUS Der Limbus ist die Zone des Auges, in welcher die Netzhaut in die Lederhaut übergeht. Diese beiden Bereiche können visuell klar voneinander getrennt werden. Die Position des Limbus im Verhältnis zum Kopf kann so klar nachverfolgt werden. Diese Messung kann, nach Young & Sheena [10] auf zwei Wege erfolgen: Entweder direkt über Photodetektoren oder indirekt über Bildaufnahmen des Auges. Das Verhältnis der dunklen Iris und Hornhaut zur hellen Lederhaut steht immer im Bezug zur horizontalen Position des Auges und ermöglicht somit die Messung. 3.1.2 D IE P UPILLE Die Pupille kann klar von der Iris unterschieden werden, da die Reflexionsgrade dieser beiden Be- standteile stark unterschiedlich sind. So kann unter anderem durch Anpassung der Lichtquellen die 2
Proseminar Eye Tracking des Institute for Web Science and Technologies, Wintersemester 2020/21 Helligkeit von Iris und Pupille beeinflusst werden, wodurch diese optisch leicht zu unterscheiden sind. Dies basiert auf dem Einfallswinkel des Lichtes und wie dieser in Relation zur optischen Ach- se steht. So wird die Pupille deutlich dunkler erscheinen, wenn das Licht nicht genau der optischen Achse folgt. Die runde, jedoch leicht elliptische Form der Pupille ermöglicht es den Mittelpunkt zu berechnen. Daraus folgt, wie in Young & Sheena [10] beschrieben, dass die Blickrichtung über den Winkel im Bezug zum Kopf ermittelt werden kann. 3.1.3 D IE C ORNEA Die Cornea ist gut sichtbar und reflektiert Licht ähnlich wie ein konvexer Spiegel mit leichter Krümmung. Dies kann über Aufnahmen analysiert werden, indem eine Kamera frontal auf die Per- son gerichtet wird. Die Messung der Augenbewegung über die Reflexion der Cornea hat jedoch zwei Nachteile, welche auch in Hartridge & Thomson [6] erwähnt werden. Erstens ist die Bewe- gung des reflektierten Bildes nur halb so lang wie die Bewegung der Cornea selbst. Weiter hat die unterschiedliche lokale Dichte der Tränenflüssigkeit über die gesamte Cornea Auswirkungen auf die Reflexion, besonders wenn der betrachtete Punkt nahe den Augenlidern liegt. 3.1.4 D IE S KLERA Wie in Hartridge & Thomson [6] beschrieben kann die Sklera unter unterschiedlichen Bedingungen zur Messung von Augenbewegungen genutzt werden. Dies ist möglich wenn, die Gefäße mit Blut gefüllt sind und so auf Fotos erkannt werden können, ein Teil der Sklera tättowiert wurde oder ein Objekt an der Sklera platziert wird. Zwei Möglichkeiten dafür sind die Befestigung eines Spiegels oder das Anbringen eines kleinen Tropfen Quecksilbers an der Linse. Ein Nachteil an Messungen über die Sklera ist, dass sich Objekte, welche an dieser platziert wurden, verrücken können und so die Messdaten verändern. 3.2 N ICHT VISUELL MESSBARE E IGENSCHAFTEN DES AUGES Das Auge besitzt deutlich weniger nicht visuell messbare Eigenschaften als visuell Messbare. Trotz- dem sind auch diese Eigenschaften wichtig und spielen abhängig von dem genutzen Verfahren eine große Rolle. Die Messarten dieser unterscheiden sich stark von den visuell messbaren und haben andere Stärken und Schwächen. 3.2.1 AUSBUCHTUNG DER C ORNEA Die Hornhaut liegt an der Front des Auges und besitzt eine geringere Krümmung als der Rest des Auges. Diese Ausbuchtung kann auch durch die Augenlider mittels Drucksensoren gemessen wer- den. Mathematische Eigenschaften sowie ein möglicher Aufbau können in Young & Sheena [10] nachvollzogen werden. 3.2.2 DAS RUHEPOTENZIAL DER N ETZHAUT (C ORNEO -R ETINAL P OTENTIAL ) Zwischen der Hornhaut des Auges und der Retina gibt es eine Potenzialdifferenz von bis zu 1mV, wobei die Hornhaut im Bezug zur Retina positiv geladen ist. Diese Potenzialdifferenz hängt von äußeren Faktoren, wie z.B. der Beleuchtung ab, weshalb jene bei Messungen beachtet und kontrol- liert werden müssen. Der negative Pol liegt am Sehnervenkopf. Die geringen Spannungen fließen durch das Gewebe im Auge von der Hornhaut bis zur Retina. Das elektrische Feld, welches durch beide Pole erzeugt wird, ist nicht nach der optischen Achse ausgerichtet, was zu Problemen bei Mes- sungen der horizontalen und vertikalen Augenbewegung führen kann. Dies ist nur der Fall, wenn es gleichzeitig zu torsionalen Bewegung des Auges kommt. Weitere Informationen zu dieser Eigen- schaft können aus Young & Sheena [10], sowie aus Singh & Singh [8] entnommen werden. 3.3 B EWEGUNGSARTEN Die Arten auf die sich das Auge bewegen kann können in zwei Kategorien eingeteilt werden. Wie diese Unterteilung geschieht ist auch in Singh & Singh [8] zu sehen: Stabilisierende Bewegungen, welche dafür sorgen, dass der Punkt oder das Objekt, welches beobachtet wird weiterhin die Fovea centralis trifft und somit scharf im Blickfeld der Person bleibt. Sakkadische Bewegungen sind 3
Proseminar Eye Tracking des Institute for Web Science and Technologies, Wintersemester 2020/21 ruckartige Bewegungen die dazu dienen, Bildausschnitte die von Interesse sind in den Fokus zu rücken. 3.3.1 S AKKADEN Sakkaden sind schnelle Bewegungen des Auges von einem Punkt zum anderen, um diese auf die Fovea centralis zu fokussieren. Diese sind unter anderem an einer hohen Anfangsbeschleunigung sowie einer abrupten Bremsung am Ende von bis zu 40000◦ /sec2 zu erkennen. Es wird dabei eine maximale Geschwindigkeit zwischen 400◦ /sec und 600◦ /sec erreicht. Diese Bewegung kann so- wohl gewollt als auch reflexiv ausgeführt werden. Die Sakkaden weisen meist eine Dauer zwischen 30ms und 120ms auf. Weiter tritt diese Bewegung auch oft in Verbindung mit der Bewegung des Kopfes auf. In Young & Sheena [10] wird diese Bewegung noch ausführlicher beschrieben. 3.3.2 F IXATION Bei der Fixation wird das Bild eines fokussierten Teils des Blickfeldes auf der Retina gehalten. Dies geschieht durch geringe Bewegung und hat eine Dauer zwischen 100ms und 1000ms. Singh & Singh [8] erwähnen, dass die Dauer der Fixation hauptsächlich von der Qualität der Informationen abhängt. Dabei bezieht sich die Information auf den Inhalt des fixierten Gebiets des Blickfelds. 3.3.3 V ERFOLGUNG Bei der Verfolgung handelt es sich um Bewegungen des Auges auf ein sich langsam bewegendes Ziel, die ähnlich zur Fixation dafür sorgen, dass das Bild dieses Ziels auf der Retina gehalten wird. Das funktioniert bei Objekten die sich bis zu 30◦ /sec im Verhältnis zum Auge bewegen. Diese Bewegung geschieht nicht willentlich, sondern benötigt meist ein sich bewegendes Objekt, welches vor dessen Bewegung fokussiert wurde. Das Verhalten der Verfolgung wird so in Singh & Singh [8] und Young & Sheena [10] beschrieben. 3.3.4 KOMPENSIERUNG Ähnlich zu der Verfolgung dienen die Kompensierungsbewegungen auch dazu das Bild des betrach- teten Objekts auf der Retina zu stabilisieren, nur ist der Auslösungsgrund ein anderer. Hier geht es darum, gewollte sowie ungewollte Bewegungen des Kopfes oder des Torsos zu kompensieren und gegen diese zu wirken, wie bei Young & Sheena [10] nachzuvollziehen ist. 3.3.5 M INIATUR -AUGENBEWEGUNG Miniatur-Augenbewegungen sind Bewegungen die während der Fixation auftreten und Amplituden von weniger als 1◦ besitzen. Diese können, wie auch von Singh & Singh [8] in die folgenden drei Ka- tegorien unterteilt werden. Zittern ist eine Bewegung mit hoher Frequenz von 30Hz bis 150Hz und mit Amplituden bis 30 Winkelsekunden. Drift ist eine langsame und zufällige Bewegung des Auges von maximal wenigen Winkelminuten pro Sekunde. Diese tritt, nach Young & Sheena [10] innerhalb der dead zone der Fovea centralis auf. Jene ist ein Bereich innerhalb der Fovea centralis, in welchem geringe Bewegungen nicht zu einer Änderung des Fokus führen. Die letzte dieser Bewegungen sind Mikrosakkaden. Jene sind nichts anderes als normale Sakkaden in der Größenordnungen von 1 bis 2 Winkelminuten. 3.3.6 V ERGENZ Vergenzbewegungen der Augen grenzen sich von den anderen hier beschriebenen Bewegungsarten ab. Diese Abgrenzung von Singh & Singh [8] entsteht daraus, dass hier beide Augen nicht gleich agieren, sondern die Bewegung des anderen Auges horizontal spiegeln. Der Zweck dieser Bewe- gung ist das Fokussieren von Objekten, welche nah oder fern der Augen liegen. So drehen sich die Augen zueinander, wenn nahe Objekte fokussiert werden sollen. Bei fernen Objekten drehen sie sich in Richtung der äußeren Augenwinkeln. Diese Art ist langsamer als viele der anderen Arten von Bewegungen. Die Geschwindigkeit dieser beträgt nach Young & Sheena [10] bis zu 10◦ /sec über eine Strecke bis zu 15◦ . 4
Proseminar Eye Tracking des Institute for Web Science and Technologies, Wintersemester 2020/21 3.3.7 N YSTAGMUS Nystagmus ist eine Augenbewegung, welche als Reaktion auf verschiedene Reize ausgeführt wird. Dabei kann sich das Verhalten je nach Reiz stark von anderen Arten des Nystagmus unterscheiden. Alle Arten des Nystagmus beinhalten, wie in Singh & Singh [8] erläutert eine relativ langsame Verfolgung eines Objektes und einen darauffolgenden abrupten Sprung. Dieser ist ähnlich einer Sakkade und dient dazu einen anderen Teil des Blickfeldes zu fokussieren. Nach Young & Sheena [10] existieren folgende Arten von Nystagmus: Der vestibulärer Nystagmus ist eine Reaktion auf Bewegungen des Kopfes. Der optokinetische Nystagmus ist eine Reaktion auf ein sich bewegendes visuelles Feld, welches wiederholende Muster enthält. Weiter existiert der spontane Nystagmus, welcher auch gaze Nystagmus genannt wird. Beide sind meist mit neurologischen Störungen in Verbindung zu bringen. 3.3.8 T ORSIONALE AUGENBEWEGUNG Die torsionale Augenbewegungen sind Rotationsbewegungen des Auges über die Blickrichtung die maximal bis 10◦ gehen. Diese Bewegung kann durch rotierenden optokinetische Nystagmus oder durch vestibuläre Reaktionen stimuliert werden. Diese Reaktionen werden durch Neigung des Kopf- es oder die Rotation des Sichtfelds ausgelöst, wie in Singh & Singh [8] und Young & Sheena [10] erklärt. 4 E LEKTROOKULOGRAFIE Die Elektrookulografie (EOG) entstand 1934 und ist eine auf dem Ruhepotenzial der Cornea basie- renden Methode um Augenbewegungen zu messen. Die Messungsergebnisse haben eine Änderung zwischen 14 und 20 mV pro Grad der Augenbewegung und liegen insgesamt innerhalb von bis zu 200 mV. Um dieses Potenzial zu messen werden Elektroden benötigt die am Kopf angebracht wer- den. Der Aufbau dieser Methode ist zusammen mit tiefergehenden Informationen in Singh & Singh [8] und Young & Sheena [10] beschrieben. 4.1 AUFBAU Das erste Elektrodenpaar wird jeweils an den äußeren Augenwinkeln der Person angebracht und dienen dazu die horizontale Bewegung der Augen zu erfassen. Zur Minimerung der Störsignale sollte man diese möglichst nah an den Schläfen platzieren. Dies ermöglicht erstmal nur die Messung der horizontalen Bewegung beider Augen als Paar. Wenn diese getrennt gemessen werden sollen kann eine weitere Elektrode am Nasenrücken angebracht werden, welche sich beide Augen teilen. Weiter benötigt man für beide Augen jeweils noch zwei Elektrodenpaare die über und unter den Augen angebracht werden um die vertikalen Bewegungen pro Auge zu messen. Zuletzt wird meist eine weitere Elektrode an der Stirn der Person angebracht, welche genutzt wird um einen Referenzwert zu liefern. Alle Elektroden werden getrennt nach Ausrichtung, also horizontal und vertikal mit Gleichstrom- bzw Wechselstromvertärkern verbunden. Das verstärkte Signal wird danach weitergeleitet um aufgezeichnet zu werden. Ein möglicher Aufbau mit Referenzelektrode, sowie Elektroden zur Messungen der horizontalen und vertikalen Bewegung beider Augen einzeln ist in Abbildung 2 zu sehen. 4.2 P ROBLEME Die Wahl des Verstärkers hat Auswirkungen auf die Anwendung dieses Verfahrens. Der Wechsel- stromverstärker bietet sensiblere Messungen und wird genutzt um auch die schnellen und langsa- men Phasen eines Nystagmus zu messen. Mit einem Gleichstromverstärker können diese nicht so klar aufgenommen werden. Dieses Verfahren nennt man auch Elektronystagmographie (ENG) und grenzt dieses von der normalen EOG ab. Wenn horizontale und vertikale Bewegungen simultan gemessen werden führt das zu möglicherweise erheblich ungenaueren Ergebnissen. Die Probleme durch die Kopplung der Achsen können vermindert werden, indem man die sogenannte Vektor EOG nutzt. Diese Abwandlung des Verfahrens wurde in Uenoyama et al. [9] erforscht. Das Prinzip hinter dieser ist die Summierung von elektronischen Vektoren. Worum es sich dabei genau handelt wird 5
Proseminar Eye Tracking des Institute for Web Science and Technologies, Wintersemester 2020/21 Referenzelektrode Vertikale Positionen Gleichstrom Verstärker Horizontale Positionen Gleichstrom Verstärker Abbildung 2: Ein Schema einer möglichen Arnordnung der Elektroden für die EOG im folgenden erklärt. Durch die, oben genannten angebrachten Elektroden wird die Projektion elek- trischer Vektoren, in diesem Fall die Potentialdifferenzen, in horizontal und vertikal getrennt auf- genommen. Diese werden dann einzeln verstärkt und in Umlenkplatten einer Kathodenstrahlröhre gelenkt, welche ein Bild erzeugen kann. In dem erzeugten Bild kann nun die Summierung dieser beiden Vektoren betrachtet werden, wobei die in dem Bild gezeigte Bewegung proportional zu der Richtung und den Rotationswinkeln der echten Augenbewegung ist. Mit dieser Methode und leich- ten Modifikationen wird es auch möglich direkt die Geschwindigkeit der Bewegung zu messen. Hierbei werden jeweils die beiden unteren und oberen Elektroden für die Vertikalmessung kurzge- schlossen. Ein weiteres bekanntes Problem ist die Störung bei der vertikalen Messung durch Bewe- gung des oberen Augenlides. Mögliche Lösungen dieser Probleme werden in Young & Sheena [10] angesprochen. 4.3 A NWENDUNGSBEREICHE Auch heutzutage wird die EOG noch in medizinischen und wissenschaftlichen Kontexten benutzt und erforscht. Der in 2016 erschienene Bericht von Dhuliawala et al. [3] z.B. hat die EOG als mögliches Interface in Betracht gezogen. Die Idee dahinter ist, dass viele Eyetracker, besonders vi- deobasierte, als Steuerung für jede Benutzung kalibriert werden müssen. Weiterhin benötigen diese viel Rechenleistung im Gegensatz zur EOG welche somit eine realistische Alternative darstellen kann. Dafür wird eine Brille benutzt, diese hat insgesamt drei Elektroden auf dem Nasenrücken und den Nasenpads der Brille. Diese Signale werden dann ohne Kontext interpretiert, das bedeutet, dass nur die Augenbewegungen gemessen werden und nicht bekannt ist was die aktuelle Blickrichtung im Raum ist. Das ist der Grund dafür, dass keine Kalibrierung nötig und die benötigte Rechenleis- tung gering ist. Diese Methode ist präzise genug um auch geringe Augenbewegungen mit hoher Präzision zu erkennen solange die Person sich während Nutzung nicht bewegt, da ansonsten signifi- kante Störungen entstehen. Die Brille kann somit Gesten erkennen, die Steuerung wäre dann ähnlich zu Gestensteuerung in modernen Smartphones, nur dass es sich hierbei um Augen- statt Fingerbe- wegungen handelt. Somit könnte diese Methode ein sinnvolles und leicht nutzbares Interface für 6
Proseminar Eye Tracking des Institute for Web Science and Technologies, Wintersemester 2020/21 Personen mit ALS oder anderen starken Beeinträchtigungen darstellen, welches z.B. die Nutzung eines Computers erleichtert. Ein weiteres Anwendungsgebiet ist die Aktivitätserkennung, diese wurde in Bulling et al. [2] un- tersucht. Viele der Erkentnisse aus der Forschung zu diesem Thema basieren auf Methoden die auf Bewegungen des Körpers, Interaktionen oder Geräuschen basieren. Außerdem sind videobasierte Eyetracker störender und weisen höhere Kosten auf als die EOG. Das resultiert daraus, dass die, für diesen Anwendungszweck genutzten videobasierten Eyetracker am Kopf getragen werden. Die Mehrkosten entstehen durch die hohe nötige Rechenleistung um alle einzelnen Bilder eines Videos zu bearbeiten. Die dort betrachteten Aktivitäten: Das Kopieren eines Textes, das Lesen eines Pa- piers, handschriftliche Notizen anfertigen, ein Video ansehen und das nutzen eines Internetbrowsers werden durch videobasierte Verfahren nicht so effizient abgedeckt. Es wurde erfolgreich versucht diese Aktivitäten über durch EOG erkannte Sakkaden, Fixationen und blinzeln zu erkennen. Der generelle Aufbau ist wie folgt: Die horizontalen und vertikalen Signale werden bearbeitet durch Algorithmen zur Entfernung von Basisliniendrift und Störungen. Dann werden bei beiden Signalen Sakkaden und Fixationen erkannt, wobei das Blinzeln nur in der vertikalen Messung erkennbar ist. Diese Bewegungen stellen dann das Fundament für das Erkennen von Merkmalen, die relevantesten werden darauf für die Klassifikation von Aktivitäten genutzt. Die Aktivitäten können somit über die Stärke und Ausrichtung der Augenbewegung klassifiziert und erkannt werden, ohne dabei die genaue Blickrichtung zu kennen. In der Medizin findet die EOG weitere Anwendungen. In Brown et al. [1] wurde ein neuer klinischer Standard für die EOG entwickelt. Im diesem Kontext dreht sich das Verfahren nicht um die Blick- winkelbestimmung oder wie sich die Augen bewegen, sondern darum welches Ergebnis die Messung bei bekannten Abläufen liefert. Der Hintergrund dafür ist wie folgt: Das Ruhepotenzial der Netzhaut verändert sich mit Änderungen der Beleuchtung der Retina. Wenn die Beleuchtung abnimmt sinkt das Potenzial für bis zu 10 Minuten, bei darauffolgender Erhöhung der Beleuchtung sinkt dieses kurz und nimmt darauf über bis zu 14 Minuten wieder zu. Diese Reaktion des Ruhepotenzials ist bei gesunden Menschen und festen Bedingungen bei der Durchführung des Tests vorhersehbar. Zu die- sen Bedingungen zählen die Vorbereitung der Testperson, der genaue Ablauf des Tests und spezielle Anforderungen an die benutzten Geräte. Große Abweichungen zu diesem Erwartungswert sind ein Indiz für mehrere Krankheiten, da diese Auswirkungen auf die Reaktion des Auges auf Licht haben. Zu diesen Krankheiten können Entzündungen oder Stäbchenfunktionsstörungen zählen. 4.4 FAZIT ZUR EOG Die EOG hat mit bis zu ±70◦ einen der größten Messbereiche was nicht videobasierte Blickda- tenerfassungsmethoden angeht. Dies stammt daher, dass das Auge nicht visualisiert werden muss und somit unabhängig von den visuell messbaren Eigenschaften des Auges ist. Die Genauigkeit der Elektroden liegt zwischen 1, 5◦ − 2◦ . Außerdem kann EOG auch problemlos bei Tieren angewandt werden, was bei vielen der anderen Verfahren nicht der Fall ist. Negative Aspekte existieren auch. Einer dieser ist die schlechte Linearität ab Bewegung die mehr als 30◦ spannen, wobei die vertikale Messung davon stärker betroffen ist. Weitere Störungen können unabhängigen Muskelbewegungen und Variationen im Ruhepotenzial der Netzhaut zugeschrieben werden. Diese und weitere Schlüsse wurden in Young & Sheena [10] angesprochen. Abschließend ist zu sagen, dass die EOG keine Alternative zu z.B. videobasierten Methoden für das gaze tracking ist. Medizinische, sowie die an- deren hier angesprochenen Anwendungsbereiche profitieren jedoch stark von den Eigenschaften der EOG. Daher sollte diese Methode getrennt von dem heute bekannteren gaze tracking betrachtet wer- den. Weiter zeigt die EOG somit, dass das Themengebiet Eye Tracking nicht vollständig aus diesem Teilgebiet besteht. 5 S CLERAL S EARCH C OIL Die Methode der Scleral Search Coil nutzt eine Sklerallinse, diese ist ähnlich einer Kontaktlinse aber liegt im Gegensatz zu dieser nicht auf der auf der Cornea sondern auf der Sklera auf. An einer Sklerallinse können unterschiedliche Apparate befestigt werden wie z.B. Spiegel oder Drahtspulen, über welche die Erfassung der Blickdaten ermöglicht wird. Hier wird speziell auf die Variante mit der Drahtspule eingegangen, diese birgt nämlich einige Vorteile gegenüber der Methode des Spiegels an der Sklerallinse. Einer dieser Vorteile wäre z.B. dass die Linse nicht individuell 7
Proseminar Eye Tracking des Institute for Web Science and Technologies, Wintersemester 2020/21 Magnetfeld Hz Blickachse Auge θ x-Achse y-Achse Linse mit N Umwicklungen z-Achse des Drahts Abbildung 3: Schema zur Ermittlung der vertikalen θ Komponente der Augenposition angepasst werden muss, ohne dabei an Genauigkeit oder Sensitivität zu verlieren Robinson [7]. Durch die hohe Genauigkeit und die Aufnahme auch minimaler Bewegung ist diese Methode oft bei medizinischen oder psyschologischen Studien sowie Forschungsprojekten vertreten. Diese Methode hat aber auch Nachteile. Im Vergleich zur EOG ist die Sklerallinse zwar genauer, jedoch muss in dieser Methode eine Sklerallinse getragen werden und wird somit als invasiver Eyetracker klassifiziert. Nach Duchowski [5] sogar als invasivste Methode, die dabei noch zu leichten Schmer- zen führen kann. Des Weiteren wird auch oft ein lokales Betäubungsmittel benutzt bevor die Linse eingesetzt wird. Dies geht aus dem in Singh & Singh [8] beschriebenen Verfahren hervor. 5.1 AUFBAU Der Aufbau ist wie folgt: Am äußeren Rand der Sklerallinse wird der Draht N -mal um diese gelegt und diese wird einem vertikalen alternierenden Magnetfeld Hz ausgesetzt. Dieses Magnetfeld wird durch zwei Feldspulen an gegenüber liegenden Seiten des Kopfes erzeugt. Aufgrund dessen wird nicht die Position der Augen im Kopf sondern die Position der Augen in dem durch die Feldspulen erzeugten Raum gemessen. Dies ermöglicht erstmal nur die Messung der horizontalen oder vertikalen Bewegung der Augen. Um beide messen zu können müssen zwei weitere Feldspulen benutzt werden um ein weiteres Magnetfeld zu erzeugen, somit gibt es ein vertikales und ein horizontales Magnetfeld. Diese beiden Signale müssen unterschieden werden können, dies ist unter anderem über ein Zeitschlitzverfahren, Frequenzcodierung oder Phasencodierung möglich. Der Draht um die Linse läuft weiter in einen Wechselstromverstärker, welcher dann das Signal an z.B. einen Phasendetektor weiterleitet. Die daraus entstehenden Signale werden dann aufgezeichnet. Eine vereinfachte Abbildung dieses Aufbaus für die Messung der vertikalen Bewegung des Auges ist in Abbildung 3 zu sehen. Robinson [7] Diese Methode ermöglicht durch Anpassung an der Linse und deren Draht auch die Messung der torsionalen Bewegung des Auges. Dafür muss der zweite Draht aufrecht im Bezug auf den in der x-z-Ebene liegen. Der zweite angebrachte Draht ermöglicht es, über zwei Mangetfelder und zwei Drahtspulen drei Signale zu erzeugen. Diese sind genau die horizontale, vertikale und torsionale Be- wegung. Genauer beschrieben findet man diesen Aufbau in Robinson [7] und weitere Informationen können Singh & Singh [8] entnommen werden. 8
Proseminar Eye Tracking des Institute for Web Science and Technologies, Wintersemester 2020/21 5.2 M ATHEMATISCHER H INTERGRUND Der Grund dafür, dass dieses Verfahren funktionieren kann ist das in Robinson [7] beschriebene von Michael Faraday formulierte Induktionsgesetz: dθ e = −N × 10−8 dt Diese Gesetz besagt, dass sich die Spannung einer Spule verändert, wenn diese von einem Magnet- feld umgeben ist, welches sich verändert. Das geschieht bei dieser Methode über die Bewegung des Auges und somit auch der Linse, wodurch sich das Magnetfeld relativ zur Spule an der Linse verändert. Der Betrag der induzierten Spannung hängt von der Geschwindigkeit der Änderung an dem Magnetfeld ab und somit in diesem Kontext von der Geschwindigkeit der Augenbewegung. Während das Auge in der Ruheposition ist und entlang der in Abbildung 3 gezeigten y-Achse schaut liegt die Drahtspule auf der x-z-Ebene und hat somit keine induzierte Spannung. Folgend wird am Beispiel der vertikalen Bewegung gezeigt wie diese Berechnung funktioniert, dies ist tiefgehender und für die anderen Richtungen in Robinson [7] nachvollziehbar: e1 = N ∗ A ∗ sin(θ) ∗ Hz ∗ ω ∗ sin(ω ∗ t) ∗ 10−8 N hat die gleiche Bedeutung wie vorher: Die Anzahl der Umdrehungen der Spule um die Linse. A ist hier die Fläche der Spule, welche in der x-z-Ebene liegt. θ stellt Winkel der Blickachse zur y-Achse dar. Hz steht für die Stärke des Magnetfeldes in Gauß. ω ist die Kreisfrequenz. Für die Beispielrechnung betrachten wir nun eine Bewegung des Auges um 10◦ mit folgenden Parametern: A = 2.55cm2 , ω = 2π ∗ 5000, N = 10, Hz = 2.19Gs, θ = 10◦ e1 = 10 ∗ 2.55cm2 ∗ sin(10◦ ) ∗ 2.19Gs ∗ 2π ∗ 5000 ∗ sin(2π ∗ 5000 ∗ t) ∗ 10−8 = 2.2mv 1 Da die Störung des Verstärkers unter 2µv liegen, bedeutet dies, dass es möglich ist 1000 dieser 10◦ Bewegung präzise messen zu können. Umgerechnet kann die Sklerallinse also Bewegungen von mindestens 36 Winkelsekunden erkennen und aufzeichnen. 5.3 FAZIT ZUR S CLERAL S EARCH C OIL Ähnlich zur EOG hat auch diese Methode ihre Vor- und Nachteile die in Singh & Singh [8], Young & Sheena [10] und Duchowski [5] beschrieben sind. Im Gegensatz zu der EOG mit zwei Freiheits- graden bietet die Scleral Search Coil drei. Dieser dritte Freiheitsgrad entsteht, da mit angepasster Linse auch torsionale Bewegungen erfasst werden können. Weiter profitiert sie von einer sehr hohen Präzision die es ermöglicht auch Miniatur Augenbewegungen wie die Mikrosakkaden zu erkennen. Aber im Gegensatz zur EOG ist die Messreichweite dieser Methode stark eingeschränkt, was bedeu- tet, dass sich die Nutzen dieser Methode hauptsächlich auf minimale Bewegungen beschränkt. Das wohl größte Problem das bei der Durchführung von Messungen mit der Sklerallinse auftritt ist die inhärente invasive Art dieser. Ein Betäubungsmittel sollte vor Nutzung angewandt werden und die Dauer der Messung ist unter anderem dadurch begrenzt. Außerdem kann es zu Komplikationen bei dem Anbringen der Sklerallinse kommen. Dies geschieht über negativen Druck und dabei besteht die Möglichkeit, dass eine Verformung der Cornea oder Beschädigung der anliegenden Muskeln auftritt. Diese Kombination an Stärken und Schwächen führt dazu, dass dieses Verfahren für die Forschung von Interesse ist, aber im klinischen Umfeld die EOG vorgezogen wird. 6 W EITERE V ERFAHREN In diesem Teil werden noch nicht erwähnte Verfahren zur Blickdatenerfassung in kurzen Abschnitten erklärt. Dabei handelt es sich unter anderem um Variationen der bis jetzt besprochenen Methoden, sowie um welche mit gänzlich anderen Vorgehensweisen. 6.1 W EITERE S KLERALLINSENVERFAHREN Eine neben der Scleral Search Coil bekannte, von Young & Sheena [10] beschriebene Methode nutzt eine Sklerallinse in Kombination mit Spiegeln. Dabei werden eine oder mehrere glatte spiegelende Oberflächen an die Linse angebracht. Diese reflektieren Licht auf eine Fotozelle. Dabei hängt der 9
Proseminar Eye Tracking des Institute for Web Science and Technologies, Wintersemester 2020/21 Reflexionswinkel nur von der Bewegung des Auges ab, was bei manch anderen Methoden nicht der Fall ist. Das gilt solange die Lichtquelle die Spiegel beleuchtet. Ein weiterer Vorteil ist eine hohe Genauigkeit, aber im Vergleich zu der Scleral Search Coil ist dies nicht ohne weiteres möglich. Um diese Genauigkeit zu erzielen sollte hier eine Kopftstütze genutzt werden. Durch Änderungen an dem Aufbau und der Position der Spiegel können bis zu drei Freiheitsgrade gemessen werden. Weiter kann die Genauigkeit der Messung von drei Achsen-Rotation so auf bis zu 2 Winkelsekun- den gebracht werden. Die Nachteile sind, gleich denen der Scleral Search Coil, hauptsächlich die invasive Natur der Sklerallinse und die geringe Reichweite. 6.2 F OTOOKULOGRAFIE Wie in Duchowski [5] beschrieben ist die Fotookulografie eine generelle Gruppierung von Ver- fahren, welche über Bilder die visuell erkennbaren Charakteristiken des Auges betrachten. Diese Verfahren sind eng mit videobasierten Verfahren verknüpft, da diese auf den gleichen Prinzipien beruhen. 6.3 I NFRAROTOKULOGRAFIE Die in Singh & Singh [8] erläuterte Methode besagt, dass bei einer festen Lichtquelle, welche auf ein Auge gerichtet ist, die Menge an zurück reflektiertem Licht abhängig von der Position des Auges ist. Um dies zu messen wird eine Infrarotlichtquelle benutzt, da diese Wellenlänge für Menschen nicht sichtbar ist und somit keine Störung darstellt. Die Messung geschieht über mehrere Fotodetekto- ren die so ausgerichtet sind, dass sie das reflektierte Infrarotlicht auffangen. Über die resultierenden Bilder kann dann der Limbus und der Übergang von Pupille und Iris erkannt und verfolgt wer- den. Die Position dieser beiden Zonen ermöglicht dann die Berechnung der Position des Auges, aber nicht der des Blickwinkels. Diese Methode kann Bewegungen über 0.1◦ erkennen und misst am verlässlichsten in den Bewegungsgrenzen von ±15◦ und ±40◦ . Ein Nachteil ist, dass die Mes- sung der vertikalen Bewegungen nur schwer möglich ist, da die Augenlider den Limbus und den Übergang zwischen Pupille und Iris in diese Richtung verdecken. 6.4 D IFFERENTIAL R EFLECTION M ETHODS Diese Gruppierung enthält viele verschiedene Implementationen, wie aus Young & Sheena [10] her- vorgeht. Einige dieser funktionieren wie folgt: In den frühesten Versuchen dieser Methodik wurde ein Bild einer Seite des Auges erstellt. Dies geschieht über einen kleinen horizontalen Schlitz einer Platte, welche zwischen dem Auge und Pho- tomultiplier platziert wird. Der Photomultiplier hat die Aufgabe auch sehr schwache Lichtsignale zu erkennen. Das resultierende Bild kann dann über die Menge an hell abgebildeter Sklera ausgewer- tet werden. Nur horizontale Augenbewegungen können über diese Methode erfasst werden. Weiter benötigt diese Methode um genau zu sein die Nutzung einer Kopftstütze, wodurch eine Genauigkeit von 15 Winkelminuten über mehrere Grad erreicht werden kann. Eine andere Variante nutzt zwei Lampen um jeweils ein kleine Scheibe an der linken und rechten Seite der Iris zu beleuchten. Das von jeder Scheibe reflektierte Licht wird dann von einer darauf gerichteten Fotozelle aufgenommen. Über die Unterschiede des pro Scheibe reflektierten Lichtes kann somit die horizontale Bewegung erkannt werden. Das lässt eine höhere messbare Bewegungs- reichweite von ±15◦ zu. Diese Methode kann noch erweitert werden indem Fotodioden an ein Bril- lengestell angebracht werden. Das sorgt dafür, dass eine Genauigkeit von 15 − 30 Winkelminuten erreicht werden kann. Bis zu 10 Winkelsekunden Genauigkeit sind möglich, wenn der Kopf fest an einem Ort gehalten wird und Schmalstrahl-Fotodioden mit weniger Reichweite genutzt werden. Zusammenfassend gibt es viele Varianten der Differential Reflection Methods die hohe Genauigkei- ten erreichen, aber hauptsächlich für horizontale Bewegungen. Für die meisten Zwecke bieten sich jedoch die Elektrookulografie oder die Scleral Search Coil mehr an, da diese präziser sind und eine größere Bewegungsreichweite abdecken. 6.5 D OPPEL P URKINJE -B ILDER In Young & Sheena [10] wird erläutert: Wenn Licht in das Auge tritt entstehen vier Purkinje-Bilder. Dies geschieht da je die vordere, sowie hintere Oberfläche der Cornea und Linse das Licht reflektie- 10
Proseminar Eye Tracking des Institute for Web Science and Technologies, Wintersemester 2020/21 ren. Die für diese Methode betrachteten Purkinje-Bilder sind die, die durch die Reflektionen der vor- deren Cornea und der hinteren Linse entstehen. Diese nennt man auch das erste und vierte Purkinje- Bild. Jene beiden verhalten sich unter Translation gleich, aber unterscheiden sich bei Rotation des Auges. Für die Durchführung dieses Verfahrens wird eine Lichtquelle genutzt, die über eine runde Blendenöffnung zwei Purkinje-Bilder im Auge erzeugt. Sammeloptiken sind auf das Auge gerichtet und bilden die beiden Bilder auf seperate Fotodetektoren ab, indem über einen Spiegel reflektiert wird. Diese sind Vier-Quadranten Fotodetektoren, die ein Signal erzeugen, welches proportional dazu ist wie weit das Bild vom Mittelpunkt entfernt ist. Durch das Signal werden Servomotoren gesteuert, welche den Spiegel steuern. Das Signal führt zu einer Bewegung des Spiegels sodass das Bild immer auf den Mittelpunkt abgebildet wird. Die Differenz der an die Motoren gerichteten Si- gnale ermöglicht die Berechnung der Augenbewegung. Da sich bei Translation die Purkinje-Bilder auf gleiche Weise ändern wird diese Bewegung so ignoriert und nur die horizontale und vertikale Be- wegung aufgenommen. Die Doppel Purkinje-Bilder ermöglichen eine Messung mit Genauigkeiten von 2 Winkelminuten für 1◦ Schritte und eine Reichweite von ±15◦ . 7 Z USAMMENFASSUNG UND FAZIT In dieser Ausarbeitung wurden einige nicht videobasierte Verfahren der Blickdatenerfassung erläutert. Dazu gehört die EOG, welche über Elektroden die Veränderung im Ruhepotenzial der Netzhaut aufzeichnet und somit Augenbewegungen über große Strecken messen kann. Auch die Scleral Search Coil, welche durch die Verbindung von Induktion, Magnetfeldern und einer Skleral- linse eigens messbare Werte erzeugt und interpretiert, wurde beschrieben. Weiter wurde die Historie des Eye Tracking, welche in das 18. Jahrhundert verfolgt werden kann, angesprochen. Die wichtigste Erkentniss ist wohl die Abgrenzung vom Oberbegriff Eye Tracking zu dem speziel- len Untergebiet des gaze tracking. Weiterführend somit auch, dass die verschiedenen Untergebiete von den unterschiedlichsten Eigenschaften der einzelnen Messmethoden profitieren. Es gibt keine Methode die als beste Methode betitelt werden könnte, da auch die Anwendungsgebiete bestimmen welche Eigenschaften wichtig sind. So ist für die Forschung die Scleral Search Coil aufgrund ih- rer exzellenten Präzision unverzichtbar, während die Medizin von der universellen und einfachen Nutzung der EOG profitiert. Auch die Möglichkeit über das gemessene Ruhepotenzial Krankhei- ten zu erkennen ist durch andere Methoden nicht abdeckbar und macht die EOG in diesem Aspekt unschlagbar. Diese beiden Methoden sind jedoch nicht für das gaze tracking geeignet, was aber wie- derum durch videobasierte Methoden besser abgedeckt wird. Die Unterscheidung dieser Methoden anhand ihrer jeweiligen Stärken, Schwächen und Anwen- dungsgebieten ist wichtig. Videobasierte Verfahren sind im öffentlichen Raum öfter vertreten und bekannter. Nichtvideobasierte Verfahren sind dadurch aber nicht unwichtiger oder schlechter, son- dern erfüllen wie schon erklärt andere Anwendungsgebiete. All diese Methoden ergänzen sich ge- genseitig in den Bereichen, in welchen sie jeweils ungeeigneter sind. Somit bildet die Menge an Methoden erst das gesamte Forschungsfeld des Eye Tracking. 11
Proseminar Eye Tracking des Institute for Web Science and Technologies, Wintersemester 2020/21 L ITERATUR [1] Malcolm Brown, Michael Marmor, Eberhard Zrenner, Mitchell Brigell, Michael Bach, et al. Iscev standard for clinical electro-oculography (eog) 2006. Documenta ophthalmologica, 113 (3):205–212, 2006. [2] Andreas Bulling, Jamie A Ward, Hans Gellersen, and Gerhard Troster. Eye movement analysis for activity recognition using electrooculography. IEEE transactions on pattern analysis and machine intelligence, 33(4):741–753, 2010. [3] Murtaza Dhuliawala, Juyoung Lee, Junichi Shimizu, Andreas Bulling, Kai Kunze, Thad Star- ner, and Woontack Woo. Smooth eye movement interaction using eog glasses. pp. 307–311, 2016. [4] Heiko Drewes. Eye gaze tracking for human computer interaction. PhD thesis, lmu, 2010. [5] Andrew T Duchowski. Eye tracking methodology: Theory and practice. Springer, 2007. [6] Hamilton Hartridge and LC Thomson. Methods of investigating eye movements. The British journal of ophthalmology, 32(9):581, 1948. [7] D. A. Robinson. A method of measuring eye movemnent using a scieral search coil in a magnetic field. IEEE Transactions on Bio-medical Electronics, 10(4):137–145, 1963. doi: 10.1109/TBMEL.1963.4322822. [8] Hari Singh and Jaswinder Singh. Human eye tracking and related issues: A review. Interna- tional Journal of Scientific and Research Publications, 2(9):1–9, 2012. [9] Kenshiro Uenoyama, Noriko Uenoyama, and Iwao Iinuma. Vector-electro-oculography and its clinical application: Two-dimensional recording of eye movements. The British journal of ophthalmology, 48(6):318, 1964. [10] Laurence R Young and David Sheena. Survey of eye movement recording methods. Behavior research methods & instrumentation, 7(5):397–429, 1975. 12
Sie können auch lesen