Der konventionelle Code als buckliger Zwerg im Dienste der Emotion Recognition.

Die Seite wird erstellt Thorsten Baier
 
WEITER LESEN
Sigrid Weigel
Der konventionelle Code als buckliger Zwerg
im Dienste der Emotion Recognition.
Überlegungen zu einer Urgeschichte der digitalen Kultur

Zur Kritik algorithmischer Rationalität im Bereich
sogenannter Emotion AI
Im Horizont der gegenwärtigen Kultur, in der Algorithmen-gesteuerte Operatio-
nen immer mehr Arbeits- und Lebensbereiche durchdringen, betrifft eine Kritik
der algorithmischen Rationalität vor allem Probleme, die aus der Janusgestalt der
ratio erwachsen, der ratio als Vernunft und der ratio als Quotient bzw. Zahlenver-
hältnis. Denn die gegenwärtige Engführung beider Gesichter der ratio gibt den
Transformationen jener Konzepte und Phänomene, die Objekte algorithmischer
Rationalität sind, ihr spezifisches Gepräge. Die Frage nach der Genese dieser
Engführung muss die nach dem Anderen der Vernunft einschließen: nach jenem
Begehren, jenen Ideen, Entwürfen und Phantasmen, welche die digitale Kultur
sowohl befördert als auch Spuren in deren gegenwärtiger Verfassung hinterlas-
sen haben. Damit geht es nicht nur um den historischen Index der Technologien,
sondern auch des Imaginären, das darin Gestalt gewonnen hat. Dabei gilt es, mit
einer Kritik algorithmischer Rationalität einer Tendenz nicht weniger kultur- und
medientheoretischer Beiträge zu widersprechen, die den Verführungen digitaler
Technologie erliegen und mithilfe der Theorie zu deren Nobilitierung beitragen.
     Gegenstand meines Beitrags sind die elektronische Gesichts- und Gefühlser-
kennung, genauer die Logik von Programmen Künstlicher Intelligenz im Bereich
der Emotionsforschung (emotion AI) und deren Effekte für die conditio humana.
Denn, so Hannah Arendt, »Menschen sind bedingte Wesen, weil ein jegliches,
womit sie in Berührung kommen, sich unmittelbar in eine Bedingung ihrer Existenz
verwandelt«1. Mit der »Konstitution der sozialen und biologischen Existenz des
Menschen als Objekt von Wissen, technischer Intervention, Politik und ethischen

1 Hannah Arendt, Vita Activa oder Vom tätigen Leben, [1960] München 1981, S. 16.

https://doi.org/10.1515/jbmp-2020-0003
48  Sigrid Weigel

Diskussionen« 2 werden immer auch anthropologische Fragen aufgeworfen. Stellt
sich in der Anthropologie der Gegenwart 3 die Figur des anthropos als spezifische
Formation der Wissenschaft dar, so gilt für die digitale Kultur umso mehr, was
Paul Rabinow schon zu Beginn dieses Jahrhunderts formulierte: »Perhaps the
heterogeneity and multiplicity of recent Logoi has put anthopos once again into
question.«4 Bei den Programmen des Affective Computing handelt es sich um
Hybridprodukte, in denen überkommenes Wissen aus Physiognomik und Mimik
fortwirkt. Zu fragen ist also, in welcher Weise in der Logik Künstlicher Intelligenz
im Bereich der sogenannten emotion AI sich Neues und Altes durchdringen.
Deren Urgeschichte wird dort lesbar, wo sich der Automatentraum der Kybernetik
und der Labortraum der empirischen Psychologie verbinden.
    Im Zentrum der Aufmerksamkeit steht seit längerem die automatisierte
Gesichtserkennung/Face Detection. Im Schatten der heftig geführten Kontro-
verse um die Installierung digitaler Kameras im öffentlichen Raum hat sich
derweil aber auch eine andere Form des Zugriffs digitaler Technologie auf das
menschliche Gesicht verbreitet: Die sogenannte Emotion Recognition, und als
lukratives IT-Produkt längst den globalen Markt erobert. Grundlage sind Pro-
gramme zur automatisierten Decodierung des Gesichtsausdrucks als Zeichen
für bestimmte Emotionen. Deren Funktionsweise ist gänzlich verschieden von
jener der Gesichtserkennung, wenn auch für beide gilt, dass recognition darin als
detection lesbar ist und Erkennung somit weniger auf Erkenntnis abzielt denn auf
Erfassung. Im Unterschied aber zur Technik und Politik der Face Detection ist die
Emotion Recognition von kulturwissenschaftlicher Seite bisher kaum Gegenstand
eingehender Untersuchungen geworden, jedenfalls nicht im Blick auf die Ratio-
nalität und Logik der Systeme und ihre hybriden epistemischen Implikationen.
Für die aktuelle Kultur- und Medientheorie ist es durchaus typisch, dass sie zwar
die Macht- und Kontrollmechanismen neuer Psycho-Technologien 5 kritisiert oder
die Entstehung einer neuen Medienordnung ›der systematischen Verflechtung
von Affekt und Technologie‹ beschreibt6, dabei aber das mögliche Funktionieren

2 Stephen J. Collier, Aihwa Ong, Global Assemblages, Technologies, Politics, and Ethics as Anth-
ropological Problems, Malden 2005, S. 6.
3 Paul Rabinow, Marking Time. Anthropology of the Contemporary, Princeton 2008.
4 Ders., »Midst Anthropology’s Problems«, in: Cultural Anthropology, Vol. 17, Nr. 2 (2002),
S. 135–149, hier: S. 136.
5 So Marie-Luise Angerer, Bernd Bösel, »Capture all, oder Who’s afraid of a pleasing little sis-
ter?«, in: Zeitschrift für Medienwissenschaften, Heft 13: Überwachung und Kontrolle, Jg. 7, Nr. 2
(2015), S. 48–56.
6 So Anna Tuschling, »The Age of Affective Computing«, in: Marie-Luise Angerer, Bern Bösel,
u.a. (Hg.), Timing of Affect. Epistemologies, Aesthetics, Politics, Zürich/Berlin 2014, S. 179–190.
Der konventionelle Code als buckliger Zwerg im Dienste der Emotion Recognition.  49

einer solchen Verflechtung als gegeben voraussetzt. Und so zweifelsfrei es ist,
dass es unter den technologischen Bedingungen der Kybernetik zu weitreichen-
den Sinnverschiebungen kommt, so wenig folgt daraus doch eine vollständige
Zerstörung oder Ablösung überlieferter Sinnkultur7. Denn nicht nur hausen im
Innern der neuen Technologie häufig alte Konzepte; auch lassen sich manche
Phänomene der Lebenswelt nicht restlos der kybernetischen Logik unterwerfen.
    Die Entwicklung der Künstlichen Intelligenz im gesamten Bereich der Emo-
tionsforschung ist für eine Kritik der algorithmischen Rationalität besonders
interessant und brisant, weil darin nicht nur politische, soziale und ethische Pro-
bleme berührt werden, sondern prinzipielle Fragen des Geltungsbereichs digitaler
Technologie überhaupt, – dies umso mehr, als in die entsprechenden IT-Produkte
epistemologische, wissenschaftsgeschichtliche und bildtheoretische Bestände
aus verschiedenen Schichten ihrer Vorgeschichte eingegangen sind, während
deren Voraussetzungen darin zugleich unlesbar geworden sind. In dieser Hin-
sicht aber unterscheidet sich Emotion Recognition prinzipiell von Face Detection.

Die Gegenwart des Digitalen – Nachgeschichte
eines Traums
Die Zeitstruktur der digitalen Kultur lässt sich mit Rabinows Konzept des Contem-
porary begreifen: Als »a moving ratio of modernity, moving through the recent
past and near future in a (non-linear) space that gauges modernity as an ethos
already becoming historical.«8 Lässt sich der Beginn des ›digitalen Zeitalters‹
auf den Moment datieren, in dem »es sich als Selbstbeschreibung zu verfassen
beginnt – also um 1970« mit der »dort entwickelten Erzählung vom Epochen-
umbruch des Digitalen«, so Claus Pias, so hat die heutige Allgegenwärtigkeit
und das Selbstverständliche digitaler Medientechnologie doch zugleich bereits
jene digitale Kultur verwirklicht, »deren baldige Ankunft seit den späten 1960er
Jahren ununterbrochen verkündet wird« 9. Letzteres verweist auf die Vordenker
der Digitalisierung aus dem Umfeld der California Cybernetics. So gesehen, stellt

7 Wie Erich Hörl meint in der Einführung zu dem von ihm herausgegebenen Band Die technolo-
gische Bedingung. Beiträge zur Beschreibung der technischen Welt, Berlin 2011.
8 Paul Rabinow, Marking Time. On the Anthropology of the Contemporary, Princeton 2008, S. 6.
9 Claus Pias, Digitalität – Ende oder Anfang der Aufklärung. Vortrag am ZKM Karlsruhe,
22.03.2019, MS S. 1.; dem von ihm geleiteten Forschungsbereich an der Leuphana Universität
Lüneburg verdanke ich den Begriff der digitalen Kultur.
50  Sigrid Weigel

sich die Gegenwart des Digitalen als Nachträglichkeit einer Zukunftsidee aus dem
Geiste der Kybernetik dar; und damit lässt sie sich zugleich als Nachgeschichte
jenes Traums verstehen, mithilfe einer aus der mathematischen Informations-
theorie geborenen Technologie ein neues Zeitalter zu begründen. Unsere Existenz
in der heutigen digitalen Kultur wird derart auch als Leben in den Träumen von
Wissenschaftlern lesbar, deren kybernetisches Begehren wesentliche Kompo-
nenten des gegenwärtigen Vormarsches Künstlicher Intelligenz erdacht hat: von
der elektronischen Datenverarbeitung über die Konstruktion von Computern und
Mensch-Maschine-Systemen bis zu neuronalen Netzwerken.
     Ihren historischen Index teilt die Künstliche Intelligenz mit der Konzeption
der Affekte bzw. Emotionen, die in den Programmen des Affective Computing ope-
rieren; diese gehen auf die neuro-physiologische Affekttheorie der empirischen
Psychologie der 1960er Jahre zurück. Während das Projekt zur Entschlüsselung
eines biologischen Programms menschlicher Affekte durch die Kybernetik beflü-
gelt wurde, bedurfte umgekehrt der Traum von der Konstruktion eines künst-
lichen Menschen eines computierbaren Begriffs der Affekte: »The creation of a
humanomaton would require an affect system«, so Silvan Tomkins10 1962 bei der
von ihm initiierten Konferenz zum Thema Computer Simulation of Personality:
Frontier of Psychological Theory in Princeton. Der Weg dorthin führte ihn, seine
Kollegen und Schüler ins Labor; und dort entdeckten die Psychologen einen
Weg wieder, den schon viele vor ihnen beschritten hatten: den Umweg über das
Gesicht bzw. die Mimik.
     So wie jeder Zukunftsentwurf sich im hohen Maße aus bereits verfügbarem
Wissen, vertrauten Begriffen und überlieferten Bildern speist, ist auch jeder Traum
von einer Sache mit Traumspuren verwoben, die aus dem Vergangenen herrühren,
arbeitet jeder prospektive Traum auch mit Momenten des Retroaktiven. Und so
weist der historische Index der digitalen Kultur in etlichen ihrer Komponenten vor
deren kybernetische Geburtsstunde zurück. Wenn entgegen der Vorstellung einer
offenen Zukunft in der Selbstbeschreibung der Digitalisierung, die digitalen Kultu-
ren sich »jedoch – von der Kybernetik und deren Konzepten der Prädikation und
des Feedback herkommend – durch eine Schließung von Zukunft« auszeichnen,

10 Silvan Tomkins in der Einleitung zu dem, zusammen mit Samuel Messick herausgegebenen
Band Computer Simulation of Personality: Frontier of Psychological Theory, New York 1963, S. 18.
Zu dieser Konferenz vgl. Elisabeth A. Wilson, Affect and Artificial Intelligence, Wisconsin 2010, S.
58 ff. Ihr Buch widmet sich Projekten sogenannter affektiver Maschinen wie Eliza, Kismet u.a.,
ist aber von einer irritierenden Tendenz zur begrifflichen Entdifferenzierung gekennzeichnet,
wenn Computern ohne weiteres ›Subjektivität‹ und ›Leben‹ zugeschrieben wird, z.B. »when AI
becomes intersubjectively and affectively alive« (S. 86).
Der konventionelle Code als buckliger Zwerg im Dienste der Emotion Recognition.  51

so Pias11, dann ragen, so lässt sich ergänzen, in diese geschlossene Zukunft nicht
wenige Rudimente aus vor-kybernetischen Wissensbeständen hinein.
     Das wird bereits am Schlüsselbegriff aus der Geburtsstunde der Kyberne-
tik kenntlich, verdankt sich das Erscheinen des damit eingeläuteten Neuen, die
mathematische Informationstheorie, doch der Hilfestellung durch einen vertrau-
ten Begriff, wenn Norbert Wiener 1948 bei der Bestimmung von ›Information‹
als Negentropie12 auf die zentrale Idee der Thermodynamik zurückgreift. Auf
solcherart Durchdringung von Altem und Neuen zielte das Erkenntnisinteresse
von Walter Benjamins Recherchen zur Kultur der Moderne, weshalb er von einer
›Urgeschichte der Moderne‹ spricht.
     »Chacque époque rêve la suivante«, – diesen Satz von Jules Michelet stellt
Benjamin als Motto jenem Abschnitt seiner erkenntnistheoretischen Einleitung
voran, in der er die Art und Weise reflektiert, in der sich »das Alte mit dem Neuen
durchdringt«13. Das Zitat entstammt Michelets Essay »Avenir! Avenir!«14, in
dem der Historiker der Französischen Revolution die Geschichte als »mühsame
Traumarbeit« beschreibt. Während bei Michelet die Rolle des Traums aber im
Sinne einer Fortschrittsgeschichte als eine rein erschaffende erscheint, erhält der
Traum beim Freud-Leser Benjamin eine andere Bedeutung. Was der Traum her-
vorbringt, ist nicht ›die Geschichte‹; es sind vielmehr Wunschbilder. Und diese
sind bei Benjamin als dialektische Bilder konzipiert, was bedeutet, dass sie ihre
Vorgeschichte und Nachgeschichte in sich tragen. Denn so wie sich die Wunsch-
bilder einerseits aus dem Repertoire vorhandener Vorstellungen speisen, so
werden sie andererseits, wenn sie auch keine Realität erschaffen können, gleich-
wohl in »tausend Konfigurationen des Lebens, von den dauernden Bauten bis zu
den flüchtigen Moden, ihre Spur hinterlassen« haben.

11 Claus Pias, Digitalität, a.a.O., S. 3.
12 »Wie der Informationsgehalt eines Systems ein Maß für den Grad der Ordnung ist, ist die
Entropie eines Systems ein Maß für den Grad an Unordnung; und das eine ist einfach das Ne-
gative des anderen.« aus Norbert Wiener: Kybernetik. Regelung und Nachrichtenübertragung im
Lebewesen und in der Maschine (1948), Düsseldorf/Wien 1963, S. 31. Detaillierter zur Negentropie
als Übergangsmetapher vgl. Sigrid Weigel, Die ›innere Spannung im alphanumerischen Code‹
(Flusser). Buchstabe und Zahl in grammatologischer und wissenschaftsgeschichtlicher Perspek-
tive, Köln 2006; Nachdruck in: Daniel Irrgang, Siegfried Zielinski (Hg.), Erkundungen im anthro-
pologischen Viereck. Lektionen im Kontext des Flusserschen Denkens, Paderborn 2018, S. 141–171.
13 Walter Benjamin, »Paris, die Hauptstadt des XIX. Jahrhunderts«, in: Rolf Tiedemann (Hg.)
Passagen-Werk, Frankfurt/M. 1982, I/46.
14 Benjamin zitiert Michelets Essay aus dem Jahre 1842 nach einem Abdruck in dem Journal
Europe, Nr. 73, 1929, S. 6, bemerkt aber in einer der Aufzeichnungen zum Passagen-Projekt, dass
ein Zitat von Michelet, »wo immer es sich findet, den Leser das Buch vergessen macht, in dem
er es antrifft« (I/582).
52  Sigrid Weigel

    »Der Form des neuen Produktionsmittels, die im Anfang noch von der des alten beherrscht
    wird (Marx), entsprechen im Kollektivbewußtsein Bilder, in denen das Neue sich mit dem
    Alten durchdringt. Diese Bilder sind Wunschbilder, und in ihnen sucht das Kollektiv die
    Unfertigkeit des gesellschaftlichen Produkts sowie die Mängel der gesellschaftlichen Pro-
    duktionsordnung sowohl aufzuheben als auch zu versöhnen.«15

Geht es Benjamin um die Effekte der Träume vorausgegangener Epochen in der
Kultur der Jetztzeit, so ist der ›Geschichte‹ damit eine fundamentale Ungleich-
zeitigkeit eingeschrieben, indem die – sei es in Architektur oder in Technologie
– materialisierten Wunschbilder vorausgegangener Generationen in die Lebens-
welt der Heutigen hineinragen. Diese Ungleichzeitigkeit ist umso komplexer
gedacht, als die Urgeschichte der Moderne sich nicht auf kulturelle Phänomene
im engeren traditionellen Sinne beschränkt, sondern durch die Entwicklung der
Produktionsmittel und Produktivkräfte eine zusätzliche Dynamik erhält. Beob-
achtet Benjamin schon für die Moderne, dass »die Entwicklung der Produktiv-
kräfte [...] die Wunschsymbole des vorigen Jahrhunderts in Trümmer [legte],
noch ehe die sie darstellenden Monumente zerfallen waren«16, so gilt das für
die Ungleichzeitigkeiten der digitalen Kultur umso mehr. Während die Benut-
zeroberfläche des Computers, Monument und Repräsentant des kybernetischen
Wunschsymbols, den individuellen Nutzer noch in der Position eines Autors,
Akteurs und Partizipierenden des world wide web adressiert, ist ihm diese Posi-
tion aufgrund der Entwicklung der Algorithmen, Produktivkräfte des Digitalen,
längst entzogen, hat er sich doch in eine IP-Adresse verwandelt, deren Aktivitä-
ten gespeichert und für Nutzerprofile (behavior patterns) ausgewertet werden: die
Metamorphose des Individuums in eine black box bzw. ein »digitales Double«17.
     Der Kritik am fundamentalen Strukturwandel von Öffentlichkeit, Privat-
heit und Kommunikation durch die Entwicklung des Internets und der sozia-
len Medien (mit »von den Großkonzernen vorgegebenen Pfaden«18, Intranspa-
renz, Ansammlung von Datenkapital und deren Monopolisierung bei wenigen
Netz-Multis und den Geheimdiensten19) werden immer wieder die Möglichkeiten

15 Benjamin, »Paris, die Hauptstadt des XIX. Jahrhunderts«, a.a.O., S. 46 f.
16 Ebd., S. 59.
17 »(B)asically, for each of us a black box was created that is fed with mass surveillance data.
This black box learns to behave in a way similar to us. These are effectively digital doubles.«
Aus: »A Paradise, but Freezing Cold«, Interview mit Dirk Helbing, in: Köpfe und Ideen, Nr. 15/
Februar 2020, Wissenschaftskolleg zu Berlin: https://www.wiko-berlin.de/en/wikotheque/koep-
fe-und-ideen/issue/15/das-kalte-paradies/ (letzter Zugriff: 15.02.2020)
18 Andreas Bernard, Komplizen des Erkennungsdienstes. Das Selbst in der digitalen Kultur,
Frankfurt/M. 2016, S. 187.
19 »The problem is that science has no access to much of this data [...] because companies and
Der konventionelle Code als buckliger Zwerg im Dienste der Emotion Recognition.  53

des Internets (Kreativität, Vernetzung, freier Zugang) entgegengehalten. Abge-
sehen von der beliebten, aber wenig analytischen Rhetorik der Relativierung
werden in diesem Einwurf »Rückstände einer Traumwelt«20 aus den Anfängen
des Internets erkennbar: als sich die Zukunft eines globalen, weltumspannen-
den Netzes demokratischer Kommunikation ohne Zugangsschranken zu eröffnen
schien, – jener Traum von der Aufhebung hierarchischer Arbeitsteilung zwischen
Produzenten und Rezipienten, wie er schon einmal der Erfindung eines neuen
Mediums galt: so in Brechts Idee, den Rundfunk von einem Distributions- in
einen Kommunikationsapparat zu verwandeln, in dem der Hörer zum aktiven
Mitspieler wird.21 Im Sinne Benjamins ginge es aber um eine »Verwertung der
Traumelemente beim Erwachen« 22 – und das hieße heute: beim Erwachen in der
Gegenwart der digitalen Kultur.

Gesichtserkennung – Überbietung biometrischer
Fahndungslogik
Die automatisierte Gesichtserkennung, die aufgezeichnete Bilder von Personen
– durch die Übersetzung analoger Bildsignale in digitale Werte – in Form von
Datensätzen nutzt, um sie mit vorhandenen Personendaten abzugleichen
bzw. zu verknüpfen (Rasterfahndung), greift zu diesem Zweck auf äußere
physiologische Merkmale zu. Dieses Verfahren geht auf die biometrischen
Methoden der Vermessung zurück, deren Vorgeschichte in der Kriminalistik
und Psychiatrie des 19. Jahrhundert umfassend belegt ist.23 Insofern es die
Logik von Fahndung, Überwachung und Verdacht war, welche die Herstellung
biometrischer Identitäts-Profile hervorgebracht und das menschliche Gesicht zu
diesem Zweck in messbare Parameter – und potentiell in Daten – transformiert
hat, halten die historischen Vorläufer der automatisierten Gesichtserkennung
bereits die Bedingung der Möglichkeit zum Eintritt ins digitale Zeitalter bereit.

intelligence agencies are almost the only entities which have access to these amounts of data.«
Dirk Helbing, a.a.O.
20 Benjamin, »Paris, die Hauptstadt des XIX. Jahrhunderts«, a.a.O., S. 59.
21 Bertold Brecht, »Der Rundfunk als Kommunikationsapparat«, in: Gesammelte Werke in 20
Bänden, Frankfurt/M., Bd. 18, S. 127–134, S. 129.
22 Benjamin, »Paris, die Hauptstadt des XIX. Jahrhundert«, a.a.O., S. 59.
23 Etwa Ulrich Richtmeyer (Hg.), PhantomGesichter. Zur Sicherheit und Unsicherheit im biomet-
rischen Überwachungsbild, Paderborn 2014; Roland Meyer, Operative Porträts. Eine Bildgeschich-
te der Identifizierbarkeit von Lavater bis Facebook, Göttingen 2019.
54  Sigrid Weigel

Der Übergang vom Computieren zur Computerisierung, von analog zu digital
gespeicherten Personen-Daten betrifft vor allem die Datenmenge, die Möglich-
keiten der Verknüpfung verschiedener Datenbanken und die Automatisierung
der Informationsverarbeitung, während zugleich der Beobachter (ob Psychiater,
Verwaltungs-, Polizei- oder Kriminalbeamter) aus den historischen Fahndungs-
systemen durch den Algorithmus ersetzt ist. Da aber Programme der biometri-
schen Gesichtserkennung heute nicht nur den öffentlichen Raum besetzen,
sondern auch in die Kommunikationsmedien und Applikationen von sozialen
Netzwerken implantiert sind, wird deren inhärente Fahndungs-Logik ubiquitär;
in ihr werden Nutzer zu Teilhabern einer »Entblößungsgesellschaft«24 bzw. zu
»Komplizen des Erkennungsdienstes« 25.
     In der kontroversen Debatte stehen sich immer wieder Sicherheitsargumente
(Bekämpfung des Terrorismus) und Datenschutz bzw. Schutz der Privatsphäre
und Recht auf Anonymität unversöhnlich gegenüber. Während sich der kritische
Diskurs auf eine Technologie richtet, die »rechtsstaatlich nicht domestizierbar«26
ist, und der theoretische Diskurs die Strukturen eines ›Communicative Capita-
lism‹27 oder ›Plattformkapitalismus‹28 beschreibt, wird im politischen Raum
häufig mit eher pragmatischen Einwänden argumentiert, zuvörderst mit der
Feststellung, dass die Technik nicht halte, was sie verspricht. Das Argument
hoher Fehlerquoten betrifft aber weniger die Logik der Gesichtserkennung selbst
als den Entwicklungsstand der Technik; und dem wird von den Machern regel-
mäßig mit Hinweis auf künftige Fortschritte begegnet. »Denn ›Digitalisierung‹
selbst kennt die Zukunft nur als ständig drängendes Update einer sich in ihr stets
wiederholenden Gegenwart.« 29
     War die Aufzeichnung von Personendaten im kriminalistischen Archiv ein
Mittel zum Zweck der Identifizierung und Aussonderung von Tätern, Verdäch-
tigen und Außenseitern, so liegt diese Zwecksetzung zwar noch der aktuellen
sicherheitspolitischen Legitimation zur Nutzung von Face Detection im öffent-

24 Heribert Prantl, »Gesichtsverlust. Der Einsatz biometrischer Kameras ist gefährlich«, in:
Süddeutsche Zeitung, 25./26.1.2020, S. 5.
25 Andreas Bernard, Komplizen des Erkennungsdienstes, a.a.O.
26 Heribert Prantl, a.a.O.
27 Jodi Dean, »Communicative Capitalism. Circulation and the Foreclosure of Politics«, in: Cul-
tural Politics, Jg. 1, Nr. 1, (2005) S. 51–74.
28 Nick Srnicek: Plattform-Kapitalismus, Hamburg 2018.
29 Claus Pias, »Die Digitalisierung gibt es nicht. Die Debatte über die Digitalisierung hängt in
der Wiederholungsschleife. Die Zukunft schreibt die Gegenwart und diese die technokratischen
Versionen des Kalten Krieges fort. Zeit für einen anderen Blick«, in: Frankfurter Allgemeine Zei-
tung, 31.07.2019, S. 4.
Der konventionelle Code als buckliger Zwerg im Dienste der Emotion Recognition.  55

lichen Raum zugrunde; mit der Implementierung in die Kommunikationsmedien
berührt die Technologie aber alle Nutzer. Umso befremdlicher ist die Tatsache,
dass der erregten Debatte über die staatliche Überwachung und Sozialkontrolle
keine vergleichbare Aufregung über die private Nutzung von Gesichtssoftware
in den sozialen Medien – über die ›freiwillige‹ Bereitstellung eigener Daten –
gegenübersteht. Mündet die globale Ausbreitung der automatisierten Gesichts-
erkennung durch das Internet doch in einer Überformung des Sozialen und
Privaten durch diejenige Fahndungslogik, die bereits dem Projekt von Alphons
Bertillon und seinen Zeitgenossen zugrunde lag: Personen in Form von Daten-
sätzen anzuschreiben. So ist die Logik des Systems beim Übergang vom Archiv
aus Karteikarten mit Bild, Zahl und Text in die elektronische Aufzeichnung,
Verarbeitung und Verknüpfung von Daten zwar relativ konstant; doch hat sie
sich mithilfe der Elektronik nicht nur technologisch erfüllt, sondern im Wechsel
vom analogen zum digitalen Erkennungssystem gleichsam selbst überboten
durch eine globale und vollständige Transformation von Personen in Daten: der
anthropos als Datensatz.
     Das Beispiel China, das sich zu einer der führenden IT-Länder entwickelt hat,
ist in mehrfacher Hinsicht lehrreich. Nicht nur zeigt sich in der totalen Erfassung
der Bewohner und ihres Verhaltens durch ein umfassendes Sozialkreditsystem
mithilfe biometrischer Gesichtserkennung, wie sich vergangene Technikträume
in Alpträume verwandeln können. Auch hat sich das kybernetische Projekt eines
»westlichen Systemgewinn[s] durch Computerisierung, Digitalisierung und
Vernetzung« im ideologischen Gefüge des Kalten Krieges 30 und der Systemkon-
kurrenz gegenüber dem Kommunismus als Bumerang erwiesen, insofern die von
der kommunistischen Führung gepuschte IT-Branche Chinas in einer Weise pro-
liferiert, die die westliche Konkurrenz sehr bald hinter sich gelassen haben wird.

Emotion Recognition – Kompositprodukt aus
Algorithmus und konventionellem Code
Im Unterschied zur Erfüllung und Überbietung einer Fahndungslogik aus dem
19. Jahrhundert in Gestalt automatisierter Gesichtserkennung folgen Programme
zur Emotion Recognition einer anderen Logik. Bei ihnen handelt es sich um Kom-
positprodukte aus Algorithmen und einem Interpretationsmodell, dessen Genese

30 Claus Pias, Digitalität, a.a.O., S. 1.
56  Sigrid Weigel

sich bis ins 17. Jahrhundert zurückverfolgen lässt.31 Während bei der Face Detec-
tion biometrische Daten mit anderen Daten verschaltet werden, liegt den Pro-
grammen zur Gefühlserkennung ein fazialer Emotionscode aus dem Repertoire
der experimentellen Psychologie der 1970er Jahre zugrunde. Bei den marktübli-
chen Geräten und Programmen zur Emotion Recogniton wird ein Teil des Gesichts
eingerahmt (vom oberen Rand der Augenbrauen bis zur Kinnspitze), mit einer
Anzahl von Landmarken versehen (zwischen 30 und 60 Punkte an Augenbrauen,
Augen, Nase und Lippen), um auf diese Weise Bewegungsmuster des Gesichts-
ausdrucks aufzuzeichnen, die jeweils als Zeichen für eines der Gefühle aus einer
Reihe von zwei bis zu sieben angeschriebenen Emotionen identifiziert werden:
anger, disgust, fear, happiness, sadness, surprise, contempt.
    Auf dem Bildschirm des jeweiligen Geräts erscheint das bewegte Gesicht,
das mit einer eingebauten Kamera aufgezeichnet wird, überblendet mit den aus
Landmarken gebildeten Konfigurationen über Brauen, Augen, Nase und Mund.
Während die Punkte der Landmarken sich synchron zu dem sich verändernden
Gesichtsausdruck bewegen, wird zeitgleich in einer danebenstehenden Tabelle
mit den genannten Emotionsbezeichnungen die Aktivierung einzelner Gefühle in
einem aufleuchtenden Balkendiagramm angezeigt.

  Abb. 1: MediaCom                  Abb. 2: Affectiva

Damit ist die Grundausstattung beschrieben, die sich bei Applikationen für
mobile Geräte wie Smartphone oder Tablet findet (Abb. 1); manche Programme
sind ergänzt um eine biometrische Ermittlung von Geschlecht und Alter der
jeweiligen Person. Seltener werden zusätzlich diejenigen Bewegungen einzelner
Gesichtsteile verzeichnet, die für die als aktiv markierte Emotion als signifikant
betrachtet werden (Abb. 2, rechts vom Gesicht). Für Eingeweihte verweist letzte-
res auf die sogenannten Action Units aus dem darunterliegenden Deutungsmo-
dell. Denn gemäß dem Facial Action Coding System (FACS)32 wird das jeweilige

31 Zur Archäologie des FACS vgl. ausführlich Sigrid Weigel, »Gesichter – Zwischen Spur und
Bild, Codierung und Vermessung«, in: Grammatologie der Bilder, Berlin 2015, S. 70–137.
32 Einsehbar auf der Plattform von IMOTIONS: https://imotions.com/blog/facial-action-co-
ding-system/ (letzter Zugriff: 10.03.2020)
Der konventionelle Code als buckliger Zwerg im Dienste der Emotion Recognition.  57

Muster des Gesichtsausdrucks (facial expression), das für eine der sechs (oder
sieben) sogenannten Basisemotionen steht, aus der Kombination von 64 einzeln
bezeichneten Bewegungseinheiten gebildet. Aufgrund dieses Bewegungsmus-
ters, visuelles Kernstück des FACS, ist dieser Gesichtscode aus der empirischen
Psychologie besonders anschlussfähig für die digitale Kultur, stellt sich diese
doch als Kultur universeller Mustererkennung 33 dar.
     Auf der Benutzeroberfläche erscheint das Programm als bildliche Wieder-
gabe des jeweiligen individuellen Gesichtsausdrucks, dem eine bestimmte emo-
tionale Bedeutung zugeordnet wird, d.h. als eine einfache Korrelation. Die Dar-
stellung auf dem Bildschirm setzt sich jedoch aus der Kombination einer Reihe
unterschiedlicher Komponenten zusammen, bestehend aus (1) einem Bild, der
Videoaufzeichnung des bewegten Gesichts, (2) einer Konfiguration von Landmar-
ken, deren graphische Formen der morphologischen Gestalt des menschlichen
Gesichts angepasst sind, (3) einer Tabelle zur Klassifikation unterschiedlicher
Emotionen und (4) einem Diagramm zur Darstellung von gemessenen Werten.
Wie dieses Interface ist auch das Programm ein Kompositprodukt, das heißt »a
composite whole whose logic of compostion cannot be reduced to the logic of its
constitutive elements.«34 Im Falle der Emotion Recognition-Programme erschließt
sich deren Logik nur über den konventionellen Code, der die Verknüpfung der
einzelnen Komponenten bestimmt.
     Die Geräte zur Gefühlserkennung mithilfe Künstlicher Intelligenz erscheinen
komplexer als die Information, die sie tatsächlich bereitstellen. Was dem Nutzer
versprochen wird, ist eine Aussage über den aktuellen emotionalen Zustand der
Person, deren Gesicht aufgezeichnet wird, wobei die Evidenzbehauptung bei Pro-
dukten der Künstlichen Intelligenz offenbar keiner weiteren Begründung bedarf.
Tatsächlich basiert die Aussage auf der schlichten, keiner digitalen Unterstützung
bedürfenden Gleichsetzung eines bestimmten Bewegungsmusters des Gesichts
mit einer einzelnen Emotion. Auf dem sichtbaren Interface erscheint die Aussage
allerdings als Ergebnis einer komplizierten Operation, da hier sehr heterogene
Parameter verknüpft werden: solche der Ähnlichkeit (photographisches Porträt,
das in Form digitaler Werte gespeichert ist, aber als analoges Bild erscheint), der
Klassifikation (Katalog der Emotionen) und der Messung (Werte für die Stärke
der Aktivität). Während die Übersetzung der einzelnen Komponenten in digitale
Werte und deren Verknüpfung mithilfe von Algorithmen prozessiert werden,

33 Vgl. dazu Armin Nassehi, Muster. Theorie der digitalen Gesellschaft, München 2019.
34 Anthony Stavraniakis, What is an Anthropology of the Contemporary? Field Statement (Con-
cept Labor), Nr. 1 April 2009, S. 13; mit Bezug auf Paul Rabinow, Gaymon Bennet, »From Bio-
Ethics to Human Practises«, in: Tactical Biopolitics, 2008.
58  Sigrid Weigel

ergibt das Ganze allerdings erst einen Sinn, wenn ein Interpretationsmodell die
Beziehung zwischen den einzelnen Komponenten regelt, anders gesagt, wenn
der digitale Code des Programms mit einem konventionellen Code unterstützt
wird. Bei letzterem handelt es sich um eine tradierte Übereinkunft, nach der
Physiologisches (die faziale Muskultur) in Psychisches (Gefühle) übersetzt wird.
Dieser konventionelle Code ist nicht mit einem analogen Code aus dem Zeitalter
technischer Reproduzierbarkeit zu verwechseln, etwa bei der Aufzeichnung von
Tönen durch den Phonographen, bei dem »der Apparat [den] analogen Kode in
Schallwellen« übersetzt.35 Es ist ein konventioneller Code im wörtlichen Sinne,
d.h. eine Konvention, welche die Übersetzung von Bewegungsmustern der
Gesichtsoberfläche in Gefühlszeichen regelt, die Mimik also als Zeichensystem
fasst.
     Insofern haust hier im Innern eines komplexen digitalen Systems ein her-
kömmlicher Code, dessen Voraussetzungen nicht weiter befragt werden. Diese
Konstruktion erinnert an Benjamins »philosophisches Gegenstück« zu jenem
(als Schachtürke bekannten)36 Schachautomaten, der jeden Zug gewinnt, weil in
dessen Spiegelkonstruktion ein buckliger Zwerg verborgen ist, der die Züge der
Puppe lenkt. Benjamins philosophisches Gegenstück zu diesem Schachautoma-
ten lautet: »Gewinnen soll immer die Puppe, die man ›historischen Materialis-
mus‹ nennt. Sie kann es ohne weiteres mit jedem aufnehmen, wenn sie die Theo-
logie in ihren Dienst nimmt, die heute bekanntlich klein und häßlich ist und sich
ohnehin nicht darf blicken lassen.«37 In diesem Denkbild braucht man nur den
historischen Materialismus durch ›Gefühlserkennung‹ und die Theologie durch
den konventionellen Code zu ersetzen, um das Geheimnis der entsprechenden
Geräte und Programme in einem anschaulichen Bild darzustellen.
     Während der Algorithmus den konventionellen fazialen Gefühlscode (FACS)
in Dienst nimmt, wird letzterer im Gegenzug durch das digitale Gerät aufgerüstet.
Der ›Gewinn‹ solcherart Aufrüstung einer herkömmlichen Deutung liegt allein
in der Ersetzung des Beobachters bzw. Decodierers durch eine elektronische
Auswertung, nicht aber in einem Erkenntniszuwachs. Denn weder verändert
sich die Art der Decodierung, noch wird eine zusätzliche Deutungsdimension
hinzugewonnen. Tatsächlich wird der Schritt zum Automated Facial Expression

35 Bernard Robben, Der Computer als Medium – Notation für Übersetzungen, in: Hans-Jörg
Kreowski (Hg.), Informatik und Gesellschaft. Verflechtungen und Perspektiven, Berlin 2008, S. 173.
36 Von Wolfgang von Kempelen 1769 konstruiert, wurde das ›Geheimnis‹ des Automaten durch
Edgar Allen Poes Essay Maelzel’s Chess Player (1836) bekannt.
37 Walter Benjamin, »Über den Begriff der Geschichte« [1940], in: R. Tiedemann, H. Schwep-
penhäuser (Hg.), Gesammelte Schriften, Bd. 1, Frankfurt/M. 1974, S. 693 [Hervorh. SW].
Der konventionelle Code als buckliger Zwerg im Dienste der Emotion Recognition.  59

Recognition System von den Entwicklern auch in erster Linie als Überwindung
von Arbeitsaufwand und Standardisierungsproblemen thematisiert. Im Hinblick
auf das händische FACS heißt es dort:

    »These methods have proven to be labor intensive, qualitative, and difficult to standar-
    dize. The Facial Action Coding System (FACS) developed by Paul Ekman and Wallace V.
    Friesen is the most widely used and validated method for measuring and describing facial
    behaviors. The Automated Facial Expression Recognition System (AFERS) automates the
    manual practice of FACS [...] This portable, near real-time system will detect the seven
    universal expressions of emotion, providing investigators with indicators of the presence
    of deception during the interview process.«38

Auch der hier formulierte Anspruch, Täuschungen im Gesichtsausdruck zu iden-
tifizieren und somit, das wahre Gefühl der betreffenden Person zu erkennen, geht
auf das Vorläufermodell von Ekman und Friesen zurück. Nur wird diese Fertigkeit
dort eben als Ergebnis eines langwierigen Lernprozesses beschrieben: mithilfe
des FACS-Manuals (1978) oder jüngerer, medial neu gestalteter Versionen von der
PaulEkmanGroup vertriebenen Trainingstools.39
      Es ist also eher so, dass ein herkömmliches Deutungsmodell der facial
expression mithilfe Künstlicher Intelligenz in ein interaktives Interface transfor-
miert wird, um auf diese Weise zu einem aufwendigen IT-Produkt zu mutieren.
Mit diesem lässt sich ein riesiger Markt erschließen. Wichtigster Abnehmer ist
die Marktforschung, die sich für die Zufriedenheit der Konsumenten interessiert
und diese an der Bewegung der hochgezogenen Mundwinkel ermessen will, an
der signifikantesten Action Unit für happiness im FACS-System; diese ist übrigens
bisher auch das einzige Gefühlszeichen, das die Programme mit Sicherheit
identifizieren. Insofern verwundert es nicht, wenn dieses Signal aus der Konfi-
guration des Interface isoliert wird, um im Zeitverlauf aufgezeichnet (etwa bei
der Betrachtung von Werbefilmen oder Soap Operas) und in einem Kurvendia-
gramm dargestellt zu werden, – womit das Ermessene nunmehr gemessen wird.
Was an dieser Kurve einzig interessiert, sind die peaks der Kurven, als Zeichen
maximaler Zufriedenheit. Doch im Sinne einer Kritik algorithmischer Rationa-
lität geht es vor der Erörterung von Marktinteressen, die solche Technologien
befördern, zunächst um die Logik dieses Kompositprodukts, bei dem in einem

38 Andrew Ryan, Jeffrey Cohn, et al., »Automated Expression Recogniton System«, in: IEEE
Xplore 2009, S. 172. Gesponsert wurde die Entwicklung des Systems u.a. vom ›Naval Criminal
Investigative Service‹.
39 https://www.paulekman.com/facial-action-coding-system/ (letzter Zugriff: 10.03.2020).
60  Sigrid Weigel

Gerät neuester digitaler Technologie ein konventioneller Interpretationsschema
verborgen ist.

  Abb. 3-4: Insassen-Monitoring und Marktforschung mithilfe von Emotion Recognition
            (Affectiva)

Da sich für die Nutzer das Prozessieren der Algorithmen ohnehin stets in der ›Tiefe‹
der digitalen Geräte abspielt, ist deep zur leitenden Metapher der Künstlichen
Intelligenz geworden – etwa deep meaning, deep informatics, deep learning, deep
health, deep Gestalt u.a. – und bezeichnet die Sphäre eines Verborgenen, das als
»Mysterium eines medientechnisch bedingten arcanum«40 erscheint. In diesem
Verborgenen werden die Operationen des konventionellen Codes unlesbar. Inso-
fern die algorithmische Rationalität auf Operationen eines syntaktischen Rech-
nens ohne (semantische) Bedeutung basiert, handelt es sich bei der Künstlichen
Intelligenz um eine Intelligenz der Effizienz, nicht aber des Sinns. Bei der Gefühl-
serkennung geht es aber um Bedeutung in einem starken Sinne. Insofern liegt der
Gefühlscode der Mimik in wissenschaftsgeschichtlicher Hinsicht zwar diesseits
der algorithmischen Rationalität, in epistemologischer Hinsicht aber jenseits
von dessen Möglichkeiten. Deren Grenzen werden durch den Mythos einer in
der ›Tiefe‹ der Programme operierenden Künstlichen Intelligenz allerdings ver-
deckt. Bei neuronalen Netzen, als deep learning metaphorisiert, funktioniert das
deep wie eine Art Deckerinnerung, die die Voraussetzungen von Interpretation
und Klassifikation verdrängt. Als Voraussetzung der Emotion Recognition ist das
FACS gleichsam in derselben Position wie das Training neuronaler Netze, der
sogenannten selbstlernenden Programme41, bei denen die bedeutungsgebenden
Komponenten im Mythos der Undurchschaubarkeit gern vergessen werden: wie
Training, Zielvorgabe und vor allem die standardisierten Datensätze – das sind

40 Timon Beyes, Claus Pias, »Transparenz und Geheimnis«, in: Zeitschrift für Kulturwissenschaf-
ten, 2/2014, S. 115.
41 Zur Übersicht über die supervised und non-supervised Verfahren in diesem Gebiet vgl. Jeffrey
F. Cohn, Fernando De la Torre, »Automated Face Analysis for Affective Computing«, in: Rafael L.
Calvo et al. (Hg.), Oxford Handbook of Affective Computing, Oxford 2015, S. 131–150.
Der konventionelle Code als buckliger Zwerg im Dienste der Emotion Recognition.  61

im Falle von facial expression-Studien Photographien mit »different emotional
states« 42, die auf Grundlage des FACS hergestellt wurden. Es sind solche klassi-
fizierenden Vor-Urteile im buchstäblichen Sinne, die wesentlich zum rekursiven
Charakter der Ergebnisse ›selbstlernender Programme‹ beitragen.

Affective Computing – das Referenzproblem als
Symptom des Geltungsbereichs
Die Ikonographie des FACS ist – bei wechselnden Bildmedien – relativ konstant.
Es sind Muster-Gesichter im doppelten Sinne: Bewegungsmuster als Prototypen
von Basisemotionen. Gezeigt werden sechs Porträts von Gesichtern mit der Pose
eines übertriebenen Gesichtsausdrucks, die jeweils mit einem Begriff aus dem
Katalog der Emotionen bezeichnet werden. Diese Anordnung entspricht der Kon-
vention, dass die Bildunterschrift benennt, was das Bild zeigt. Da die Porträts tat-
sächlich aber verschiedene mimische Stereotypen zeigen, nicht Emotionen, liegt
hier eine fundamentale Verkennung von Referenz vor, Symptom des Geltungs-
problems digitaler Zugriffe auf das menschliche Gesicht, wo diese den Bezug auf
physiologische Merkmale überschreiten.

  Abb. 5: FACS basic emotion              Abb. 6: Cohn-Kanade Dataset
          (nach Ekman)

42 Farhad Arbabzadah et al., »Identifying Individual Facial Expressions by Deconstructing a
Neural Network«, in: Bodo Rosenhahn, Björn Andres (Hg.), Pattern Recognition. 38th German
confrenernce, GCPR 2016, Springer 2016, S. 344–354. Das Papier entstand im Umfeld einer Ar-
beitsgruppe um Klaus-Robert Müller (TU Berlin), die an der Visualisierung der Kriterien arbeitet,
nach denen neuronale Netze ›entscheiden‹; in den entsprechenden Artikeln wird die entschei-
dende Bedeutung des Trainings deutlich; vgl. Sebastian Lapuschkin u.a., »Understanding and
Comparing Deep Neural Networks for Age and Gender Classification«, presented at 7th IEEE
International Workshop on Analysis and Modeling of Faces and Gestures, arXiv:1708.07689v1,
25.08.2017.
62  Sigrid Weigel

     Diese Verkennung der unhintergehbaren Differenz zwischen messbaren
physiologischen Phänomenen, die als Daten angeschrieben werden können
(wie Herzfrequenz, Temperatur, Blutdruck), und Indikatoren, bei denen sicht-
bare oder messbare Merkmale als Anzeichen für andere Phänomene, die sich
dem direkten empirischen Zugriff entziehen, interpretiert werden, ist Grundlage,
Voraussetzung und Möglichkeitsbedingung der Emotion Recognition. Wie so oft,
scheint dieses Problem in der Entwicklungsphase neuer Systeme noch auf, wird
mit deren Durchsetzung und Verbreitung aber verdrängt. Ähnlich wie hilfreiche
Metaphern, die bei der Erkundung bisher verschlossener Wissenswelten genutzt
werden, im Zuge der Etablierung eines neuen Spezialgebietes sich zum Begriff
verfestigen, während ihr ›so wie‹-Status dabei in Vergessenheit gerät, – wie Hans
Blumenberg an der Genese des genetischen Codes exemplarisch herausgearbei-
tet hat.43 Eine solche Dynamik ist auch beim Zugriff auf Emotionen in der Etablie-
rung des Affective Computing zu beobachten.
     Im »Technical Report No. 321« der M.I.T. Media Laboratory Perceptual Com-
puting Section, der als Gründungsdokument des Affective Computing gelten kann,
setzt die Autorin Rosalind Picard mit der weitreichenden Vision ein, gefühlsbe-
gabte Computer zu entwickeln: »Computers are beginning to acquire the ability
to express and recognize affect, and may soon be given the ability to ›have emo-
tions‹.« Die neurowissenschaftliche Erkenntnis über die Rolle von Emotionen für
Kognition und Wahrnehmung mache es erforderlich, dass »affective computer«
nicht nur bessere Assistenzleistungen für Menschen böten, sondern die Fähigkeit
von Computern zum decision making weiterentwickelt werde. Daraus begründet
sich das neue Forschungsfeld, umschrieben als: »computing that relates to, arises
from, or influences emotions.« 44 Die Anführungszeichen um »have emotions« im
Eingangssatz markieren die Aussage als metaphorische Beschreibung und signa-
lisieren so eine gewisse Reserve gegenüber der Behauptung, Computer könnten
tatsächlich Emotionen haben. In diesem Punkt zeichnet sich das Papier allerdings
durch eine bemerkenswerte Unschärfe aus: an manchen Stellen wird die Formu-
lierung gleichlautend wiederholt, an anderen Stellen wird sie als Aussage »only
in a descriptive sense« ausgegeben, analog zu Debatten »about machines having
consciousness« 45. Dasselbe betrifft die Aussage über »computers being able to

43 Hans Blumenberg, »Der genetische Code und seine Leser«, in: Die Lesbarkeit der Welt.
Frankfurt/M. 1981, S. 372–409; Sigrid Weigel, »Der Text der Genetik zwischen Metaphorik und
Algorithmus«, in: Genea-Logik. Generation, Tradition und Evolution zwischen Kultur- und Natur-
wissenschaften, München 2006, S. 235–262.
44 R.W. Picard, M.I.T. Media Laboratory Perceptual Computing Section Technical Report Nr. 321,
1995, S. 1, auch R. W. Picard, Affective Computing, Cambridge (MA) 1997.
45 R. W. Picard, Technical Report, S. 9.
Der konventionelle Code als buckliger Zwerg im Dienste der Emotion Recognition.  63

recognize emotion, and to induce emotion« 46, eine Formulierung, die an anderer
Stelle in Anführungszeichen gesetzt und relativiert wird, ohne dass die Differenz
zwischen erkennen und messen auch nur annähernd reflektiert würde: »Thus, i
may speak of ›recognize emotions‹, but this should be interpreted as ›measuring
observations of motor system behavior that correspond with high probability to
an underlying emotion or combination of emotions.‹« 47
     Für ihre Substitution von Gefühlserkennung durch Vermessungsmethoden
verwendet die Computerwissenschaftlerin Picard im Wesentlichen zwei Konzepte
aus der empirischen Emotionsforschung: sentic state und facial expression. Mit
ersterem bezieht sie sich auf den Neurowissenschaftler und Musiker Manfred
Clynes, den Erfinder des »Sentic Cycle«, in dem unterschiedlichen emotiona-
len Zuständen eine Skala neurophysiologischer Werte (etwa durch Fingerdruck)
zugeordnet und in Gestalt von Kurven dargestellt wird;48 bekannt wurde Clynes
besonders durch empirische Forschungen zu neurophysiologischen Grundlagen
musikalischer Ausdrucksformen und der These, dass jedem Komponisten (klas-
sischer Musik) ein eigener »emotional pulse« eigen sei49. Clynes Ideen empfehlen
sich der Informatik u.a. durch ihre Metaphorik, etwa in der Idee, dass der Aus-
druck eines ›sentischen Zustands‹ von einem »spezifischem Gehirnprogramm
oder Algorithmus gesteuert« werde, einer ›sentischen Form‹.50 Mit Picards sentic
state schrumpft sein komplexer Erklärungszusammenhang aber auf eine mess-
bare Kategorie zusammen. Zudem sind für Picard sentic state, emotional state
und affective state austauschbar51, – womit die Differenzen zwischen Sensorik
(sentic), Erregung (affective) und Gefühlen eingeebnet werden. Auf diese Weise
gewinnt sie einen Parameter für die Entwicklung von Programmen zur automati-
sierten Messung physiologischer Merkmale. Hervorgegangen ist daraus zunächst
ein Patent für die Erfassung der elektrodermalen Aktivität (skin conductivity), in
der Psychologie als vegetativer Indikator psychophysischer Erregung betrachtet,
und im Folgenden die Firmengründung Empatica. Diese produziert u.a. tragbare
Geräte (wearables) im Design von Armbanduhren, die der Erkennung epilepti-
scher Anfälle dienen sollen; beworben werden diese wie folgt: »groundbreaking
technology to detect possible generalized tonic-clonic seizures, and immedialtely

46 Ebd., S. 8.
47 Ebd., S. 6.
48 Manfred Clynes, »The communication of emotion: theory of sentics«, in: Robert Plutchik,
Henry Kellerman (Hg.), Emotion: Theory, Research and Experience, New York, 1980, S. 271–300.
49 Manfred Clynes, Sentics. The Touch of the Emotions, New York 1977; dt. Auf den Spuren der
Emotionen, Freiburg 1996.
50 Manfred Clynes, Auf den Spuren der Emotionen, a.a.O., S. 60.
51 Ebd., S. 5.
64  Sigrid Weigel

alert caregivers« 52. Diese gehören zur Wachstumsbranche der IT-Produkte zum
Neuro-Tracking,53 die sich letztlich als digitale Aufrüstung der mechanischen
méthode graphique54 darstellt, mit der die empirische Forschung im 19. Jahrhun-
dert durch die Aufzeichnung physiologischer Phänomene mithilfe von Appara-
turen wie z.B. Sphymograph (Pulsschreiber) oder Myograph (Registrierung von
Muskelkontraktionen) enorm an Fahrt gewann.
    Für das andere Konzept, für facial expression, das Picard für die Erkennung
des »emotional state« oder auch der »sentic modulation« nutzt, bezieht sie sich
auf das FACS von Ekman sowie auf Duchenne des Boulogne; letzterer gilt in der
empirischen Psychologie gemeinhin als derjenige, der mit seinen Experimen-
ten zur elektrischen Stimulierung von Kontraktionen der fazialen Muskulatur55
die Existenz einer nicht-willkürlichen Bewegung dieser Muskulatur entdeckt
und bewiesen habe. Wenn Picard diese aber als expressive Gesichtsmuskulatur
bezeichnet, dann werden die durch Reiz stimulierten Kontraktionen mit einem
Gefühlsausdruck kurzgeschlossen, – womit das Konzept handhabbar wird für die
digitale De- und Encodierung, nicht nur für Algorithmus-gesteuerte Gefühlser-
kennung, sondern auch für die künstliche Mimik von Computern: »Emotion-mo-
deled faces can be used to give computers graphical faces which mimic these
precise expressions identified by Ekman, making the computer faces seem more
human.«56 Aus den Computern, die »Emotionen haben«, sind damit Computer
geworden, deren Nachahmung der FACS-Mustergesichter sie menschenähnlicher
erscheinen lassen sollen.
    Aus diesem Teil des Affective computing-Projekts ist eine weitaus lukrativere
Firmengründung hervorgegangen, Affectiva, »providing emotion AI technolo-
gies«, wie es auf der Homepage von Picard, derweil Professorin für Media Arts
and Sciences, heißt.57 Affectiva ist eine der weltweit führenden Firmen im Bereich

52 https://www.empatica.com/en-eu/ (letzter Zugriff: 07.03.2020).
53 Zur damit verbundenen Tendenz zum »vermessenen Leben« vgl. den Forschungsbericht des
interdisziplinären Teams von Vera King, Benigna Gerisch et al., »Psychische Bedeutungen des
digitalen Messens, Zählens und Vergleichens«, in: Digitalisierung, Folgen für Psyche und Kultur,
in: Psyche, Nr. 9/10, (2019) S. 744–770.
54 Etienne-Jules Marey, La méthode graphique dans les sciences expérimentales et principale-
ment en physiologie et en médicine, Paris 1878.
55 Auf Duchenne de Bologne geht auch die auf Emotionen referierende Nomenklatur für die fa-
ziale Muskulatur zurück, mit deren er Muskulatur und Gefühle kurzschließt. Zur tautologischen
Anlage seines Mécanisme de la physionomie humaine ou analyse électro-physiologique de l’ex-
pression des passions (1861), vgl. Sigrid Weigel, »Gesichter – Zwischen Spur und Bild, Codierung
und Vermessung«, a.a.O., S. 99–105.
56 Picard, Technical Report, a.a.O., S. 5.
57 https://www.media.mit.edu/people/picard/overview/ (letzter Zugriff: 07.03.2020).
Der konventionelle Code als buckliger Zwerg im Dienste der Emotion Recognition.  65

der IT-Produkte zur Emotion Recognition, vornehmlich für »consumer emotio-
nal responses«. Beworben werden diese mit dem weitreichenden Anspruch, die
Künstliche Intelligenz mit emotionaler Intelligenz auszustatten:

    »We knew that if AI had emotional intelligence, it could interact with humans in the same
    way that people engage with one another. We also knew that this was an underserved area of
    AI, and quickly fnd ourselves at a new frontier. We deliberately set out to name and define
    the space, to seed and lead the market. Artificial emotional intelligence, or Emotion AI, was
    born.«58

Während es heißt, dass die Produkte der emotion AI »komplexe menschliche
Zustände« analysieren, werden letztere tatsächlich auf die Stereotypen des
Gefühlscodes reduziert, um sie an die Datenlogik algorithmischer Rationalität
anzupassen. Auffällig ist in der zitierten Passage die Verschiebung von einem
psychologischen Begriff (emotionale Intelligenz) über einen Gegenstand der
Informatik (Künstliche emotionale Intelligenz) zu emotion AI, einem Branchenti-
tel der IT-Produkte. Durch diese rhetorische Operation wird im Effekt der Gegen-
stand digitaler Erkennungs-Technologie, nämlich Gefühle, als qualitatives Ver-
mögen der Technologie selbst zugeschrieben.
     Damit stellt sich die Frage nach der Art der Intelligenz, die der emotion AI
zukommt, anders gefragt danach, was sich mit der Künstlichen Intelligenz im
Zuge ihrer Anwendung auf Phänomene ereignet, die mit Helmut Plessner zu den
»meßfremden Eigenschaften der körperlichen Natur«59 gehören. Wenn Plessner
1928 schon konstatierte, dass die Wissenschaften in ihrer »Identifizierung von
Körperlichkeit und Ausdehnung, physischem Dasein und Meßbaren« für die
meßfremden Eigenschaften »blind geworden« seien, so gilt das für die Zeitalter
der Digitalisierung umso mehr. Das gesamte Gebiet der emotion AI übt sich in
vollständiger Ignoranz gegenüber dem epistemischen Problem, das Sigmund
Freud in seinem Entwurf einer naturwissenschaftlichen Psychologie (1895) als
fundamentalen Bruch zwischen dem Quantitäts- und dem Qualitätsparadigma
erörtert hat.60 Nur so ist es möglich, messfremde Eigenschaften umstandslos der
algorithmischen Rationalität zu unterwerfen und deren Logik anzupassen. Diese
Art Anpassung schlägt sich auch in der Rhetorik nieder, wenn auf der Homepage

58 https://blog.affectiva.com/our-evolution-from-emotion-ai-to-human-perception-ai (letzter
Zugriff: 07.03.2020) [Hervorh. SW].
59 Helmuth Plessner, Die Stufen des Organischen und der Mensch (1928). Frankfurt/M. 1981, S. 83.
60 Vgl. Sigrid Weigel, »Embodiment in Simulation Theory and Cultural Science, with Remarks
on the Coding-Problem of Neuroscience«, in: Sigrid Weigel, Gerhard Schabert (Hg.), A Neuro-Psy-
choanalytical Dialogue for Bridging Freud and the Neurosciences, Springer 2016, S. 52 ff.
66  Sigrid Weigel

von Affectiva beispielsweise die Menschen selbst zu programmierten Systemen
werden: »The human face provides a rich canvas for our emotions, as we are inna-
tely programmed to express and communicate emotion through facial expressi-
on.«61 Das Gesicht des anthropos als Leinwand programmierter Emotionen.
     In seinem Essay Über die Dummheit hat Robert Musil unter anderem einen
Begriff anspruchsvoller, höherer Dummheit entwickelt. Jeder Art von Dummheit
gehöre zu einer bestimmten Art von Leistung, so Musil:

    »Wenn die Dummheit nicht dem Fortschritt, dem Talent, der Hoffnung oder der Verbesse-
    rung zum Verwechseln ähnlich sähe, würde niemand dumm sein wollen [...] die anspruchs-
    volle höhere (Dummheit) [….] ist nicht sowohl ein Mangel an Intelligenz als vielmehr deren
    Versagen aus dem Grunde, dass sie sich Leistungen anmaßt, die ihr nicht zustehen.«62

Im Anschluss an Musils Umschreibung anspruchsvoller höherer Dummheit
müssen die beschriebenen Applikationen der emotion AI, die sich anmaßen, Aus-
kunft über die Gefühle derjenigen Personen zu geben, deren Gesichter sie auf-
zeichnen, als Geräte künstlicher Dummheit bewertet werden. Diese Art Dumm-
heit ist nicht erst der gesellschaftlichen Anwendung geschuldet, wie in jenen
Systemen künstlicher Dummheit, von denen Hito Steyerl spricht:

    »Als Systeme künstlicher Dummheit bezeichne ich jene, die die Automatisierung ganzer
    Branchen vorantreiben, ohne dass über Alternativen für die Beschäftigten nachgedacht
    wird, die ganze Bevölkerungsgruppen überflüssig machen. Systeme, die zu Frustration
    und großen Verwerfungen führen. […] Dieser Plattformkapitalismus reorganisiert die ganze
    Gesellschaft auf radikale und dumme Weise und führt zu Wahlsiegen etwa von Trump.«63

Die höhere Dummheit von Programmen Künstlicher Intelligenz liegt in deren
Logik selbst, wenn, wie im Falle der Emotion Recognition, avancierte Algorith-
men, die u.a. die digitale Bildbearbeitung von bewegten Gesichtern leisten, mit
einer schlichten Korrelation kombiniert werden, wenn im Innern eines aufwen-
digen IT-Produkts ein buckliger Zwerg hockt und die Züge lenkt. Im Falle der
emotion AI ist das FACS der Dummheits-Koeffizient; anders gesagt beerben die
Programme der Emotion Recognition jene Kurzschlüsse und Reduktionen, die
bereits dem FACS eignen.

61 https://www.affectiva.com/emotion-ai-overview/ (letzter Zugriff: 05.07.2017) [Hervorh. SW].
62 Robert Musil, Über die Dummheit, [1937], Berlin 2001, S. 5 u. S. 53.
63 »Hito Steyerl im Interview: Ist das Museum ein Schlachtfeld?«, von Carolin Wiedemann, in:
Frankfurter Allgemeine Zeitung, 27.12.2016.
Sie können auch lesen