Der konventionelle Code als buckliger Zwerg im Dienste der Emotion Recognition.
←
→
Transkription von Seiteninhalten
Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten
Sigrid Weigel Der konventionelle Code als buckliger Zwerg im Dienste der Emotion Recognition. Überlegungen zu einer Urgeschichte der digitalen Kultur Zur Kritik algorithmischer Rationalität im Bereich sogenannter Emotion AI Im Horizont der gegenwärtigen Kultur, in der Algorithmen-gesteuerte Operatio- nen immer mehr Arbeits- und Lebensbereiche durchdringen, betrifft eine Kritik der algorithmischen Rationalität vor allem Probleme, die aus der Janusgestalt der ratio erwachsen, der ratio als Vernunft und der ratio als Quotient bzw. Zahlenver- hältnis. Denn die gegenwärtige Engführung beider Gesichter der ratio gibt den Transformationen jener Konzepte und Phänomene, die Objekte algorithmischer Rationalität sind, ihr spezifisches Gepräge. Die Frage nach der Genese dieser Engführung muss die nach dem Anderen der Vernunft einschließen: nach jenem Begehren, jenen Ideen, Entwürfen und Phantasmen, welche die digitale Kultur sowohl befördert als auch Spuren in deren gegenwärtiger Verfassung hinterlas- sen haben. Damit geht es nicht nur um den historischen Index der Technologien, sondern auch des Imaginären, das darin Gestalt gewonnen hat. Dabei gilt es, mit einer Kritik algorithmischer Rationalität einer Tendenz nicht weniger kultur- und medientheoretischer Beiträge zu widersprechen, die den Verführungen digitaler Technologie erliegen und mithilfe der Theorie zu deren Nobilitierung beitragen. Gegenstand meines Beitrags sind die elektronische Gesichts- und Gefühlser- kennung, genauer die Logik von Programmen Künstlicher Intelligenz im Bereich der Emotionsforschung (emotion AI) und deren Effekte für die conditio humana. Denn, so Hannah Arendt, »Menschen sind bedingte Wesen, weil ein jegliches, womit sie in Berührung kommen, sich unmittelbar in eine Bedingung ihrer Existenz verwandelt«1. Mit der »Konstitution der sozialen und biologischen Existenz des Menschen als Objekt von Wissen, technischer Intervention, Politik und ethischen 1 Hannah Arendt, Vita Activa oder Vom tätigen Leben, [1960] München 1981, S. 16. https://doi.org/10.1515/jbmp-2020-0003
48 Sigrid Weigel Diskussionen« 2 werden immer auch anthropologische Fragen aufgeworfen. Stellt sich in der Anthropologie der Gegenwart 3 die Figur des anthropos als spezifische Formation der Wissenschaft dar, so gilt für die digitale Kultur umso mehr, was Paul Rabinow schon zu Beginn dieses Jahrhunderts formulierte: »Perhaps the heterogeneity and multiplicity of recent Logoi has put anthopos once again into question.«4 Bei den Programmen des Affective Computing handelt es sich um Hybridprodukte, in denen überkommenes Wissen aus Physiognomik und Mimik fortwirkt. Zu fragen ist also, in welcher Weise in der Logik Künstlicher Intelligenz im Bereich der sogenannten emotion AI sich Neues und Altes durchdringen. Deren Urgeschichte wird dort lesbar, wo sich der Automatentraum der Kybernetik und der Labortraum der empirischen Psychologie verbinden. Im Zentrum der Aufmerksamkeit steht seit längerem die automatisierte Gesichtserkennung/Face Detection. Im Schatten der heftig geführten Kontro- verse um die Installierung digitaler Kameras im öffentlichen Raum hat sich derweil aber auch eine andere Form des Zugriffs digitaler Technologie auf das menschliche Gesicht verbreitet: Die sogenannte Emotion Recognition, und als lukratives IT-Produkt längst den globalen Markt erobert. Grundlage sind Pro- gramme zur automatisierten Decodierung des Gesichtsausdrucks als Zeichen für bestimmte Emotionen. Deren Funktionsweise ist gänzlich verschieden von jener der Gesichtserkennung, wenn auch für beide gilt, dass recognition darin als detection lesbar ist und Erkennung somit weniger auf Erkenntnis abzielt denn auf Erfassung. Im Unterschied aber zur Technik und Politik der Face Detection ist die Emotion Recognition von kulturwissenschaftlicher Seite bisher kaum Gegenstand eingehender Untersuchungen geworden, jedenfalls nicht im Blick auf die Ratio- nalität und Logik der Systeme und ihre hybriden epistemischen Implikationen. Für die aktuelle Kultur- und Medientheorie ist es durchaus typisch, dass sie zwar die Macht- und Kontrollmechanismen neuer Psycho-Technologien 5 kritisiert oder die Entstehung einer neuen Medienordnung ›der systematischen Verflechtung von Affekt und Technologie‹ beschreibt6, dabei aber das mögliche Funktionieren 2 Stephen J. Collier, Aihwa Ong, Global Assemblages, Technologies, Politics, and Ethics as Anth- ropological Problems, Malden 2005, S. 6. 3 Paul Rabinow, Marking Time. Anthropology of the Contemporary, Princeton 2008. 4 Ders., »Midst Anthropology’s Problems«, in: Cultural Anthropology, Vol. 17, Nr. 2 (2002), S. 135–149, hier: S. 136. 5 So Marie-Luise Angerer, Bernd Bösel, »Capture all, oder Who’s afraid of a pleasing little sis- ter?«, in: Zeitschrift für Medienwissenschaften, Heft 13: Überwachung und Kontrolle, Jg. 7, Nr. 2 (2015), S. 48–56. 6 So Anna Tuschling, »The Age of Affective Computing«, in: Marie-Luise Angerer, Bern Bösel, u.a. (Hg.), Timing of Affect. Epistemologies, Aesthetics, Politics, Zürich/Berlin 2014, S. 179–190.
Der konventionelle Code als buckliger Zwerg im Dienste der Emotion Recognition. 49 einer solchen Verflechtung als gegeben voraussetzt. Und so zweifelsfrei es ist, dass es unter den technologischen Bedingungen der Kybernetik zu weitreichen- den Sinnverschiebungen kommt, so wenig folgt daraus doch eine vollständige Zerstörung oder Ablösung überlieferter Sinnkultur7. Denn nicht nur hausen im Innern der neuen Technologie häufig alte Konzepte; auch lassen sich manche Phänomene der Lebenswelt nicht restlos der kybernetischen Logik unterwerfen. Die Entwicklung der Künstlichen Intelligenz im gesamten Bereich der Emo- tionsforschung ist für eine Kritik der algorithmischen Rationalität besonders interessant und brisant, weil darin nicht nur politische, soziale und ethische Pro- bleme berührt werden, sondern prinzipielle Fragen des Geltungsbereichs digitaler Technologie überhaupt, – dies umso mehr, als in die entsprechenden IT-Produkte epistemologische, wissenschaftsgeschichtliche und bildtheoretische Bestände aus verschiedenen Schichten ihrer Vorgeschichte eingegangen sind, während deren Voraussetzungen darin zugleich unlesbar geworden sind. In dieser Hin- sicht aber unterscheidet sich Emotion Recognition prinzipiell von Face Detection. Die Gegenwart des Digitalen – Nachgeschichte eines Traums Die Zeitstruktur der digitalen Kultur lässt sich mit Rabinows Konzept des Contem- porary begreifen: Als »a moving ratio of modernity, moving through the recent past and near future in a (non-linear) space that gauges modernity as an ethos already becoming historical.«8 Lässt sich der Beginn des ›digitalen Zeitalters‹ auf den Moment datieren, in dem »es sich als Selbstbeschreibung zu verfassen beginnt – also um 1970« mit der »dort entwickelten Erzählung vom Epochen- umbruch des Digitalen«, so Claus Pias, so hat die heutige Allgegenwärtigkeit und das Selbstverständliche digitaler Medientechnologie doch zugleich bereits jene digitale Kultur verwirklicht, »deren baldige Ankunft seit den späten 1960er Jahren ununterbrochen verkündet wird« 9. Letzteres verweist auf die Vordenker der Digitalisierung aus dem Umfeld der California Cybernetics. So gesehen, stellt 7 Wie Erich Hörl meint in der Einführung zu dem von ihm herausgegebenen Band Die technolo- gische Bedingung. Beiträge zur Beschreibung der technischen Welt, Berlin 2011. 8 Paul Rabinow, Marking Time. On the Anthropology of the Contemporary, Princeton 2008, S. 6. 9 Claus Pias, Digitalität – Ende oder Anfang der Aufklärung. Vortrag am ZKM Karlsruhe, 22.03.2019, MS S. 1.; dem von ihm geleiteten Forschungsbereich an der Leuphana Universität Lüneburg verdanke ich den Begriff der digitalen Kultur.
50 Sigrid Weigel sich die Gegenwart des Digitalen als Nachträglichkeit einer Zukunftsidee aus dem Geiste der Kybernetik dar; und damit lässt sie sich zugleich als Nachgeschichte jenes Traums verstehen, mithilfe einer aus der mathematischen Informations- theorie geborenen Technologie ein neues Zeitalter zu begründen. Unsere Existenz in der heutigen digitalen Kultur wird derart auch als Leben in den Träumen von Wissenschaftlern lesbar, deren kybernetisches Begehren wesentliche Kompo- nenten des gegenwärtigen Vormarsches Künstlicher Intelligenz erdacht hat: von der elektronischen Datenverarbeitung über die Konstruktion von Computern und Mensch-Maschine-Systemen bis zu neuronalen Netzwerken. Ihren historischen Index teilt die Künstliche Intelligenz mit der Konzeption der Affekte bzw. Emotionen, die in den Programmen des Affective Computing ope- rieren; diese gehen auf die neuro-physiologische Affekttheorie der empirischen Psychologie der 1960er Jahre zurück. Während das Projekt zur Entschlüsselung eines biologischen Programms menschlicher Affekte durch die Kybernetik beflü- gelt wurde, bedurfte umgekehrt der Traum von der Konstruktion eines künst- lichen Menschen eines computierbaren Begriffs der Affekte: »The creation of a humanomaton would require an affect system«, so Silvan Tomkins10 1962 bei der von ihm initiierten Konferenz zum Thema Computer Simulation of Personality: Frontier of Psychological Theory in Princeton. Der Weg dorthin führte ihn, seine Kollegen und Schüler ins Labor; und dort entdeckten die Psychologen einen Weg wieder, den schon viele vor ihnen beschritten hatten: den Umweg über das Gesicht bzw. die Mimik. So wie jeder Zukunftsentwurf sich im hohen Maße aus bereits verfügbarem Wissen, vertrauten Begriffen und überlieferten Bildern speist, ist auch jeder Traum von einer Sache mit Traumspuren verwoben, die aus dem Vergangenen herrühren, arbeitet jeder prospektive Traum auch mit Momenten des Retroaktiven. Und so weist der historische Index der digitalen Kultur in etlichen ihrer Komponenten vor deren kybernetische Geburtsstunde zurück. Wenn entgegen der Vorstellung einer offenen Zukunft in der Selbstbeschreibung der Digitalisierung, die digitalen Kultu- ren sich »jedoch – von der Kybernetik und deren Konzepten der Prädikation und des Feedback herkommend – durch eine Schließung von Zukunft« auszeichnen, 10 Silvan Tomkins in der Einleitung zu dem, zusammen mit Samuel Messick herausgegebenen Band Computer Simulation of Personality: Frontier of Psychological Theory, New York 1963, S. 18. Zu dieser Konferenz vgl. Elisabeth A. Wilson, Affect and Artificial Intelligence, Wisconsin 2010, S. 58 ff. Ihr Buch widmet sich Projekten sogenannter affektiver Maschinen wie Eliza, Kismet u.a., ist aber von einer irritierenden Tendenz zur begrifflichen Entdifferenzierung gekennzeichnet, wenn Computern ohne weiteres ›Subjektivität‹ und ›Leben‹ zugeschrieben wird, z.B. »when AI becomes intersubjectively and affectively alive« (S. 86).
Der konventionelle Code als buckliger Zwerg im Dienste der Emotion Recognition. 51 so Pias11, dann ragen, so lässt sich ergänzen, in diese geschlossene Zukunft nicht wenige Rudimente aus vor-kybernetischen Wissensbeständen hinein. Das wird bereits am Schlüsselbegriff aus der Geburtsstunde der Kyberne- tik kenntlich, verdankt sich das Erscheinen des damit eingeläuteten Neuen, die mathematische Informationstheorie, doch der Hilfestellung durch einen vertrau- ten Begriff, wenn Norbert Wiener 1948 bei der Bestimmung von ›Information‹ als Negentropie12 auf die zentrale Idee der Thermodynamik zurückgreift. Auf solcherart Durchdringung von Altem und Neuen zielte das Erkenntnisinteresse von Walter Benjamins Recherchen zur Kultur der Moderne, weshalb er von einer ›Urgeschichte der Moderne‹ spricht. »Chacque époque rêve la suivante«, – diesen Satz von Jules Michelet stellt Benjamin als Motto jenem Abschnitt seiner erkenntnistheoretischen Einleitung voran, in der er die Art und Weise reflektiert, in der sich »das Alte mit dem Neuen durchdringt«13. Das Zitat entstammt Michelets Essay »Avenir! Avenir!«14, in dem der Historiker der Französischen Revolution die Geschichte als »mühsame Traumarbeit« beschreibt. Während bei Michelet die Rolle des Traums aber im Sinne einer Fortschrittsgeschichte als eine rein erschaffende erscheint, erhält der Traum beim Freud-Leser Benjamin eine andere Bedeutung. Was der Traum her- vorbringt, ist nicht ›die Geschichte‹; es sind vielmehr Wunschbilder. Und diese sind bei Benjamin als dialektische Bilder konzipiert, was bedeutet, dass sie ihre Vorgeschichte und Nachgeschichte in sich tragen. Denn so wie sich die Wunsch- bilder einerseits aus dem Repertoire vorhandener Vorstellungen speisen, so werden sie andererseits, wenn sie auch keine Realität erschaffen können, gleich- wohl in »tausend Konfigurationen des Lebens, von den dauernden Bauten bis zu den flüchtigen Moden, ihre Spur hinterlassen« haben. 11 Claus Pias, Digitalität, a.a.O., S. 3. 12 »Wie der Informationsgehalt eines Systems ein Maß für den Grad der Ordnung ist, ist die Entropie eines Systems ein Maß für den Grad an Unordnung; und das eine ist einfach das Ne- gative des anderen.« aus Norbert Wiener: Kybernetik. Regelung und Nachrichtenübertragung im Lebewesen und in der Maschine (1948), Düsseldorf/Wien 1963, S. 31. Detaillierter zur Negentropie als Übergangsmetapher vgl. Sigrid Weigel, Die ›innere Spannung im alphanumerischen Code‹ (Flusser). Buchstabe und Zahl in grammatologischer und wissenschaftsgeschichtlicher Perspek- tive, Köln 2006; Nachdruck in: Daniel Irrgang, Siegfried Zielinski (Hg.), Erkundungen im anthro- pologischen Viereck. Lektionen im Kontext des Flusserschen Denkens, Paderborn 2018, S. 141–171. 13 Walter Benjamin, »Paris, die Hauptstadt des XIX. Jahrhunderts«, in: Rolf Tiedemann (Hg.) Passagen-Werk, Frankfurt/M. 1982, I/46. 14 Benjamin zitiert Michelets Essay aus dem Jahre 1842 nach einem Abdruck in dem Journal Europe, Nr. 73, 1929, S. 6, bemerkt aber in einer der Aufzeichnungen zum Passagen-Projekt, dass ein Zitat von Michelet, »wo immer es sich findet, den Leser das Buch vergessen macht, in dem er es antrifft« (I/582).
52 Sigrid Weigel »Der Form des neuen Produktionsmittels, die im Anfang noch von der des alten beherrscht wird (Marx), entsprechen im Kollektivbewußtsein Bilder, in denen das Neue sich mit dem Alten durchdringt. Diese Bilder sind Wunschbilder, und in ihnen sucht das Kollektiv die Unfertigkeit des gesellschaftlichen Produkts sowie die Mängel der gesellschaftlichen Pro- duktionsordnung sowohl aufzuheben als auch zu versöhnen.«15 Geht es Benjamin um die Effekte der Träume vorausgegangener Epochen in der Kultur der Jetztzeit, so ist der ›Geschichte‹ damit eine fundamentale Ungleich- zeitigkeit eingeschrieben, indem die – sei es in Architektur oder in Technologie – materialisierten Wunschbilder vorausgegangener Generationen in die Lebens- welt der Heutigen hineinragen. Diese Ungleichzeitigkeit ist umso komplexer gedacht, als die Urgeschichte der Moderne sich nicht auf kulturelle Phänomene im engeren traditionellen Sinne beschränkt, sondern durch die Entwicklung der Produktionsmittel und Produktivkräfte eine zusätzliche Dynamik erhält. Beob- achtet Benjamin schon für die Moderne, dass »die Entwicklung der Produktiv- kräfte [...] die Wunschsymbole des vorigen Jahrhunderts in Trümmer [legte], noch ehe die sie darstellenden Monumente zerfallen waren«16, so gilt das für die Ungleichzeitigkeiten der digitalen Kultur umso mehr. Während die Benut- zeroberfläche des Computers, Monument und Repräsentant des kybernetischen Wunschsymbols, den individuellen Nutzer noch in der Position eines Autors, Akteurs und Partizipierenden des world wide web adressiert, ist ihm diese Posi- tion aufgrund der Entwicklung der Algorithmen, Produktivkräfte des Digitalen, längst entzogen, hat er sich doch in eine IP-Adresse verwandelt, deren Aktivitä- ten gespeichert und für Nutzerprofile (behavior patterns) ausgewertet werden: die Metamorphose des Individuums in eine black box bzw. ein »digitales Double«17. Der Kritik am fundamentalen Strukturwandel von Öffentlichkeit, Privat- heit und Kommunikation durch die Entwicklung des Internets und der sozia- len Medien (mit »von den Großkonzernen vorgegebenen Pfaden«18, Intranspa- renz, Ansammlung von Datenkapital und deren Monopolisierung bei wenigen Netz-Multis und den Geheimdiensten19) werden immer wieder die Möglichkeiten 15 Benjamin, »Paris, die Hauptstadt des XIX. Jahrhunderts«, a.a.O., S. 46 f. 16 Ebd., S. 59. 17 »(B)asically, for each of us a black box was created that is fed with mass surveillance data. This black box learns to behave in a way similar to us. These are effectively digital doubles.« Aus: »A Paradise, but Freezing Cold«, Interview mit Dirk Helbing, in: Köpfe und Ideen, Nr. 15/ Februar 2020, Wissenschaftskolleg zu Berlin: https://www.wiko-berlin.de/en/wikotheque/koep- fe-und-ideen/issue/15/das-kalte-paradies/ (letzter Zugriff: 15.02.2020) 18 Andreas Bernard, Komplizen des Erkennungsdienstes. Das Selbst in der digitalen Kultur, Frankfurt/M. 2016, S. 187. 19 »The problem is that science has no access to much of this data [...] because companies and
Der konventionelle Code als buckliger Zwerg im Dienste der Emotion Recognition. 53 des Internets (Kreativität, Vernetzung, freier Zugang) entgegengehalten. Abge- sehen von der beliebten, aber wenig analytischen Rhetorik der Relativierung werden in diesem Einwurf »Rückstände einer Traumwelt«20 aus den Anfängen des Internets erkennbar: als sich die Zukunft eines globalen, weltumspannen- den Netzes demokratischer Kommunikation ohne Zugangsschranken zu eröffnen schien, – jener Traum von der Aufhebung hierarchischer Arbeitsteilung zwischen Produzenten und Rezipienten, wie er schon einmal der Erfindung eines neuen Mediums galt: so in Brechts Idee, den Rundfunk von einem Distributions- in einen Kommunikationsapparat zu verwandeln, in dem der Hörer zum aktiven Mitspieler wird.21 Im Sinne Benjamins ginge es aber um eine »Verwertung der Traumelemente beim Erwachen« 22 – und das hieße heute: beim Erwachen in der Gegenwart der digitalen Kultur. Gesichtserkennung – Überbietung biometrischer Fahndungslogik Die automatisierte Gesichtserkennung, die aufgezeichnete Bilder von Personen – durch die Übersetzung analoger Bildsignale in digitale Werte – in Form von Datensätzen nutzt, um sie mit vorhandenen Personendaten abzugleichen bzw. zu verknüpfen (Rasterfahndung), greift zu diesem Zweck auf äußere physiologische Merkmale zu. Dieses Verfahren geht auf die biometrischen Methoden der Vermessung zurück, deren Vorgeschichte in der Kriminalistik und Psychiatrie des 19. Jahrhundert umfassend belegt ist.23 Insofern es die Logik von Fahndung, Überwachung und Verdacht war, welche die Herstellung biometrischer Identitäts-Profile hervorgebracht und das menschliche Gesicht zu diesem Zweck in messbare Parameter – und potentiell in Daten – transformiert hat, halten die historischen Vorläufer der automatisierten Gesichtserkennung bereits die Bedingung der Möglichkeit zum Eintritt ins digitale Zeitalter bereit. intelligence agencies are almost the only entities which have access to these amounts of data.« Dirk Helbing, a.a.O. 20 Benjamin, »Paris, die Hauptstadt des XIX. Jahrhunderts«, a.a.O., S. 59. 21 Bertold Brecht, »Der Rundfunk als Kommunikationsapparat«, in: Gesammelte Werke in 20 Bänden, Frankfurt/M., Bd. 18, S. 127–134, S. 129. 22 Benjamin, »Paris, die Hauptstadt des XIX. Jahrhundert«, a.a.O., S. 59. 23 Etwa Ulrich Richtmeyer (Hg.), PhantomGesichter. Zur Sicherheit und Unsicherheit im biomet- rischen Überwachungsbild, Paderborn 2014; Roland Meyer, Operative Porträts. Eine Bildgeschich- te der Identifizierbarkeit von Lavater bis Facebook, Göttingen 2019.
54 Sigrid Weigel Der Übergang vom Computieren zur Computerisierung, von analog zu digital gespeicherten Personen-Daten betrifft vor allem die Datenmenge, die Möglich- keiten der Verknüpfung verschiedener Datenbanken und die Automatisierung der Informationsverarbeitung, während zugleich der Beobachter (ob Psychiater, Verwaltungs-, Polizei- oder Kriminalbeamter) aus den historischen Fahndungs- systemen durch den Algorithmus ersetzt ist. Da aber Programme der biometri- schen Gesichtserkennung heute nicht nur den öffentlichen Raum besetzen, sondern auch in die Kommunikationsmedien und Applikationen von sozialen Netzwerken implantiert sind, wird deren inhärente Fahndungs-Logik ubiquitär; in ihr werden Nutzer zu Teilhabern einer »Entblößungsgesellschaft«24 bzw. zu »Komplizen des Erkennungsdienstes« 25. In der kontroversen Debatte stehen sich immer wieder Sicherheitsargumente (Bekämpfung des Terrorismus) und Datenschutz bzw. Schutz der Privatsphäre und Recht auf Anonymität unversöhnlich gegenüber. Während sich der kritische Diskurs auf eine Technologie richtet, die »rechtsstaatlich nicht domestizierbar«26 ist, und der theoretische Diskurs die Strukturen eines ›Communicative Capita- lism‹27 oder ›Plattformkapitalismus‹28 beschreibt, wird im politischen Raum häufig mit eher pragmatischen Einwänden argumentiert, zuvörderst mit der Feststellung, dass die Technik nicht halte, was sie verspricht. Das Argument hoher Fehlerquoten betrifft aber weniger die Logik der Gesichtserkennung selbst als den Entwicklungsstand der Technik; und dem wird von den Machern regel- mäßig mit Hinweis auf künftige Fortschritte begegnet. »Denn ›Digitalisierung‹ selbst kennt die Zukunft nur als ständig drängendes Update einer sich in ihr stets wiederholenden Gegenwart.« 29 War die Aufzeichnung von Personendaten im kriminalistischen Archiv ein Mittel zum Zweck der Identifizierung und Aussonderung von Tätern, Verdäch- tigen und Außenseitern, so liegt diese Zwecksetzung zwar noch der aktuellen sicherheitspolitischen Legitimation zur Nutzung von Face Detection im öffent- 24 Heribert Prantl, »Gesichtsverlust. Der Einsatz biometrischer Kameras ist gefährlich«, in: Süddeutsche Zeitung, 25./26.1.2020, S. 5. 25 Andreas Bernard, Komplizen des Erkennungsdienstes, a.a.O. 26 Heribert Prantl, a.a.O. 27 Jodi Dean, »Communicative Capitalism. Circulation and the Foreclosure of Politics«, in: Cul- tural Politics, Jg. 1, Nr. 1, (2005) S. 51–74. 28 Nick Srnicek: Plattform-Kapitalismus, Hamburg 2018. 29 Claus Pias, »Die Digitalisierung gibt es nicht. Die Debatte über die Digitalisierung hängt in der Wiederholungsschleife. Die Zukunft schreibt die Gegenwart und diese die technokratischen Versionen des Kalten Krieges fort. Zeit für einen anderen Blick«, in: Frankfurter Allgemeine Zei- tung, 31.07.2019, S. 4.
Der konventionelle Code als buckliger Zwerg im Dienste der Emotion Recognition. 55 lichen Raum zugrunde; mit der Implementierung in die Kommunikationsmedien berührt die Technologie aber alle Nutzer. Umso befremdlicher ist die Tatsache, dass der erregten Debatte über die staatliche Überwachung und Sozialkontrolle keine vergleichbare Aufregung über die private Nutzung von Gesichtssoftware in den sozialen Medien – über die ›freiwillige‹ Bereitstellung eigener Daten – gegenübersteht. Mündet die globale Ausbreitung der automatisierten Gesichts- erkennung durch das Internet doch in einer Überformung des Sozialen und Privaten durch diejenige Fahndungslogik, die bereits dem Projekt von Alphons Bertillon und seinen Zeitgenossen zugrunde lag: Personen in Form von Daten- sätzen anzuschreiben. So ist die Logik des Systems beim Übergang vom Archiv aus Karteikarten mit Bild, Zahl und Text in die elektronische Aufzeichnung, Verarbeitung und Verknüpfung von Daten zwar relativ konstant; doch hat sie sich mithilfe der Elektronik nicht nur technologisch erfüllt, sondern im Wechsel vom analogen zum digitalen Erkennungssystem gleichsam selbst überboten durch eine globale und vollständige Transformation von Personen in Daten: der anthropos als Datensatz. Das Beispiel China, das sich zu einer der führenden IT-Länder entwickelt hat, ist in mehrfacher Hinsicht lehrreich. Nicht nur zeigt sich in der totalen Erfassung der Bewohner und ihres Verhaltens durch ein umfassendes Sozialkreditsystem mithilfe biometrischer Gesichtserkennung, wie sich vergangene Technikträume in Alpträume verwandeln können. Auch hat sich das kybernetische Projekt eines »westlichen Systemgewinn[s] durch Computerisierung, Digitalisierung und Vernetzung« im ideologischen Gefüge des Kalten Krieges 30 und der Systemkon- kurrenz gegenüber dem Kommunismus als Bumerang erwiesen, insofern die von der kommunistischen Führung gepuschte IT-Branche Chinas in einer Weise pro- liferiert, die die westliche Konkurrenz sehr bald hinter sich gelassen haben wird. Emotion Recognition – Kompositprodukt aus Algorithmus und konventionellem Code Im Unterschied zur Erfüllung und Überbietung einer Fahndungslogik aus dem 19. Jahrhundert in Gestalt automatisierter Gesichtserkennung folgen Programme zur Emotion Recognition einer anderen Logik. Bei ihnen handelt es sich um Kom- positprodukte aus Algorithmen und einem Interpretationsmodell, dessen Genese 30 Claus Pias, Digitalität, a.a.O., S. 1.
56 Sigrid Weigel sich bis ins 17. Jahrhundert zurückverfolgen lässt.31 Während bei der Face Detec- tion biometrische Daten mit anderen Daten verschaltet werden, liegt den Pro- grammen zur Gefühlserkennung ein fazialer Emotionscode aus dem Repertoire der experimentellen Psychologie der 1970er Jahre zugrunde. Bei den marktübli- chen Geräten und Programmen zur Emotion Recogniton wird ein Teil des Gesichts eingerahmt (vom oberen Rand der Augenbrauen bis zur Kinnspitze), mit einer Anzahl von Landmarken versehen (zwischen 30 und 60 Punkte an Augenbrauen, Augen, Nase und Lippen), um auf diese Weise Bewegungsmuster des Gesichts- ausdrucks aufzuzeichnen, die jeweils als Zeichen für eines der Gefühle aus einer Reihe von zwei bis zu sieben angeschriebenen Emotionen identifiziert werden: anger, disgust, fear, happiness, sadness, surprise, contempt. Auf dem Bildschirm des jeweiligen Geräts erscheint das bewegte Gesicht, das mit einer eingebauten Kamera aufgezeichnet wird, überblendet mit den aus Landmarken gebildeten Konfigurationen über Brauen, Augen, Nase und Mund. Während die Punkte der Landmarken sich synchron zu dem sich verändernden Gesichtsausdruck bewegen, wird zeitgleich in einer danebenstehenden Tabelle mit den genannten Emotionsbezeichnungen die Aktivierung einzelner Gefühle in einem aufleuchtenden Balkendiagramm angezeigt. Abb. 1: MediaCom Abb. 2: Affectiva Damit ist die Grundausstattung beschrieben, die sich bei Applikationen für mobile Geräte wie Smartphone oder Tablet findet (Abb. 1); manche Programme sind ergänzt um eine biometrische Ermittlung von Geschlecht und Alter der jeweiligen Person. Seltener werden zusätzlich diejenigen Bewegungen einzelner Gesichtsteile verzeichnet, die für die als aktiv markierte Emotion als signifikant betrachtet werden (Abb. 2, rechts vom Gesicht). Für Eingeweihte verweist letzte- res auf die sogenannten Action Units aus dem darunterliegenden Deutungsmo- dell. Denn gemäß dem Facial Action Coding System (FACS)32 wird das jeweilige 31 Zur Archäologie des FACS vgl. ausführlich Sigrid Weigel, »Gesichter – Zwischen Spur und Bild, Codierung und Vermessung«, in: Grammatologie der Bilder, Berlin 2015, S. 70–137. 32 Einsehbar auf der Plattform von IMOTIONS: https://imotions.com/blog/facial-action-co- ding-system/ (letzter Zugriff: 10.03.2020)
Der konventionelle Code als buckliger Zwerg im Dienste der Emotion Recognition. 57 Muster des Gesichtsausdrucks (facial expression), das für eine der sechs (oder sieben) sogenannten Basisemotionen steht, aus der Kombination von 64 einzeln bezeichneten Bewegungseinheiten gebildet. Aufgrund dieses Bewegungsmus- ters, visuelles Kernstück des FACS, ist dieser Gesichtscode aus der empirischen Psychologie besonders anschlussfähig für die digitale Kultur, stellt sich diese doch als Kultur universeller Mustererkennung 33 dar. Auf der Benutzeroberfläche erscheint das Programm als bildliche Wieder- gabe des jeweiligen individuellen Gesichtsausdrucks, dem eine bestimmte emo- tionale Bedeutung zugeordnet wird, d.h. als eine einfache Korrelation. Die Dar- stellung auf dem Bildschirm setzt sich jedoch aus der Kombination einer Reihe unterschiedlicher Komponenten zusammen, bestehend aus (1) einem Bild, der Videoaufzeichnung des bewegten Gesichts, (2) einer Konfiguration von Landmar- ken, deren graphische Formen der morphologischen Gestalt des menschlichen Gesichts angepasst sind, (3) einer Tabelle zur Klassifikation unterschiedlicher Emotionen und (4) einem Diagramm zur Darstellung von gemessenen Werten. Wie dieses Interface ist auch das Programm ein Kompositprodukt, das heißt »a composite whole whose logic of compostion cannot be reduced to the logic of its constitutive elements.«34 Im Falle der Emotion Recognition-Programme erschließt sich deren Logik nur über den konventionellen Code, der die Verknüpfung der einzelnen Komponenten bestimmt. Die Geräte zur Gefühlserkennung mithilfe Künstlicher Intelligenz erscheinen komplexer als die Information, die sie tatsächlich bereitstellen. Was dem Nutzer versprochen wird, ist eine Aussage über den aktuellen emotionalen Zustand der Person, deren Gesicht aufgezeichnet wird, wobei die Evidenzbehauptung bei Pro- dukten der Künstlichen Intelligenz offenbar keiner weiteren Begründung bedarf. Tatsächlich basiert die Aussage auf der schlichten, keiner digitalen Unterstützung bedürfenden Gleichsetzung eines bestimmten Bewegungsmusters des Gesichts mit einer einzelnen Emotion. Auf dem sichtbaren Interface erscheint die Aussage allerdings als Ergebnis einer komplizierten Operation, da hier sehr heterogene Parameter verknüpft werden: solche der Ähnlichkeit (photographisches Porträt, das in Form digitaler Werte gespeichert ist, aber als analoges Bild erscheint), der Klassifikation (Katalog der Emotionen) und der Messung (Werte für die Stärke der Aktivität). Während die Übersetzung der einzelnen Komponenten in digitale Werte und deren Verknüpfung mithilfe von Algorithmen prozessiert werden, 33 Vgl. dazu Armin Nassehi, Muster. Theorie der digitalen Gesellschaft, München 2019. 34 Anthony Stavraniakis, What is an Anthropology of the Contemporary? Field Statement (Con- cept Labor), Nr. 1 April 2009, S. 13; mit Bezug auf Paul Rabinow, Gaymon Bennet, »From Bio- Ethics to Human Practises«, in: Tactical Biopolitics, 2008.
58 Sigrid Weigel ergibt das Ganze allerdings erst einen Sinn, wenn ein Interpretationsmodell die Beziehung zwischen den einzelnen Komponenten regelt, anders gesagt, wenn der digitale Code des Programms mit einem konventionellen Code unterstützt wird. Bei letzterem handelt es sich um eine tradierte Übereinkunft, nach der Physiologisches (die faziale Muskultur) in Psychisches (Gefühle) übersetzt wird. Dieser konventionelle Code ist nicht mit einem analogen Code aus dem Zeitalter technischer Reproduzierbarkeit zu verwechseln, etwa bei der Aufzeichnung von Tönen durch den Phonographen, bei dem »der Apparat [den] analogen Kode in Schallwellen« übersetzt.35 Es ist ein konventioneller Code im wörtlichen Sinne, d.h. eine Konvention, welche die Übersetzung von Bewegungsmustern der Gesichtsoberfläche in Gefühlszeichen regelt, die Mimik also als Zeichensystem fasst. Insofern haust hier im Innern eines komplexen digitalen Systems ein her- kömmlicher Code, dessen Voraussetzungen nicht weiter befragt werden. Diese Konstruktion erinnert an Benjamins »philosophisches Gegenstück« zu jenem (als Schachtürke bekannten)36 Schachautomaten, der jeden Zug gewinnt, weil in dessen Spiegelkonstruktion ein buckliger Zwerg verborgen ist, der die Züge der Puppe lenkt. Benjamins philosophisches Gegenstück zu diesem Schachautoma- ten lautet: »Gewinnen soll immer die Puppe, die man ›historischen Materialis- mus‹ nennt. Sie kann es ohne weiteres mit jedem aufnehmen, wenn sie die Theo- logie in ihren Dienst nimmt, die heute bekanntlich klein und häßlich ist und sich ohnehin nicht darf blicken lassen.«37 In diesem Denkbild braucht man nur den historischen Materialismus durch ›Gefühlserkennung‹ und die Theologie durch den konventionellen Code zu ersetzen, um das Geheimnis der entsprechenden Geräte und Programme in einem anschaulichen Bild darzustellen. Während der Algorithmus den konventionellen fazialen Gefühlscode (FACS) in Dienst nimmt, wird letzterer im Gegenzug durch das digitale Gerät aufgerüstet. Der ›Gewinn‹ solcherart Aufrüstung einer herkömmlichen Deutung liegt allein in der Ersetzung des Beobachters bzw. Decodierers durch eine elektronische Auswertung, nicht aber in einem Erkenntniszuwachs. Denn weder verändert sich die Art der Decodierung, noch wird eine zusätzliche Deutungsdimension hinzugewonnen. Tatsächlich wird der Schritt zum Automated Facial Expression 35 Bernard Robben, Der Computer als Medium – Notation für Übersetzungen, in: Hans-Jörg Kreowski (Hg.), Informatik und Gesellschaft. Verflechtungen und Perspektiven, Berlin 2008, S. 173. 36 Von Wolfgang von Kempelen 1769 konstruiert, wurde das ›Geheimnis‹ des Automaten durch Edgar Allen Poes Essay Maelzel’s Chess Player (1836) bekannt. 37 Walter Benjamin, »Über den Begriff der Geschichte« [1940], in: R. Tiedemann, H. Schwep- penhäuser (Hg.), Gesammelte Schriften, Bd. 1, Frankfurt/M. 1974, S. 693 [Hervorh. SW].
Der konventionelle Code als buckliger Zwerg im Dienste der Emotion Recognition. 59 Recognition System von den Entwicklern auch in erster Linie als Überwindung von Arbeitsaufwand und Standardisierungsproblemen thematisiert. Im Hinblick auf das händische FACS heißt es dort: »These methods have proven to be labor intensive, qualitative, and difficult to standar- dize. The Facial Action Coding System (FACS) developed by Paul Ekman and Wallace V. Friesen is the most widely used and validated method for measuring and describing facial behaviors. The Automated Facial Expression Recognition System (AFERS) automates the manual practice of FACS [...] This portable, near real-time system will detect the seven universal expressions of emotion, providing investigators with indicators of the presence of deception during the interview process.«38 Auch der hier formulierte Anspruch, Täuschungen im Gesichtsausdruck zu iden- tifizieren und somit, das wahre Gefühl der betreffenden Person zu erkennen, geht auf das Vorläufermodell von Ekman und Friesen zurück. Nur wird diese Fertigkeit dort eben als Ergebnis eines langwierigen Lernprozesses beschrieben: mithilfe des FACS-Manuals (1978) oder jüngerer, medial neu gestalteter Versionen von der PaulEkmanGroup vertriebenen Trainingstools.39 Es ist also eher so, dass ein herkömmliches Deutungsmodell der facial expression mithilfe Künstlicher Intelligenz in ein interaktives Interface transfor- miert wird, um auf diese Weise zu einem aufwendigen IT-Produkt zu mutieren. Mit diesem lässt sich ein riesiger Markt erschließen. Wichtigster Abnehmer ist die Marktforschung, die sich für die Zufriedenheit der Konsumenten interessiert und diese an der Bewegung der hochgezogenen Mundwinkel ermessen will, an der signifikantesten Action Unit für happiness im FACS-System; diese ist übrigens bisher auch das einzige Gefühlszeichen, das die Programme mit Sicherheit identifizieren. Insofern verwundert es nicht, wenn dieses Signal aus der Konfi- guration des Interface isoliert wird, um im Zeitverlauf aufgezeichnet (etwa bei der Betrachtung von Werbefilmen oder Soap Operas) und in einem Kurvendia- gramm dargestellt zu werden, – womit das Ermessene nunmehr gemessen wird. Was an dieser Kurve einzig interessiert, sind die peaks der Kurven, als Zeichen maximaler Zufriedenheit. Doch im Sinne einer Kritik algorithmischer Rationa- lität geht es vor der Erörterung von Marktinteressen, die solche Technologien befördern, zunächst um die Logik dieses Kompositprodukts, bei dem in einem 38 Andrew Ryan, Jeffrey Cohn, et al., »Automated Expression Recogniton System«, in: IEEE Xplore 2009, S. 172. Gesponsert wurde die Entwicklung des Systems u.a. vom ›Naval Criminal Investigative Service‹. 39 https://www.paulekman.com/facial-action-coding-system/ (letzter Zugriff: 10.03.2020).
60 Sigrid Weigel Gerät neuester digitaler Technologie ein konventioneller Interpretationsschema verborgen ist. Abb. 3-4: Insassen-Monitoring und Marktforschung mithilfe von Emotion Recognition (Affectiva) Da sich für die Nutzer das Prozessieren der Algorithmen ohnehin stets in der ›Tiefe‹ der digitalen Geräte abspielt, ist deep zur leitenden Metapher der Künstlichen Intelligenz geworden – etwa deep meaning, deep informatics, deep learning, deep health, deep Gestalt u.a. – und bezeichnet die Sphäre eines Verborgenen, das als »Mysterium eines medientechnisch bedingten arcanum«40 erscheint. In diesem Verborgenen werden die Operationen des konventionellen Codes unlesbar. Inso- fern die algorithmische Rationalität auf Operationen eines syntaktischen Rech- nens ohne (semantische) Bedeutung basiert, handelt es sich bei der Künstlichen Intelligenz um eine Intelligenz der Effizienz, nicht aber des Sinns. Bei der Gefühl- serkennung geht es aber um Bedeutung in einem starken Sinne. Insofern liegt der Gefühlscode der Mimik in wissenschaftsgeschichtlicher Hinsicht zwar diesseits der algorithmischen Rationalität, in epistemologischer Hinsicht aber jenseits von dessen Möglichkeiten. Deren Grenzen werden durch den Mythos einer in der ›Tiefe‹ der Programme operierenden Künstlichen Intelligenz allerdings ver- deckt. Bei neuronalen Netzen, als deep learning metaphorisiert, funktioniert das deep wie eine Art Deckerinnerung, die die Voraussetzungen von Interpretation und Klassifikation verdrängt. Als Voraussetzung der Emotion Recognition ist das FACS gleichsam in derselben Position wie das Training neuronaler Netze, der sogenannten selbstlernenden Programme41, bei denen die bedeutungsgebenden Komponenten im Mythos der Undurchschaubarkeit gern vergessen werden: wie Training, Zielvorgabe und vor allem die standardisierten Datensätze – das sind 40 Timon Beyes, Claus Pias, »Transparenz und Geheimnis«, in: Zeitschrift für Kulturwissenschaf- ten, 2/2014, S. 115. 41 Zur Übersicht über die supervised und non-supervised Verfahren in diesem Gebiet vgl. Jeffrey F. Cohn, Fernando De la Torre, »Automated Face Analysis for Affective Computing«, in: Rafael L. Calvo et al. (Hg.), Oxford Handbook of Affective Computing, Oxford 2015, S. 131–150.
Der konventionelle Code als buckliger Zwerg im Dienste der Emotion Recognition. 61 im Falle von facial expression-Studien Photographien mit »different emotional states« 42, die auf Grundlage des FACS hergestellt wurden. Es sind solche klassi- fizierenden Vor-Urteile im buchstäblichen Sinne, die wesentlich zum rekursiven Charakter der Ergebnisse ›selbstlernender Programme‹ beitragen. Affective Computing – das Referenzproblem als Symptom des Geltungsbereichs Die Ikonographie des FACS ist – bei wechselnden Bildmedien – relativ konstant. Es sind Muster-Gesichter im doppelten Sinne: Bewegungsmuster als Prototypen von Basisemotionen. Gezeigt werden sechs Porträts von Gesichtern mit der Pose eines übertriebenen Gesichtsausdrucks, die jeweils mit einem Begriff aus dem Katalog der Emotionen bezeichnet werden. Diese Anordnung entspricht der Kon- vention, dass die Bildunterschrift benennt, was das Bild zeigt. Da die Porträts tat- sächlich aber verschiedene mimische Stereotypen zeigen, nicht Emotionen, liegt hier eine fundamentale Verkennung von Referenz vor, Symptom des Geltungs- problems digitaler Zugriffe auf das menschliche Gesicht, wo diese den Bezug auf physiologische Merkmale überschreiten. Abb. 5: FACS basic emotion Abb. 6: Cohn-Kanade Dataset (nach Ekman) 42 Farhad Arbabzadah et al., »Identifying Individual Facial Expressions by Deconstructing a Neural Network«, in: Bodo Rosenhahn, Björn Andres (Hg.), Pattern Recognition. 38th German confrenernce, GCPR 2016, Springer 2016, S. 344–354. Das Papier entstand im Umfeld einer Ar- beitsgruppe um Klaus-Robert Müller (TU Berlin), die an der Visualisierung der Kriterien arbeitet, nach denen neuronale Netze ›entscheiden‹; in den entsprechenden Artikeln wird die entschei- dende Bedeutung des Trainings deutlich; vgl. Sebastian Lapuschkin u.a., »Understanding and Comparing Deep Neural Networks for Age and Gender Classification«, presented at 7th IEEE International Workshop on Analysis and Modeling of Faces and Gestures, arXiv:1708.07689v1, 25.08.2017.
62 Sigrid Weigel Diese Verkennung der unhintergehbaren Differenz zwischen messbaren physiologischen Phänomenen, die als Daten angeschrieben werden können (wie Herzfrequenz, Temperatur, Blutdruck), und Indikatoren, bei denen sicht- bare oder messbare Merkmale als Anzeichen für andere Phänomene, die sich dem direkten empirischen Zugriff entziehen, interpretiert werden, ist Grundlage, Voraussetzung und Möglichkeitsbedingung der Emotion Recognition. Wie so oft, scheint dieses Problem in der Entwicklungsphase neuer Systeme noch auf, wird mit deren Durchsetzung und Verbreitung aber verdrängt. Ähnlich wie hilfreiche Metaphern, die bei der Erkundung bisher verschlossener Wissenswelten genutzt werden, im Zuge der Etablierung eines neuen Spezialgebietes sich zum Begriff verfestigen, während ihr ›so wie‹-Status dabei in Vergessenheit gerät, – wie Hans Blumenberg an der Genese des genetischen Codes exemplarisch herausgearbei- tet hat.43 Eine solche Dynamik ist auch beim Zugriff auf Emotionen in der Etablie- rung des Affective Computing zu beobachten. Im »Technical Report No. 321« der M.I.T. Media Laboratory Perceptual Com- puting Section, der als Gründungsdokument des Affective Computing gelten kann, setzt die Autorin Rosalind Picard mit der weitreichenden Vision ein, gefühlsbe- gabte Computer zu entwickeln: »Computers are beginning to acquire the ability to express and recognize affect, and may soon be given the ability to ›have emo- tions‹.« Die neurowissenschaftliche Erkenntnis über die Rolle von Emotionen für Kognition und Wahrnehmung mache es erforderlich, dass »affective computer« nicht nur bessere Assistenzleistungen für Menschen böten, sondern die Fähigkeit von Computern zum decision making weiterentwickelt werde. Daraus begründet sich das neue Forschungsfeld, umschrieben als: »computing that relates to, arises from, or influences emotions.« 44 Die Anführungszeichen um »have emotions« im Eingangssatz markieren die Aussage als metaphorische Beschreibung und signa- lisieren so eine gewisse Reserve gegenüber der Behauptung, Computer könnten tatsächlich Emotionen haben. In diesem Punkt zeichnet sich das Papier allerdings durch eine bemerkenswerte Unschärfe aus: an manchen Stellen wird die Formu- lierung gleichlautend wiederholt, an anderen Stellen wird sie als Aussage »only in a descriptive sense« ausgegeben, analog zu Debatten »about machines having consciousness« 45. Dasselbe betrifft die Aussage über »computers being able to 43 Hans Blumenberg, »Der genetische Code und seine Leser«, in: Die Lesbarkeit der Welt. Frankfurt/M. 1981, S. 372–409; Sigrid Weigel, »Der Text der Genetik zwischen Metaphorik und Algorithmus«, in: Genea-Logik. Generation, Tradition und Evolution zwischen Kultur- und Natur- wissenschaften, München 2006, S. 235–262. 44 R.W. Picard, M.I.T. Media Laboratory Perceptual Computing Section Technical Report Nr. 321, 1995, S. 1, auch R. W. Picard, Affective Computing, Cambridge (MA) 1997. 45 R. W. Picard, Technical Report, S. 9.
Der konventionelle Code als buckliger Zwerg im Dienste der Emotion Recognition. 63 recognize emotion, and to induce emotion« 46, eine Formulierung, die an anderer Stelle in Anführungszeichen gesetzt und relativiert wird, ohne dass die Differenz zwischen erkennen und messen auch nur annähernd reflektiert würde: »Thus, i may speak of ›recognize emotions‹, but this should be interpreted as ›measuring observations of motor system behavior that correspond with high probability to an underlying emotion or combination of emotions.‹« 47 Für ihre Substitution von Gefühlserkennung durch Vermessungsmethoden verwendet die Computerwissenschaftlerin Picard im Wesentlichen zwei Konzepte aus der empirischen Emotionsforschung: sentic state und facial expression. Mit ersterem bezieht sie sich auf den Neurowissenschaftler und Musiker Manfred Clynes, den Erfinder des »Sentic Cycle«, in dem unterschiedlichen emotiona- len Zuständen eine Skala neurophysiologischer Werte (etwa durch Fingerdruck) zugeordnet und in Gestalt von Kurven dargestellt wird;48 bekannt wurde Clynes besonders durch empirische Forschungen zu neurophysiologischen Grundlagen musikalischer Ausdrucksformen und der These, dass jedem Komponisten (klas- sischer Musik) ein eigener »emotional pulse« eigen sei49. Clynes Ideen empfehlen sich der Informatik u.a. durch ihre Metaphorik, etwa in der Idee, dass der Aus- druck eines ›sentischen Zustands‹ von einem »spezifischem Gehirnprogramm oder Algorithmus gesteuert« werde, einer ›sentischen Form‹.50 Mit Picards sentic state schrumpft sein komplexer Erklärungszusammenhang aber auf eine mess- bare Kategorie zusammen. Zudem sind für Picard sentic state, emotional state und affective state austauschbar51, – womit die Differenzen zwischen Sensorik (sentic), Erregung (affective) und Gefühlen eingeebnet werden. Auf diese Weise gewinnt sie einen Parameter für die Entwicklung von Programmen zur automati- sierten Messung physiologischer Merkmale. Hervorgegangen ist daraus zunächst ein Patent für die Erfassung der elektrodermalen Aktivität (skin conductivity), in der Psychologie als vegetativer Indikator psychophysischer Erregung betrachtet, und im Folgenden die Firmengründung Empatica. Diese produziert u.a. tragbare Geräte (wearables) im Design von Armbanduhren, die der Erkennung epilepti- scher Anfälle dienen sollen; beworben werden diese wie folgt: »groundbreaking technology to detect possible generalized tonic-clonic seizures, and immedialtely 46 Ebd., S. 8. 47 Ebd., S. 6. 48 Manfred Clynes, »The communication of emotion: theory of sentics«, in: Robert Plutchik, Henry Kellerman (Hg.), Emotion: Theory, Research and Experience, New York, 1980, S. 271–300. 49 Manfred Clynes, Sentics. The Touch of the Emotions, New York 1977; dt. Auf den Spuren der Emotionen, Freiburg 1996. 50 Manfred Clynes, Auf den Spuren der Emotionen, a.a.O., S. 60. 51 Ebd., S. 5.
64 Sigrid Weigel alert caregivers« 52. Diese gehören zur Wachstumsbranche der IT-Produkte zum Neuro-Tracking,53 die sich letztlich als digitale Aufrüstung der mechanischen méthode graphique54 darstellt, mit der die empirische Forschung im 19. Jahrhun- dert durch die Aufzeichnung physiologischer Phänomene mithilfe von Appara- turen wie z.B. Sphymograph (Pulsschreiber) oder Myograph (Registrierung von Muskelkontraktionen) enorm an Fahrt gewann. Für das andere Konzept, für facial expression, das Picard für die Erkennung des »emotional state« oder auch der »sentic modulation« nutzt, bezieht sie sich auf das FACS von Ekman sowie auf Duchenne des Boulogne; letzterer gilt in der empirischen Psychologie gemeinhin als derjenige, der mit seinen Experimen- ten zur elektrischen Stimulierung von Kontraktionen der fazialen Muskulatur55 die Existenz einer nicht-willkürlichen Bewegung dieser Muskulatur entdeckt und bewiesen habe. Wenn Picard diese aber als expressive Gesichtsmuskulatur bezeichnet, dann werden die durch Reiz stimulierten Kontraktionen mit einem Gefühlsausdruck kurzgeschlossen, – womit das Konzept handhabbar wird für die digitale De- und Encodierung, nicht nur für Algorithmus-gesteuerte Gefühlser- kennung, sondern auch für die künstliche Mimik von Computern: »Emotion-mo- deled faces can be used to give computers graphical faces which mimic these precise expressions identified by Ekman, making the computer faces seem more human.«56 Aus den Computern, die »Emotionen haben«, sind damit Computer geworden, deren Nachahmung der FACS-Mustergesichter sie menschenähnlicher erscheinen lassen sollen. Aus diesem Teil des Affective computing-Projekts ist eine weitaus lukrativere Firmengründung hervorgegangen, Affectiva, »providing emotion AI technolo- gies«, wie es auf der Homepage von Picard, derweil Professorin für Media Arts and Sciences, heißt.57 Affectiva ist eine der weltweit führenden Firmen im Bereich 52 https://www.empatica.com/en-eu/ (letzter Zugriff: 07.03.2020). 53 Zur damit verbundenen Tendenz zum »vermessenen Leben« vgl. den Forschungsbericht des interdisziplinären Teams von Vera King, Benigna Gerisch et al., »Psychische Bedeutungen des digitalen Messens, Zählens und Vergleichens«, in: Digitalisierung, Folgen für Psyche und Kultur, in: Psyche, Nr. 9/10, (2019) S. 744–770. 54 Etienne-Jules Marey, La méthode graphique dans les sciences expérimentales et principale- ment en physiologie et en médicine, Paris 1878. 55 Auf Duchenne de Bologne geht auch die auf Emotionen referierende Nomenklatur für die fa- ziale Muskulatur zurück, mit deren er Muskulatur und Gefühle kurzschließt. Zur tautologischen Anlage seines Mécanisme de la physionomie humaine ou analyse électro-physiologique de l’ex- pression des passions (1861), vgl. Sigrid Weigel, »Gesichter – Zwischen Spur und Bild, Codierung und Vermessung«, a.a.O., S. 99–105. 56 Picard, Technical Report, a.a.O., S. 5. 57 https://www.media.mit.edu/people/picard/overview/ (letzter Zugriff: 07.03.2020).
Der konventionelle Code als buckliger Zwerg im Dienste der Emotion Recognition. 65 der IT-Produkte zur Emotion Recognition, vornehmlich für »consumer emotio- nal responses«. Beworben werden diese mit dem weitreichenden Anspruch, die Künstliche Intelligenz mit emotionaler Intelligenz auszustatten: »We knew that if AI had emotional intelligence, it could interact with humans in the same way that people engage with one another. We also knew that this was an underserved area of AI, and quickly fnd ourselves at a new frontier. We deliberately set out to name and define the space, to seed and lead the market. Artificial emotional intelligence, or Emotion AI, was born.«58 Während es heißt, dass die Produkte der emotion AI »komplexe menschliche Zustände« analysieren, werden letztere tatsächlich auf die Stereotypen des Gefühlscodes reduziert, um sie an die Datenlogik algorithmischer Rationalität anzupassen. Auffällig ist in der zitierten Passage die Verschiebung von einem psychologischen Begriff (emotionale Intelligenz) über einen Gegenstand der Informatik (Künstliche emotionale Intelligenz) zu emotion AI, einem Branchenti- tel der IT-Produkte. Durch diese rhetorische Operation wird im Effekt der Gegen- stand digitaler Erkennungs-Technologie, nämlich Gefühle, als qualitatives Ver- mögen der Technologie selbst zugeschrieben. Damit stellt sich die Frage nach der Art der Intelligenz, die der emotion AI zukommt, anders gefragt danach, was sich mit der Künstlichen Intelligenz im Zuge ihrer Anwendung auf Phänomene ereignet, die mit Helmut Plessner zu den »meßfremden Eigenschaften der körperlichen Natur«59 gehören. Wenn Plessner 1928 schon konstatierte, dass die Wissenschaften in ihrer »Identifizierung von Körperlichkeit und Ausdehnung, physischem Dasein und Meßbaren« für die meßfremden Eigenschaften »blind geworden« seien, so gilt das für die Zeitalter der Digitalisierung umso mehr. Das gesamte Gebiet der emotion AI übt sich in vollständiger Ignoranz gegenüber dem epistemischen Problem, das Sigmund Freud in seinem Entwurf einer naturwissenschaftlichen Psychologie (1895) als fundamentalen Bruch zwischen dem Quantitäts- und dem Qualitätsparadigma erörtert hat.60 Nur so ist es möglich, messfremde Eigenschaften umstandslos der algorithmischen Rationalität zu unterwerfen und deren Logik anzupassen. Diese Art Anpassung schlägt sich auch in der Rhetorik nieder, wenn auf der Homepage 58 https://blog.affectiva.com/our-evolution-from-emotion-ai-to-human-perception-ai (letzter Zugriff: 07.03.2020) [Hervorh. SW]. 59 Helmuth Plessner, Die Stufen des Organischen und der Mensch (1928). Frankfurt/M. 1981, S. 83. 60 Vgl. Sigrid Weigel, »Embodiment in Simulation Theory and Cultural Science, with Remarks on the Coding-Problem of Neuroscience«, in: Sigrid Weigel, Gerhard Schabert (Hg.), A Neuro-Psy- choanalytical Dialogue for Bridging Freud and the Neurosciences, Springer 2016, S. 52 ff.
66 Sigrid Weigel von Affectiva beispielsweise die Menschen selbst zu programmierten Systemen werden: »The human face provides a rich canvas for our emotions, as we are inna- tely programmed to express and communicate emotion through facial expressi- on.«61 Das Gesicht des anthropos als Leinwand programmierter Emotionen. In seinem Essay Über die Dummheit hat Robert Musil unter anderem einen Begriff anspruchsvoller, höherer Dummheit entwickelt. Jeder Art von Dummheit gehöre zu einer bestimmten Art von Leistung, so Musil: »Wenn die Dummheit nicht dem Fortschritt, dem Talent, der Hoffnung oder der Verbesse- rung zum Verwechseln ähnlich sähe, würde niemand dumm sein wollen [...] die anspruchs- volle höhere (Dummheit) [….] ist nicht sowohl ein Mangel an Intelligenz als vielmehr deren Versagen aus dem Grunde, dass sie sich Leistungen anmaßt, die ihr nicht zustehen.«62 Im Anschluss an Musils Umschreibung anspruchsvoller höherer Dummheit müssen die beschriebenen Applikationen der emotion AI, die sich anmaßen, Aus- kunft über die Gefühle derjenigen Personen zu geben, deren Gesichter sie auf- zeichnen, als Geräte künstlicher Dummheit bewertet werden. Diese Art Dumm- heit ist nicht erst der gesellschaftlichen Anwendung geschuldet, wie in jenen Systemen künstlicher Dummheit, von denen Hito Steyerl spricht: »Als Systeme künstlicher Dummheit bezeichne ich jene, die die Automatisierung ganzer Branchen vorantreiben, ohne dass über Alternativen für die Beschäftigten nachgedacht wird, die ganze Bevölkerungsgruppen überflüssig machen. Systeme, die zu Frustration und großen Verwerfungen führen. […] Dieser Plattformkapitalismus reorganisiert die ganze Gesellschaft auf radikale und dumme Weise und führt zu Wahlsiegen etwa von Trump.«63 Die höhere Dummheit von Programmen Künstlicher Intelligenz liegt in deren Logik selbst, wenn, wie im Falle der Emotion Recognition, avancierte Algorith- men, die u.a. die digitale Bildbearbeitung von bewegten Gesichtern leisten, mit einer schlichten Korrelation kombiniert werden, wenn im Innern eines aufwen- digen IT-Produkts ein buckliger Zwerg hockt und die Züge lenkt. Im Falle der emotion AI ist das FACS der Dummheits-Koeffizient; anders gesagt beerben die Programme der Emotion Recognition jene Kurzschlüsse und Reduktionen, die bereits dem FACS eignen. 61 https://www.affectiva.com/emotion-ai-overview/ (letzter Zugriff: 05.07.2017) [Hervorh. SW]. 62 Robert Musil, Über die Dummheit, [1937], Berlin 2001, S. 5 u. S. 53. 63 »Hito Steyerl im Interview: Ist das Museum ein Schlachtfeld?«, von Carolin Wiedemann, in: Frankfurter Allgemeine Zeitung, 27.12.2016.
Sie können auch lesen