Mathematik, Machine Learning und Artificial Intelligence - De ...

Die Seite wird erstellt Stefan Bode
 
WEITER LESEN
Mathematik, Machine Learning und Artificial Intelligence - De ...
Mathematik, Machine Learning
                               und Artificial Intelligence
                                                  Sebastian Pokutta

     Machine Learning (ML) und Artificial Intelligence (AI) haben in den letzten Jahren enorme Aufmerksamkeit in der
      Wissenschaft, der Presse und der Öffentlichkeit erfahren. Dies liegt nicht nur an dem Vorstellungsvermögen des
   Einzelnen, was denn nun diese neue Technologie an Möglichkeiten und – beflügelt durch den letzten Terminator-Film –
   Gefahren mit sich bringen mag, sondern insbesondere daran, dass ML/AI bemerkenswerte Erfolge vorzuweisen hat und
         das Potenzial besitzt eine Revolution der Wissenschaft, im Kuhnschen Sinne , herbeizuführen: von einem
                                 Modell-getriebenen zu einem Daten-getriebenen Paradigma.

Vorbemerkung. Ich verwende die Begriffe Machine Learning      Ansätzen geht es oft um die Rekonstruktion von fehlenden
(ML), Artificial Intelligence (AI) und Data Science (DS) im   Inhalten (z. B. um die realistische Ersetzung fehlender Teile
austauschbaren Sinne. Auch wenn sich diese Begriffe je nach   in Bildern ) als auch um die Erzeugung von fiktiven Inhal-
Fachgebiet etwas unterscheiden, dient die Unterscheidung      ten (z. B. Deep Fakes, bei denen realistische Videos künstlich
im öffentlichen Diskurs oft eher dem Marketing als der        erzeugt werden ). In Computer Vision wurden in einigen
inhaltlichen Differenzierung.                                 Benchmarks früh Ergebnisse erzielt, die weit über die Leis-
                                                              tungsfähigkeit des Menschen hinausgingen. Die Anwendun-
                                                              gen dieser Methoden sind vielseitig. Kanonische Beispiele
ML Erfolgsbeispiele                                           sind visuelle Systeme im Autonomen Fahren (z. B. Erken-
                                                              nung von Verkehrszeichen, Fußgängern und Fahrzeugen)
Beispiel  – Computer Vision                                  und medizinische Diagnostik (z. B. Krebsfrüherkennung
Eines der frühen Felder, in denen sogenannte Deep Convolu-    und CT/MRI Interpretation). ML in Computer Vision ist
tional/Neural Networks – eine der Kerntechniken im moder-     auch erfolgreich in die Kunst vorgedrungen und die erste
nen ML – überraschende Erfolge vorzuweisen hatten, ist der    erfolgreiche Auktion von AI-generierter Kunst fand 
Bereich Computer Vision. Oftmals geht es bei sogenannten      bei Christie’s statt; das Bild wurde für $  versteigert.
diskriminativen Ansätzen um Objekterkennung (z. B. Erken-
nen von Verkehrszeichen), Gesichtserkennung (z. B. Iden-      Beispiel  – Protein Folding
tifikation beim Flugzeug-Boarden), Nachverfolgung von         Proteine sind „Bausteine aller Lebensformen“. Nobelpreis-
Objekten in Videos (z. B. räumliche Zuordnung von Fahr-       träger Christian Anfinsen postulierte, dass die energie-
zeugen und Personen im Verkehrsraum). Bei generativen         minimale Faltung eines Proteins im D-Raum durch sei-
                                                                                        Abbildung: teguhjatipras, Creative Commons, CC .

DOI ./dmvm--                                                                                                                    
Mathematik, Machine Learning und Artificial Intelligence - De ...
Proteinkomplex (Abbildung: Opabinia regalis (CC BY-SA ., creativecommons.org/licenses/by-sa/.)

      ne Aminosäuresequenz bestimmt sei. Dies führte zu dem                ob der Komplexität von Go, für unmöglich gehalten zu
      sogenannten Protein Folding Problem: Gegeben eine Ami-                nennen. Andere Beispiele sind Multi-Agenten Modelle, die
      nosäuresequenz, was ist die energieminimale Faltung? Das              selbständig komplexe Verhalten beim „Versteckenspielen“
      Protein Folding Problem ist eines der größten ungelösten Pro-         rein durch Belohnung bei erfolgreichem „Verstecken“ bzw.
      bleme in der Biologie. Projekte wie Folding@Home nut-               „Finden“ lernen. Darüber hinaus gibt es starke Parallelen
      zen die Rechenressourcen ungenutzter Computer in aller                zwischen Reinforcement Learning und der Rolle von Dopa-
      Welt, um Tausende von Proteinen in aufwendigen Simulatio-             min beim menschlichen Lernen.
      nen zu falten. Vor wenigen Wochen hat Deepmind, ein AI-
      Forschungslabor aus Großbritannien, welches seit  zu               Beispiel  – Natural Language Processing
      Google gehört, bekanntgegeben, das Protein Folding Problem             ML/AI-Ansätze waren auch bei der Verarbeitung natürli-
      mit Hilfe von AI gelöst zu haben. Stark vereinfacht gesagt           cher Sprache äußerst erfolgreich und eine besondere An-
      werden hier Konfigurationen nicht aussimuliert, sondern                wendung ist die Übersetzung. Mittlerweile gibt es sehr leis-
      die finale Konfiguration „vorhergesagt“; der Vollständig-              tungsfähige Tools wie DeepL oder Google Translate , die
      keit halber ist zu erwähnen, dass Deepmind’s Ergebnisse                qualitativ hochwertige Übersetzungen zwischen verschiede-
      noch nicht peer-reviewed sind. Bestätigen sich die Ergebnisse          nen Sprachpaaren anbieten und oft an professionelle Über-
      jedoch, so wären die Auswirkungen in Medizin, Biologe,                 setzer herankommen oder mit ihnen konkurrieren. Selbst
      Genetik, etc. enorm.                                                   die komplexesten Sprachen können mit Ansätzen der künst-
                                                                             lichen Intelligenz angegangen werden: Bereits  gelang
      Beispiel  – Reinforcement Learning und Lernen von                     es Google , ein Neuronales Netzwerk zu trainieren, dessen
      komplexen Dynamiken                                                    Übersetzungsgenauigkeit für Chinesisch–Englisch an das
      Reinforcement Learning ist ein maschineller Lernansatz, bei            Niveau menschlicher Übersetzer herankommt; eine höchst
      dem ein Algorithmus automatisch lernt und seine eigenen                nicht triviale Aufgabe, wenn man bedenkt, dass Chinesisch,
      Fähigkeiten verbessert. Dieser Prozess wird als Reinforce-             wie die meisten asiatischen Sprachen, eine stark kontextab-
      ment Learning bezeichnet und wird häufig in Bereichen wie              hängige Sprache ist.
      Suche und Robotik eingesetzt.                                              Der obige Absatz ist eine solche Übersetzung aus dem
         Eine der Schlüsselideen des Reinforcement Learning ist,             Englischen verbatim durch DeepL; Fußnoten und Formatie-
      dass es ein Belohnungssignal verwendet, um das Verhalten               rung wurden nachträglich eingefügt. Das englische Original
      eines Algorithmus zu steuern. Dieses Signal ist normaler-              lautete:
      weise eine Belohnung (typischerweise eine Belohnung aus
      der Umgebung), die der Algorithmus erhält, wenn er eine                     ML/AI approaches have been also extremely success-
      Aufgabe ausführt. Dieses Signal kann verwendet werden,                      ful in natural language processing and one particu-
      um einen Algorithmus zu motivieren, die Aufgabe weiterhin                   lar application is translation. By now, there are very
      auszuführen.                                                                powerful tools out there such as DeepL or Google
         Die Erfolge, die mit Reinforcement Learning erzielt wer-                 Translate that offer high quality translations between
      den konnten, sind beeindruckend. So gilt es, AlphaGo‘s Sieg                 different language pairs, often getting close or rival-
      gegen den Go-Weltmeister Lee Sedol , zu dem Zeitpunkt,                    ing professional translators. Even the most complex


Mathematik, Machine Learning und Artificial Intelligence - De ...
languages can be tackled using artificial intelligence      sogenannte Empirical Risk Minimization Problem, welches
     approaches: already in  Google managed to train         in der einen oder anderen Form in allen oben genannten
     a neural network whose translation accuracy for Chi-        Beispielen auftaucht. Die Darstellung wurde hier bewusst
     nese to English approaches the level of human trans-        vereinfacht ohne Referenzen zu einzeln akademischen Ar-
     lators; a highly non-trivial task given that Chinese, as    tikeln gegeben, um Verzerrungen jeglicher Art zu vermei-
     most Asian languages, is a highly context-dependent         den. Für weitere Probleme und Berührungspunkte seien
     language.                                                   die Lesenden an einen Übersichtsartikel in SIAM News
                                                                 verwiesen.
Dann gibt es noch generative Sprachmodelle wie GPT- ,
die Texte aus einem einfachen „Seed“ Satz generieren, mit        Empirical Risk Minimization (ERM) Problem
dem das Modell „angestoßen“ wird. Dies klingt erstmal            Gegeben endlich viele Trainingsdaten I bestehend aus Paa-
unglaublich. Zur Demonstration, wie weit diese Technik           ren (x, y), wobei aus x ∈ Rm jeweils y ∈ R vorhergesagt wer-
fortgeschritten ist, habe ich die ersten beiden Absätze des      den soll, suchen wir ein Modell f parametrisiert durch einen
obigen Beispiels  mittels einem deutlich einfacheren, aber      Vektor θ, welches die „beste“ Vorhersage liefert:
frei verfügbaren GPT- Modell erzeugt, welches mit dem
Satzanfang „Reinforcement Learning is a machine learning                                1 X
                                                                                   min          |y − f (x, θ)|2 .      (ERM)
approach“ gespeist wurde und dann ausgab:                                            θ |I|
                                                                                         (x,y)∈I

     Reinforcement Learning is a machine learning ap-            Die Funktion f in (ERM) kann durchaus einfach (z. B. eine
     proach that uses an algorithm to automatically learn        lineare Funktion) oder aber sehr komplex (z. B. ein Neuro-
     and improve its own capabilities. This process is           nales Netzwerk) sein. Ein konkretes, einfaches Beispiel für
     called reinforcement learning, and it is widely used        ein (ERM) Problem ist die lineare Regression, bei der wir
     in areas like search and robotics.                          abhängige Variablen y durch unabhängige Variablen x mit
     One of the key ideas of Reinforcement Learning is           Hilfe eines linearen Modells erklären möchten:
     that it uses a reward signal to help guide an algo-
                                                                                        1 X
     rithm’s behavior. This signal is typically a reward                            min         |y − θ T x|2 .      (linReg)
                                                                                     θ |I|
     (typically a reward from the environment) that the                                    (x,y)∈I
     algorithm receives when it performs a task. This sig-
     nal can be used to motivate an algorithm to continue        Hier sind θ einfach die Koeffizienten des Normalenvektors
     to perform the task, and it                                 der Hyperebene.
                                                                    Das (ERM)-Problem ist zentral in ML und bringt viele
Ich habe dann den letzten Satz beendet durch Entfernen           mathematische Fragen mit sich, welche Gegenstand aktiver
von „ , and it“ und dann mit DeepL zurück ins Deutsche           Forschung sind. Im Folgenden taucht mehrfach der Begriff
übersetzt. Die Lesenden mögen das Resultat selbst beurtei-       „Neuronale Netze“ auf; die Lesenden mögen sich hier ein-
len. Das Ganze lässt sich auf die Spitze treiben: The Guar-      fach eine kontinuierliche, relativ komplexe aber gutartige
dian hatte einen vollständigen Artikel mit einem GPT-         Funktion f (·, θ) : Rn → R vorstellen, die durch den Vektor
Modell generiert und veröffentlicht; das Ergebnis ist beein-     θ parametrisiert ist und die als Funktion von θ ebenfalls
druckend.                                                        gutartig und fast überall differenzierbar ist.

                                                                 Wie kann (ERM) gelöst werden?
Die Rolle der Mathematik                                         Für spezifische Problemformulierungen, wie die der linea-
                                                                 ren Regression, können oft geschlossene Lösungen (Pseudo-
Was hat dies alles mit Mathematik zu tun? Machine Learning       Inverse im Falle von linearer Regression) hergeleitet werden.
kann als ein Teilgebiet der Mathematik betrachtet werden.        Im Allgemeinen jedoch ist (ERM) ein nicht-konvexes Opti-
Oder anders herum gesagt: die Mathematik ist (neben der          mierungsproblem, welches z. B. mit Gradientenabstiegsver-
Informatik und der Statistik) ein zentraler Bestandteil von      fahren lokal optimal gelöst werden kann. Dies ist z. B. der
Machine Learning. Oftmals wird ML auch als Hype, fern der        Fall, wenn f ein durch θ parametrisiertes Neuronales Netz
Mathematik, abgetan. Dabei wird jedoch vergessen, dass           ist. Viele Arbeiten in diesem Themenkomplex zielen darauf
die Ursprünge des Machine Learning in der Mathematik             ab, neue Methoden zu finden, die effizienter Informationen
liegen (Stichwort: Radon Transformation) und von Titanen         aus den Daten in das Netzwerk übertragen, da oftmals in
wie Kolmogorov, von Neumann, Turing oder Wiener vor-             Anwendungen in der realen Welt Trainingsdaten nur kosten-
angetrieben wurden. ML Forschung in Deutschland findet           intensiv generiert werden können: z. B. um MRT Daten zum
(überwiegend) an der Schnittstelle zwischen Mathematik,          Training von medizinischen Diagnostik-Systemen in einer
Informatik und Statistik (sofern sie isoliert betrachtet wird)   gewünschten Weise zu sammeln, müssen teure MRT Auf-
sowohl an Universitäten als auch außeruniversitären For-         nahmen von Patienten gemacht werden. Andere Fragen dre-
schungseinrichtungen statt.                                      hen sich um die Effizienz der Trainingsmethoden (zumeist
                                                                 Varianten vom Gradientenabstieg) bei extremen Datengrö-
Mathematik als rigoroses Fundament                               ßen und verteiltem Training. Hier zeigt sich zum Beispiel
Was kann also die Mathematik beitragen? Im Folgenden be-         der Vorsprung von Tesla, wo Daten der gesamten Fahrzeug-
trachten wir exemplarisch ein Standardproblem in ML, das         flotte aufgenommen und zum Training von Fahrerassistenz-

                                                                                                                                 
Mathematik, Machine Learning und Artificial Intelligence - De ...
systemen benutzt werden, welche dann wiederum per over-        Veränderung der Zuschauer erkennen konnte. Gelernt zu
      the-air Update in der gesamten Fahrzeugflotte aktualisiert     rechnen hatte Hans jedoch nicht; es sei angemerkt, dass ei-
      werden können: so ist ein dezentrales ML-System massiver       ne -köpfige wissenschaftliche Kommission aus Experten
      Größe entstanden; ein globaler Supercomputer auf Rädern        eingesetzt wurde, um das Phänomen aufzulösen, es aber
      mit mehr als   Fahrzeugen ( und  Zulas-        letztlich Kommissionsleiter Stumpf’s Studenten Pfungst ge-
      sungen), jedes mit AI-optimierter Hardware ausgestattet.     lang, das Phänomen zu erklären. Phänomene dieser Art
      Mathematisch gesehen ergeben sich spannende Fragen, was        stellen im Machine Learning ein reales Problem dar, da z. B.
      z. B. die Konvergenz und Effizienz eines asynchronen, dezen-   Neuronale Netze mit erstaunlicher Effizienz Seitenkanäle
      tralen, stochastischen Gradientabstiegs dieser Größe angeht.   wie Rauschen von verschiedenen Kameratypen in Bilddaten
      Tesla konnte das Problem der Trainingsdatengewinnung           lernen können. Hat nun eine Person nur Hunde mit einem
      über Scale (sprich: schiere Größe) lösen. Diesen Luxus hat     iPhone fotografiert und eine andere nur Katzen mit einem
      aber nicht jeder. Andere natürliche Fragen hier drehen sich    Android Phone, so kann ein Neuronales Netz augenschein-
      um die Erforschung von Algorithmen mit einer höheren           lich Katzen von Hunden unterscheiden gelernt haben; in
      sample-efficiency, um mit deutlich weniger Trainingsdaten      Realität hat es aber vielleicht nur gelernt, die beiden Kame-
      ML-Systeme trainieren zu können.                               ras anhand ihres Rauschmusters zu unterscheiden. Ebenso
                                                                     sind Fragen der „Fairness“ von Lösungen hier zu finden:
      Wie gut ist eine Lösung?                                       Wie stellt man sicher, dass z. B. ein Neuronales Netzwerk in
      Wenn (ERM) nicht-konvex ist, kann es viele global minima-      seinen Prognosen und Entscheidungen gewisse Personen-
      le Lösungen geben. Jedoch sind nicht alle Lösungen gleich      gruppen nicht systematisch diskriminiert oder bevorzugt?
      „gut“. Was wir suchen, sind Lösungen θ, die gut auf neu-
      en, ungesehenen Daten Vorhersagen treffen können. Dies         Welche Funktionen können überhaupt gelernt werden?
      bezeichnet man als Generalisierungsverhalten, und es ist       Bei genauerem Hinschauen sieht man, dass es sich bei (ERM)
      bisweilen nur ansatzweise verstanden, welche Lösungen gut      um ein Funktionsapproximationsproblem handelt. Man ver-
      generalisieren. Der Mensch ist z. B. exzellent, was das Ge-    sucht eine unbekannte Funktion zu approximieren, von
      neralisierungsverhalten angeht: es reichen wenige geschrie-    der nur einzelne Funktionsauswertungen, unsere Daten I,
      bene Beispiele des Buchstabens „A“ aus, damit der Mensch       bekannt sind. Damit führt die Reise schnell zu fundamen-
      im Folgenden zuverlässig den Buchstaben „A“ erkennen           talen Problemen wie dem Bias-Variance tradeoff  , eine Art
      kann, auch wenn er noch so unsauber geschrieben ist. Ty-       „Unschärferelation“ für das Lernen: Gegeben eine Punkt-
      pische ML Systeme hingegen brauchen Millionen von sol-         menge I, so gibt es immer ein Polynom, welches die Daten
      chen Trainingsbeispielen und moderate Abweichungen vom         perfekt erklärt bzw. approximiert mittels polynomieller In-
      „Standard-A“ können zu einer Verwirrung des Systems füh-       terpolation. Aber ein solches Polynom wird ungesehene
      ren. Viele Fragen in diesem Bereich führen zu Fragen in der    Daten nicht gut approximieren, da es nicht gut generali-
      Stochastik (wie gut approximiert die empirische Verteilung     siert (overfitting). Auf der anderen Seite kann man einfach
      der Lösungen die unbekannte echte?), der Statistik (wel-       eine Hyperebene durch die Daten legen. Ein solches Modell
      chen Bias, sprich welche impliziten Annahmen, induziert        wird die Daten nur mäßig erklären (underfitting), ist aber
      das Modell?) und Topologie (wie sieht die Mannigfaltigkeit     robust bezüglich ungesehener Daten. Wie aber findet man
      der Lösungen aus und welche Invarianten charakterisieren       ein Modell, was die Daten gut approximiert und ungesehe-
      solche mit guter Generalisierung?).                            ne Daten gut erklärt? Und welche Daten (bzw. unbekannte
                                                                     Funktionen) können mit welchen Funktionsklassen gut ap-
      Wie sieht die Struktur der Lösungen aus?                       proximiert werden? Hier sind viele der mathematischen
      Komplexe Neuronale Netze können Milliarden von Parame-         Fragen ungeklärt und bisher gewonnene Einsichten zumeist
      tern haben; damit ist θ in diesen Fällen extrem hochdimen-     empirischer Natur.
      sional. Abgesehen von der Herausforderung, ein solches
      (ERM) Problem zu lösen, wenn man eine Lösung berechnet         Mathematik im Dialog
      hat um z. B. Krebs in Röntgenbildern zu diagnostizieren,       Eine andere wichtige Aufgabe der Mathematik ist der Dia-
      wie erhält der Arzt eine „Erklärung“ für die Diagnose? Im      log mit benachbarten Feldern in der ML Forschung. Vie-
      Gegensatz zu einfacheren Modellen wie linearer Regressi-       le Ergebnisse und Erfolge basieren auf ad-hoc Ansätzen
      on können nicht einfach die Koeffizienten der Regression       mit unzureichender mathematischer Grundlage. Dies führt
      herangezogen werden. Eng damit verbunden sind Fragen           dann zu der unbefriedigenden Situation, in der eine gewis-
      der „Transparenz“ und „Verifikation“: wie stelle ich sicher,   se „Technik“ eine Aufgabe lösen kann, es aber unklar ist,
      dass z. B. ein Neuronales Netzwerk das tut was es tun soll     warum dem so ist oder wie diese Technik in andere Bereiche
      und nicht „irgendwo abguckt“? Dieses Problem lässt sich        übertragen werden kann.
      anhand des berühmten Klugen Hans verdeutlichen: An-              Die Mathematik kann in diesem Dialog viel leisten und
      fang des . Jahrhunderts gab es ein Pferd „Hans“, trainiert   mitgestalten. Andernorts wird dies bereits gelebt. Die ameri-
      durch den Mathematiklehrer Wilhelm von Osten, das an-          kanische National Science Foundation (NSF) hat vor Jahren
      scheinend Rechenaufgaben durch Klopfen mit dem Huf             die Transdisciplinary Research In Principles Of Data Science
      lösen konnte. Es stellte sich jedoch heraus, dass das Pferd    (TRIPODS) Initiative ins Leben gerufen, um transdiszi-
      gelernt hatte, die Mimik der Zuschauer bzw. des Trainers       plinäre Forschungszentren zwischen Informatik, Statistik
      zu „lesen“ und dann die richtige Antwort durch Mimik-          und Mathematik zu etablieren, und in der aktuellen Aus-


Abbildung: Wikimedia Commons
Der Kluge Hans wird geprüft. Im Hintergrund rechts Wilhelm von Osten (Karl Krall, Denkende Tiere. Leipzig , Tafel )

schreibung für NSF AI Zentren ist die Mathematik zentral               leichtgewichtigen Strukturen untersetzt werden. Eines der
verankert.                                                               größten Unterschiede zwischen Deutschland und z. B. den
                                                                         USA ist der unfassbare administrative Aufwand und die
Machine Learning in Deutschland                                          stark mangelnde Digitalisierung, dessen Implikationen im
Es gibt viele kluge Köpfe in Deutschland und ohne Fra-                   besonderen Maße in der Corona Pandemie sichtbar wur-
ge hat Deutschland seine international renommierten ML-                  den. Wenn es Deutschland gelänge, sein Potenzial zu ent-
Leuchttürme in Personen und Institutionen. Darüber hinaus                falten, hätten wir die Chance, in ML federführend zu wer-
haben die Verantwortlichen und die Politik (im weiteren                  den.
Sinne) verstanden, dass es sich bei ML um ein Feld handelt,                  Wie steht es denn um Machine Learning in Deutschland
welches für die technologische Entwicklung und den Wohl-                 heute? Wenn man über den Ist-Zustand spricht, so ist die
stand Deutschlands von zentraler Bedeutung ist. Es gibt                  Antwort: Nicht gut. Deutschland hängt im internationalen
verschiedenste Initiativen auf allen Ebenen, um Deutsch-                 Vergleich viele Jahre hinterher. Es fehlt ein breiter, nach-
land im Bereich ML stark zu machen und besser zu po-                     haltiger Austausch zwischen Industrie und Universitäten.
sitionieren; allen voran die KI-Strategie der Bundesregie-               Des Weiteren gibt es nur wenige Studiengänge, die wissen-
rung. Die DFG hat kürzlich ein Schwerpunktprogramm                       schaftlichen Nachwuchs relevant für ML ausbilden. So kön-
(SPP ) zum Thema „Theoretical Foundations of Deep                  nen Universitäten und Hochschulen ihre drei Kernaufgaben
Learning“ eingerichtet, um ML mit einem starken theoreti-                () Bildung, () Forschung und Innovation und () Transfer
schen Fundament zu untersetzen und es gibt verschiedenste                in Wirtschaft und Gesellschaft im Bereich ML (und damit
ML-Initiativen u. a. vom BMBF und BMWi . Komplemen-                  letztlich auch Mathematik) nur bedingt erfüllen. Während
tär dazu wird die Initiative für Nationales Hochleistungs-               () grundsätzlich gut aufgestellt ist, sind insbesondere ()
rechnen und der damit einhergehende NHR Verbund die                    und () Schwachstellen. Darüber hinaus findet ML popu-
Forschung (im Allgemeinen) mit massiven Compute Res-                     lärwissenschaftlich nicht die gleiche Beachtung wie andern-
sourcen unterstützen. Was den Austausch zwischen den                     orts, weshalb die meisten Referenzen hier aus dem englisch-
Universitäten und der Industrie betrifft, werden Marktkräf-              sprachigen Raum stammen. Der populärwissenschaftliche
te ihr Übriges tun. Es gibt viel Potenzial in Deutschland,               Diskurs ist jedoch wichtig, um Jugendliche und Nachwuchs
welches es zu realisieren gilt. Insbesondere müssen die oben             für ML und damit ein Stück mehr für die Mathematik zu
genannten Initiativen, mit entsprechenden flexiblen und                  begeistern.

                                                                                                                                                          
Zwei Konsequenzen daraus sind: (a) Der Mangel des            Schluss
      fachrelevanten Nachwuchses wird durch fachfremden                Abschließend lässt sich sagen, dass die deutsche Mathema-
      kompensiert, was dann dazu führt, dass mathematisch-             tik einen wesentlichen Beitrag in der ML Forschung leisten
      informatische Fragen unter anderem als ingenieurtechni-          kann, wenn sie denn möchte. Etwas schärfer formuliert
      sche Fragen fehlinterpretiert werden: wenn man (nur) einen       könnte man die Mathematik auch in der Verantwortung
      Hammer hat, muss alles ein Nagel sein. So lässt sich dann        sehen, hier ihren Beitrag zu leisten und die für sie vorge-
      auch (aber nicht ausschließlich) erklären, dass Tesla beim       sehene Rolle einzunehmen, um ML mit einem rigorosen
      Autonomen Fahren der traditionellen Automobilindustrie           Fundament zu untersetzen. Deutschland hat, wenn es denn
      viele Jahre voraus ist; wer einmal Einblick bei Tesla er-      seine Karten richtig spielt, die Chance in der ML Forschung
      halten hat, weiß, dass es sich nicht nur um Jahre handelt.       international wettbewerbsfähig zu sein. Es liegt aber auch
      (b) Deutschland hat keinerlei Internet-Giganten wie Goo-         noch einiges an Arbeit vor uns.
      gle, Facebook, Apple, Amazon, Microsoft, Alibaba, Huawei,
      Tencent vorzuweisen. Diese kooperieren aber eng mit For-         Danksagung
      schungseinrichtungen und tragen signifikant zur öffentlich       Ich bedanke mich sehr bei Heike Balluneit, Omid Nohada-
      frei verfügbaren (!) Grundlagenforschung im Bereich ML           ni, Marc Pfetsch und Tu-Lan Vu-Han für die hilfreichen
      bei; Google Research ist in einigen Statistiken mit Ab-      Kommentare zu einer frühen Version dieses Artikels.
      stand weltweit führend, was die Anzahl an Veröffentlichun-
      gen bei den Top ML Konferenzen „International Conference
      on Machine Learning (ICML)“ und „Conference on Neural
                                                                       Anmerkungen
      Information Processing Systems (NeurIPS)“ angeht. Dar-           . Ich benutze bewusst das Englische. Die deutschen Begriffe „Ma-
      über hinaus versorgen diese Giganten mit ihren akademi-          schinelles Lernen“ und „Künstliche Intelligenz“ sind nicht nur Überset-
      schen Programmen Universitäten und Forschungseinrich-            zungen, sondern Reduktionismen, die nur teilweise mit dem globalen
                                                                       Verständnis von ML und AI kongruent sind.
      tungen mit (oft kostenlosen) Compute Ressourcen, die in          . Thomas Kuhn. The Structure of Scientific Revolutions. ()
      der Forschung benötigt werden; dieses „giving back“ wird         . NVIDIA        Inpainting      Demo,      www.nvidia.com/research/
      hierzulande kritisch gesehen, zugleich höre ich aber, dass       inpainting/; Adobe Video Inpainting. /medium.com/syncedreview/
      Mathematiker-Kollegen ihre Modelle mangels Ressourcen            smooth-exclusion-new-adobe-algorithm-aces-video-inpainting-
                                                                       aced.
      nicht oder nur beschränkt rechnen können: die Forschung          . MIT Technology Review. The year deepfakes went main-
      wird ausgebremst. In Zahlen basierend auf einem Index an-        stream, www.technologyreview.com/////best-ai-
      gelehnt an den Nature Index und berechnet für Veröffent-       deepfakes-of-/; The Verge. All of these faces are fake celebri-
      lichungen bei ICML und NeurIPS kommt Deutschland mit             ties spawned by AI, www.theverge.com/////ai-
                                                                       generate-fake-faces-celebs-nvidia-gan
      einem Wert von , auf Platz  in einer kürzlich veröffent-     . Computer Vision applications in Self-Driving Cars,
      lichten Statistik. Der Spitzenreiter USA erreicht ,       becominghuman.ai/computer-vision-applications-in-self-driving-
      gefolgt von China (,) und UK (,); Google alleine         cars-e; Computer Vision makes Autonomous Vehicles
                                                                       intelligent and reliable, www.analyticsinsight.net/computer-vision-
      erreichte , gefolgt von der Stanford University (,),
                                                                       makes-autonomous-vehicles-intelligent-and-reliable/
      MIT (,) und UC Berkeley (,). Damit liegt Deutschland       . Nature Outlook, How AI is improving cancer diagnostics, www.
      als Ganzes gleichauf mit einzelnen Top US Universitäten;         nature.com/articles/d---; Siemens Health Solutions,
      die erste deutsche Einrichtung auf der Liste ist die Universi-   AI-Rad Companion, www.siemens-healthineers.com/digital-health-
                                                                       solutions/digital-solutions-overview/clinical-decision-support/ai-
      tät Tübingen auf Platz  mit einem Wert von ,. Dies ist
                                                                       rad-companion
      nur eine von vielen Statistiken, und ob man Veröffentlichun-     . Tensorflow Neural Style Transfer Tutorials, www.tensorflow.org/
      gen zählen sollte, ist fraglich. Allerdings führen ähnliche      tutorials/generative/style_transfer
      Vergleiche auch mit anderen Statistiken und Maßen zu ähn-        . Is artificial intelligence set to become art’s next medium?
                                                                       www.christies.com/features/A-collaboration-between-two-artists-
      lichen Ergebnissen. Der Kontrast wird nochmals deutlicher,       one-human-one-a-machine--.aspx
      wenn mit Gesamtausgaben für Forschung und Entwicklung          . Christian B. Anfinsen, Studies on the Principles that govern the
      – im internationalen Vergleich mit Total Research Expenditu-     Folding of Protein Chains, www.nobelprize.org/uploads///
      res (TRE) bezeichnet – diesen obigen Ausgangsgrößen eine         anfinsen-lecture.pdf
                                                                       . Folding@Home Project foldingathome.org
      Eingangsgröße gegenüber gestellt wird.                           . DeepMind AlphaFold deepmind.com/blog/article/alphafold-a-
          Wie kommen wir also weiter? Pauschalantworten hel-           solution-to-a--year-old-grand-challenge-in-biology
      fen nicht, vielleicht jedoch eines: Diskussionen hierzulande     . Wikipedia, AlphaGo versus Lee Sedol, en.wikipedia.org/wiki/
      sind oft durch ein Mindset of Scarcity (Gier, Neid und Angst)    AlphaGo_versus_Lee_Sedol; Deepmind, AlphaGo Case Studies,
                                                                       deepmind.com/research/case-studies/alphago-the-story-so-far
      geprägt, in denen alles als ein Nullsummenspiel erscheint.       . OpenAI, Emergent tool use, openai.com/blog/emergent-tool-use/
      Eine Nährung eines Mindset of Abundance, weg von einem           . Dabney et al., A distributional code for value in dopamine-based re-
      Gegeneinander hin zu einem Miteinander, würde für viele          inforcement learning, Nature (), www.nature.com/articles/s-
                                                                       --
      der Probleme einen Lösungsweg bereiten. Denn die Ma-
                                                                       . DeepL, www.deepl.com
      thematik in Deutschland hat durchaus das Potenzial, wie          . Google Translate, translate.google.com
      auch die historische Grundlage, dieses Miteinander aktiv         . Google AI Blog, A Neural Network for Machine Translation, at
      zu gestalten.                                                    Production Scale, ai.googleblog.com///a-neural-network-for-
                                                                       machine.html; Wired, An Infusion of AI Makes Google Translate Mo-
                                                                       re Powerful Than Ever, www.wired.com///google-claims-ai-
                                                                       breakthrough-machine-translation/
                                                                       . Forbes, What Is GPT- And Why Is It Revolutionizing Artificial


Intelligence? www.forbes.com/sites/bernardmarr////what-               nsf.gov/publications/pub_summ.jsp?ods_key=nsf
is-gpt--and-why-is-it-revolutionizing-artificial-intelligence/?sh=           . DFG SPP , www.dfg.de/foerderung/info_wissenschaft//
eea; OpenAI, API, openai.com/blog/openai-api/; MIT Tech-             info_wissenschaft__/index.html
nology Review, OpenAI’s new language generator GPT- is shockingly            . BMBF, Künstliche Intelligenz, www.bmbf.de/de/kuenstliche-
good – and completely mindless, www.technologyreview.com//                intelligenz-.html
///openai-machine-learning-language-generator-gpt-                 . BMWi, Künstliche Intelligenz, www.bmwi.de/Redaktion/DE/
-nlp/                                                                        Artikel/Technologie/kuenstliche-intelligenz.html
. Max Woolf. Train a GPT- Text-Generating Model w/ GPU (Co-                . NHR Geschäftsstelle, www.nhr-gs.de
lab Notebook). colab.research.google.com/drive/VLGeYSEwypxU-               . Aus eigener Erfahrung schätze ich den Faktor bei ca.  ein, je nach
noRNhsvdWNfTGce                                                             Aufgabe.
. The Guardian, A robot wrote this entire article. Are you scared yet,      . Forbes, Tesla Is Years Ahead Of Competitors With No Signs Of Stop-
human? www.theguardian.com/commentisfree//sep//robot-                   ping, www.forbes.com/sites/moorinsights////tesla-is-years-
wrote-this-article-gpt-                                                      ahead-of-competitors-with-no-signs-of-stopping/?sh=af
. SIAM News, The Connection Between Applied Mathematics and                 . Google Research. research.google
Deep Learning (), sinews.siam.org/Details-Page/the-connection-            . AI Research Rankings , Can the United States Stay Ahead
between-applied-mathematics-and-deep-learning.                                of China? chuvpilo.medium.com/ai-research-rankings--can-the-
. Statista, Number of Tesla vehicles delivered worldwide from th           united-states-stay-ahead-of-china-cfb
quarter  to th quarter , www.statista.com/statistics//         . Es gibt einen Punkt pro Artikel, der entsprechend Koautoren etc.
tesla-quarterly-vehicle-deliveries/                                           verteilt wird. Siehe [] und [] für genaue Definition.
. Zum Vergleich, der Supercomputer des ZIBs hat ca. , Kerne.          . Insights from the International Conference on Machine Learning
. Wikipedia, Clever Hans, simple.wikipedia.org/wiki/Clever_Hans             (ICML ), chuvpilo.medium.com/whos-ahead-in-ai-research-
. Wikipedia, Bias-Variance tradeoff, en.wikipedia.org/wiki/Bias%            in--dacd; AI Research Rankings , Can the
E%%variance_tradeoff                                                     United States Stay Ahead of China? chuvpilo.medium.com/ai-
. Wikipedia, Polynomial Interpolation, en.wikipedia.org/wiki/               research-rankings--can-the-united-states-stay-ahead-of-china-
Polynomial_interpolation                                                      cfb
. NSF. Transdisciplinary Research In Principles Of Data Science (TRI-       . Wikipedia, List of countries by research and development
PODS).                                                                        spending, en.wikipedia.org/wiki/List_of_countries_by_research_and_
. NSF, National Artificial Intelligence (AI) Research Institutes, www.      development_spending

                                                  Prof. Dr. Sebastian Pokutta, Zuse-Institut Berlin,
                                                             Takustraße ,  Berlin
                                                                   pokutta@zib.de

                      Sebastian Pokutta ist Professor für Mathematik mit Forschungsgebiet Optimierung und Machine Learning an
                       der TU Berlin und Vizepräsident des Zuse-Instituts Berlin. Zuvor war er der David M. McKenney Family
                        Associate Professor am Georgia Institute of Technology und Founding Associate Director des Center for
                        Machine Learning at Georgia Tech (ML@GT). Sebastian Pokutta hat sein Studium der Mathematik und
                                anschließende Promotion in Mathematik an der Universität Duisburg-Essen absolviert.

                                          Drei Exemplare der Nanokakerlake – weitgehend unerforscht
                                                               (Foto: Christoph Eyrich)

                                                                                                                                                        
Sie können auch lesen