Künstliche Intelligenz in der Bildanalyse - Grundlagen und neue Entwicklungen

Die Seite wird erstellt Hanna Franke
 
WEITER LESEN
Künstliche Intelligenz in der Bildanalyse - Grundlagen und neue Entwicklungen
Der Hautarzt
       Leitthema

      Hautarzt 2020 · 71:660–668                    Marc Pouly1 · Thomas Koller1 · Philippe Gottfrois2 · Simone Lionetti1
      https://doi.org/10.1007/s00105-020-04663-7    1
                                                        Informatik, Hochschule Luzern, Rotkreuz, Schweiz
      Online publiziert: 13. August 2020            2
                                                        Department of Biomedical Engineering, University of Basel, Allschwil, Schweiz
      © Der/die Autor(en) 2020

                                                    Künstliche Intelligenz in der
                                                    Bildanalyse – Grundlagen
                                                    und neue Entwicklungen

      Bildanalytische Verfahren der künst-          auf 130.000 klinischen Bildaufnahmen                     ne Handlungsempfehlung abgibt. Damit
      lichen Intelligenz erreichen heute in         mit über 2000 unterschiedlichen derma-                   war „AI Big Business in Health“ geboren!
      vielen Fällen die für den industriel-         tologischen Erscheinungen spezialisiert.                     In diesem Beitrag möchten wir Sie
      len und klinischen Einsatz geforderte         Drei Jahre später, im September 2019,                    zu einem kurzen Spaziergang durch die
      Genauigkeit und übertreffen sogar              veröffentlichte Google eine zur Dif-                      technische Entwicklung der modernen
      teilweise die Leistung menschlicher           ferenzialdiagnose über die 26 in der                     künstlichen Intelligenz einladen, die die-
      Experten. Die Autoren beschreiben             Erstversorgung häufigsten Hauterschei-                    se beeindruckendenResultate ermöglicht
      ihre rasante technische Entwicklung,          nungen befähigte künstliche Intelligenz,                 hat und fortschreitend den klinischen
      wie sich Deep Learning von klassi-            die erstmals Bildaufnahmen in Kombi-                     Alltag immer mehr durchdringen wird.
      schen Ansätzen des maschinellen               nation mit Anamnesedaten analysierte                     Alles begann zum Jahreswechsel 2016 –
      Lernens unterscheidet, erörtern die           [17]. Eine gleichzeitig erschienene Meta-                dem Annus Mirabilis der künstlichen In-
      Bedeutung von Transfer Learning               studie identifizierte 14 weitere Systeme,                 telligenz.
      für die Industrialisierung und folgen         die in einer externen Validierung den
      der aktuellen Forschung hin zu Ex-            Leistungen menschlicher Fachexperten                     2016 – Als Computer das Sehen
      plainable AI (Artificial Intelligence)         zumindest gleichkamen [16]. Im Januar                    lernten
      und dem Potenzial von Artificial               2020 übertraf eine künstliche Intelligenz
      Creativity.                                   von DeepMind 6 Radiologen in der                         Jedes Jahr treten die weltweit führenden
                                                    Früherkennung von Brustkrebs auf 500                     Forschungsgruppen in der Bildanalyse
      Im Januar 2017 sorgte eine Veröffentli-        histologisch geprüften Mammographie-                     an der berühmten ImageNet Challenge
      chung der Stanford University in Nature       aufnahmen, wobei die menschlichen                        gegeneinander an. ImageNet ist eine öf-
      für große mediale Aufmerksamkeit. Ein         Experten, wenn verfügbar, zusätzlich                     fentliche Bilddatenbank mit über 14 Mio.
      künstliche Intelligenz erreichte eine zu      auf Anamnesedaten und frühere Auf-                       Bildern, die von freiwilligen Helfern in
      21 menschlichen Dermatologen ver-             nahmen zurückgreifen durften [19].                       knapp 22.000 Kategorien eingeteilt wur-
      gleichbare Sensitivität und Spezifität in      Im März 2020 bestätigte eine klinische                   den, wobei für den Wettbewerb nur 1000
      der Unterscheidung zwischen „keratino-        Studie eine zu menschlichen Experten                     dieserKategorienverwendetwerden[20].
      cyte carcinomas“ und „benign seborrheic       3fach erhöhte Erfolgsrate einer künstli-                 Auf diesen Daten werden Modelle trai-
      keratoses“ sowie zwischen „malignant          chen Intelligenz in der Früherkennung                    niert und später auf einem geheim gehal-
      melanomas“ und „benign nevi“ auf his-         von Osteoporose bei Knochenbrüchen                       tenen Testset evaluiert. Da viele Bilder
      tologisch verifizierten Testbildern [1].       [10]. Mit diesen Forschungsresultaten                    Objekte mehrerer Kategorien zeigen, was
      Mehr noch als ihre Leistungsfähigkeit         einhergehend, entwickelte sich auch                      eine eindeutige Zuordnung unmöglich
      beeindruckte zum damaligen Zeitpunkt          deren Industrialisierung. Wegweisend                     macht, oder z. B. Hunderassen aufgrund
      die verwendete Methodik: Ein sog. neu-        dazu war die erstmalige Zulassung einer                  des Aufnahmewinkels nicht immer prä-
      ronales Netz wurde auf 1,41 Mio. Bildern      auf Bildanalyse mit künstlicher Intelli-                 zise unterschieden werden können, wer-
      von Alltagsgegenständen, Tieren, Pflan-        genz basierten Software zur Erkennung                    den sowohl die Top-1- wie auch die Top-
      zen und Personen trainiert und erlernte       von diabetischer Retinopathie durch die                  5-Fehlerraten der Modelle bestimmt. Bei
      so eigenständig die Erkennung von cha-        amerikanische Arzneimittelbehörde im                     der Top-5-Evaluation dürfen die Modelle
      rakteristischen Bildstrukturen. Anschlie-     April 2018 [9]. Es handelte es sich da-                  also 5 Kategorien für das Bild vorschla-
      ßend wurde das gleiche System nochmals        bei um einen Cloud Service, der ohne                     gen, unter denen sich die richtige Zuord-
                                                    menschliches Zutun eine Bildaufnahme                     nung befinden muss. Die . Abb. 1 zeigt
      Die Abb. 4 und 5 entstammen unseren eigenen   der Retina analysiert, den Schweregrad                   die Resultate der ImageNet-Gewinner
      Arbeiten.                                     bestimmt und dem Erstversorger ei-                       seit der erstmaligen Durchführung im

660    Der Hautarzt 9 · 2020
50%
         SIFT+FVs; 49%

   45%                   SVM 45%

                                                                                                Deep-Learning-Ära
   40%

                                      AlexNet 37%
                                                      ZFNet 36%
   35%

   30%                                                                   GoogleNet 30%
         SIFT+FVs 28%

                         SVM 26%
   25%

   20%
                                                                                         ResNet 19%
                                                                                                                 SEnet 16%
                                      AlexNet 16%
   15%                                                                                        GoogleNet v4 17%                           ResNext 15%
                                                                                                                                                        Bit-L 12%
                                                      ZFNet 12%
   10%                                                                                                                                                       FixEfficentNet 12%

                                                                         GoogleNet 7%
    5%
                                                                          ResNet 4%                               SEnet 2%
                                                                                                                                         ResNext 2%           FixEfficentNet 1%
                                                                                              GoogleNet v4 3%
    0%                                                                                                                                            Bit-L 2%
      2010                         2012                            2014                               2016                          2018                            2020
                                                    Fehlerrate (Top-1)           Fehlerrate (Top-5)          Menschliche Fehlerrate (Top-5)

Abb. 1 8 Top-1- und Top-5-Fehlerrate der ImageNet-Gewinnerteams seit Beginn des Wettbewerbs im Jahr 2010. Das
Top-1-Resultat von 2011 wurde nicht erhoben

Jahr 2010. Die menschliche Leistung in                    sen Daten gilt es nun, eine Abbildung                              nen. Mit diesen Verfahren lassen sich
der Bestimmung der korrekten Kategorie                    auf 1000 unterschiedliche Kategorien zu                            Linien, Kanten oder andere Grundstruk-
wird auf eine Top-5-Fehlerrate von 5,1 %                  erstellen, die sichinvariantbezüglichSka-                          turen hervorheben. Die . Abb. 2 zeigt
geschätzt [20]. Am 10.12.2015 verkünde-                   lierung oder Rotation der Bilder verhält.                          die Anwendung von Linien- und Kan-
te die New York Times den großen Durch-                   Bei einer durchschnittlichen Auflösung                              tenfilter auf eine Handaufnahme. Das
bruch [12]. Eine künstliche Intelligenz                   von 482 × 418 Pixel pro Bild in ImageNet                           geübte Auge erkennt dabei charakteris-
namens ResNet von Microsoft Research                      scheiden durch Menschen erstellte und                              tische Strukturen an den Außenseiten
[4] gewann die ImageNet Challenge und                     einprogrammierte Zuordnungsregeln als                              der Zeigefinger, die auf ein Handekzem
übertraf dabei erstmals die Schallmauer                   möglicher Ansatz sofort aus – oder kön-                            hinweisen. Andererseits würde sich die
der menschlichen Leistung.                                nen Sie aufgrund von 604.428 Zahlen                                Behaarung an den Handgelenken durch
                                                          einen Dalmatiner von einer Perserkatze                             äußerst ähnliche Strukturen manifestie-

»Intelligenz
     Eine moderne künstliche
             ist kein von Menschen
                                                          unterscheiden?                                                     ren, was uns einen guten Eindruck über
                                                                                                                             die Schwierigkeit der Kombination von
                                                          Maschinelles Lernen aus                                            Filterwerten hin zu komplexeren Merk-
erdachtes Regelwerk.                                      Merkmalen und Beispielen                                           malen vermittelt. Auch hier wäre die
                                                                                                                             manuelle Erstellung von Zuordnungsre-
Ein digitales Bild ist ein zweidimensio-                  Inspiriert durch das menschliche Ge-                               geln ein hoffnungsloses Unterfangen.
nales Raster von Farbwerten – sog. Pi-                    hirn, analysiert eine künstliche Intel-
xel. Meist wird der Farbraum RGB (Rot-
Grün-Blau) verwendet, sodass in jedem
                                                          ligenz Bilder in Zwischenstufen: Aus
                                                          den 3 Farbwerten pro Pixel werden                                  »Mustererkennung
                                                                                                                                Die Grundlage der
                                                                                                                                              bilden
Pixel der Rot-, Grün- und Blauanteil der                  zuerst einfache Strukturen, sogenann-
Farbe gespeichert wird. Die 3 Kanäle ent-                 te Features, extrahiert und zu immer                               mathematische Filteroperationen
sprechen dabei der Farbwahrnehmung                        komplexeren Merkmalen kombiniert,
des menschlichen Auges durch 3 ver-                       die schlussendlich die Erkennung ei-                               Ein früher verbreitetes Verfahren zur Ab-
schiedene Zelltypen. Für einen Com-                       ner Objektkategorie ermöglichen sollen.                            leitung komplexerer Merkmale bestand
puter besteht ein Bild also nur aus einer                 Die Grundlage der Feature-Berechnung                               darin, an markanten Stellen im Bild sog.
Zahlenmatrix pro Farbkanal. Aus die-                      bilden mathematische Filteroperatio-                               Deskriptoren zu berechnen, welche die

                                                                                                                                                        Der Hautarzt 9 · 2020   661
Zusammenfassung · Abstract

        Hautarzt 2020 · 71:660–668        https://doi.org/10.1007/s00105-020-04663-7
        © Der/die Autor(en) 2020

        M. Pouly · T. Koller · P. Gottfrois · S. Lionetti
        Künstliche Intelligenz in der Bildanalyse – Grundlagen und neue Entwicklungen
        Zusammenfassung
        Hintergrund. Seit 2017 berichten Wis-                 praktischen Anforderungen nicht genügen          der Interpretierbarkeit und Anwendbarkeit
        senschafts- und Populärmedien immer                   konnten. Mittels Deep Learning, einem            unter Alltagsbedingungen an. Durch die
        wieder von bildanalytischen Verfahren der             auf neuronalen Netzen beruhenden                 Weiterentwicklung zu generativen Modellen
        künstlichen Intelligenz, die in der medizini-         Verfahren, konnten diese Limitierungen und       werden gänzlich neuartige Anwendungen
        schen Diagnostik zu menschlichen Experten             insbesondere die Abhängigkeit von mensch-        möglich.
        vergleichbar gute Resultate erzielen. Mit der         licher Expertise überwunden werden. Wir          Schlussfolgerungen. Deep Learning hat in
        erstmaligen Zulassung eines solchen Systems           beschreiben wichtige Eigenschaften von Deep      vielerlei Hinsicht beeindruckende Erfolge
        durch die amerikanische Arzneimittelbehörde           Learning, den methodischen Durchbruch            vorzuweisen und gilt heute nicht nur in
        2018 begann ihr Einzug in den klinischen              von Transfer Learning und berichten über         der Bildanalyse als das Standardverfahren
        Alltag.                                               vielversprechende Entwicklungen hin zu           schlechthin. Dieser Durchbruch der künst-
        Fragestellung. Dieser Beitrag gibt einen              generativen Modellen.                            lichen Intelligenz ermöglicht eine rasch
        Überblick der wichtigsten Entwicklungen der           Ergebnisse. Mittels Deep Learning erreichen      anwachsende Zahl von klinischen Anwendun-
        künstlichen Intelligenz für bildanalytische           bildanalytische Verfahren in vielen Fällen die   gen und entwickelt sich fortwährend zu einem
        Verfahren in klinischen Anwendungen mit               für den industriellen und klinischen Einsatz     unverzichtbaren Werkzeug in der modernen
        Fokus auf die Dermatologie.                           geforderte Genauigkeit. Zudem gestaltet          Medizin.
        Material und Methode. Am Beispiel der                 sich ihre Industrialisierung weitestgehend
        ImageNet Challenge wird gezeigt, dass                 barrierefrei. Derzeitige Entwicklungen           Schlüsselwörter
        klassische Ansätze des maschinellen Lernens           fokussieren sich daher weniger auf die           Computerunterstützte Bildanalyse · Deep
        stark auf menschlicher Expertise beruhten             nochmalige Verbesserung der Genauigkeit,         Learning · Visuelle Merkmale · Diagnostische
        und dass ihre Performance und Skalierbarkeit          sondern nehmen sich den Herausforderungen        Bildanalyse · Bildanalytische Verfahren

        Artificial intelligence in image analysis—fundamentals and new developments
        Abstract
        Background. Since 2017, there have been               methods incorporated human expertise             Upcoming generative models allow for
        several reports of artificial intelligence (AI)        but failed to meet industrial requirements       entirely new applications.
        achieving comparable performance to human             regarding performance and scalability. With      Conclusions. Deep learning has a history of
        experts on medical image analysis tasks.              the rise of deep learning based on artificial     remarkable success and has become the new
        With the first ratification of a computer vision        neural networks, these limitations could be      technical standard for image analysis. The
        algorithm as a medical device in 2018, the way        overcome. We discuss important aspects of        dramatic improvement these models brought
        was paved for these methods to eventually             this technology including transfer learning      over classical approaches enables applications
        become an integral part of modern clinical            and report on recent developments such as        in a rapidly increasing number of clinical fields.
        practice.                                             explainable AI and generative models.            In dermatology, as in many other domains,
        Objectives. The purpose of this article is to         Results. Deep learning models achieved           artificial intelligence still faces considerable
        review the main developments that have                performance on a par with human experts in       challenges but is undoubtedly developing
        occurred over the last few years in AI for image      a broad variety of diagnostic tasks and were     into an essential tool of modern medicine.
        analysis, in relation to clinical applications and    shown to be suitable for industrialization.
        dermatology.                                          Therefore, current developments focus less       Keywords
        Materials and methods. Following the                  on further improving accuracy but rather         Computer-assisted image analysis · Deep
        annual ImageNet challenge, we review                  address open issues such as interpretability     learning · Visual features · Diagnostic imaging ·
        classical methods of machine learning for             and applicability under clinical conditions.     Image analysis applications
        image analysis and demonstrate how these

      Eigenschaften des Bildes an diesen Stellen             se konnte danach ein Testbild mit unbe-           damit einhergehend der Rechenaufwand
      abstrahieren. Diese Deskriptoren lassen                kannter Kategorisierung in einen Merk-            für den Abgleich. Es mussten also andere
      sich z. B. aus Histogrammen der Ori-                   malsvektor überführt und mit dem Lexi-            Möglichkeiten als das explizite Abspei-
      entierung und Stärke von verschiedenen                 kon abgeglichen werden. Die Kategorie             chern und Absuchen von Merkmalsvek-
      Filterantworten ableiten. Alle Deskripto-              des ähnlichsten Merkmalsvektors wur-              toren gefunden werden.
      ren eines Bildes wurden dann in einem                  de übernommen. Computer „sahen“ al-
      Merkmalsvektor zusammengefasst, der                    so anhand des Abgleichs mit Beispie-
      damit gewissermaßen als Fingerabdruck                  len in einem Lexikon. Das offensicht-
      des Bildes diente und in einer Art Lexikon             lichste Problem dieser Methodik war die
      abgelegt wurde. In gleicher Art und Wei-               explodierende Größe des Lexikons und

662    Der Hautarzt 9 · 2020
Hier steht eine Anzeige.

K
Leitthema

                                                                                                     Herausforderung. Zudem kamen diese
                                                                                                     Systeme nie an die für industrielle und
                                                                                                     medizinische Anwendungen geforderte
                                                                                                     Leistungsfähigkeit heran. Auch unsere
                                                                                                     damalige Anwendung zur Erkennung
                                                                                                     und Quantifizierung von Handekzem
                                                                                                     auf Bildern mit einer durchschnittli-
                                                                                                     chen Auflösung von 1500 × 1000 Pixel
                                                                                                     konnte trotz performanter Hardware
                                                                                                     auf nur wenigen dutzend Bildern trai-
                                                                                                     niert werden – viel zu wenige, um die
                                                                                                     vielfältigen Ausprägungen von Handek-
                                                                                                     zem mit unterschiedlichen Hauttypen
                                                                                                     und Anomalien wie Ringe, Tattoos oder
                                                                                                     fehlenden Gliedmaßen repräsentativ zu
                                                                                                     erfassen. Zudem dauerte die Analy-
                                                                                                     se eines einzigen Testbilds über 3 min.
      Abb. 2 8 Linien- und Kantenfilter machen charakteristische Bildstrukturen sichtbar              Zusammengefasst skalierte die Sup-
                                                                                                     port-Vector-Machine nicht für große
                                                                                                     Datenmengen, und mit der Wahl der
      Zeitalter der Support Vector                       de Technik in der Bilderkennung und         Merkmale basierte dieses Verfahren zu
      Machine                                            erreichte gemäß . Abb. 1 doch eine be-      stark auf menschlicher Expertise. Den
                                                         achtlich tiefe Top-5-Fehlerrate von unter   Wendepunkt markierte das Jahr 2012,
      Das automatisierte Lernen von Zu-                  26 % bei 1000 möglichen Kategorien.         als mit AlexNet [15] erstmals ein Deep-
      ordnungen anhand von in der Regel                  Auch die Autoren dieses Beitrags haben      Learning-Verfahren die ImageNet Chal-
      durch menschliche Experten erstellen               sich noch 2015 derselben Techniken be-      lenge gewann, und zwar gleich mit einer
      Trainingsdaten wird als überwachtes                holfen, um Handekzem auf Fotografien         Verbesserung um 10 % in der Top-5-
      Lernen bezeichnet (engl. „supervised               erkennen und quantifizieren zu können        Fehlerrate gegenüber dem Vorjahr.
      learning“). Das oben skizzierte Verfah-            [22]. Aus über 30 Bildfiltern wurden cha-
      ren mit dem Lexikonabgleich entspricht             rakteristische Hautstrukturen sichtbar      Mit neuronalen Netzen zum
      dabei einem Nearest-Neighbors-Modell.              gemacht, zu komplexeren, handverlese-       Paradigmenwechsel
      Andere Modelle der damaligen Zeit,                 nen Merkmalen kondensiert und mittels
      wie z. B. Entscheidungsbäume, waren                der Support Vector Machine auf die          Deep Learning basiert auf sog. neurona-
      zwar effizienter, konnten jedoch nur                 3 Kategorien Handekzem, gesunde Haut        len Netzen, einem durch das biologische
      lineare oder eben stückweise lineare Ab-           und Hintergrund abgebildet.                 Neuron inspirierten Verfahren des ma-
      bildungen von Merkmalsvektoren auf                                                             schinellen Lernen, dessen Grundzüge
      Objektkategorien lernen, was sich eben-            Deep-Learning-Revolution                    bereits 1943 von einem Neurophysiolo-
      falls als nicht hinreichend herausstellte.                                                     gen und einem Mathematiker zusam-
      Die vielversprechendste Methode war                In diesen frühen Jahren der ImageNet        men skizziert wurden [18]. Ein einzelnes
      die sog. Support Vector Machine (SVM).             Challenge konnten selbstlernende Algo-      künstliches Neuron, wie in . Abb. 3 dar-
      Dieser Algorithmus unterteilt den Raum             rithmen keine rohen Pixelwerte verar-       gestellt, wendet eine nichtlineare Trans-
      der Merkmale mittels Hyperebenen so,               beiten. Die Support-Vector-Machine war      ferfunktion auf eine gewichtete Summe
      dass der Abstand zwischen einem Merk-              also darauf angewiesen, dass mensch-        seiner Inputwerte an. Nun werden Tau-
      malsvektor und der Grenze zur nächsten             liche Experten eine geeignete Auswahl       sende solcher künstlichen Neuronen in
      Bildkategorie maximiert wird. Dabei                von Merkmalen zur Verfügung stellten.       Schichten hierarchisch angeordnet, so-
      mussten nur noch diese minimalen Ab-               Darüber hinaus stießen diese Systeme        dass der Output einer früheren Schicht
      standsvektoren gespeichert werden und              hinsichtlich Rechenzeit und Speicher-       den Input einer späteren Schicht lie-
      eben keine umfangreichen Lexika von                verbrauch schnell an die Grenzen der        fert. Inspiriert wurde diese Architektur
      Referenzbeispielen mehr. Das Problem               damaligen Computertechnologie. Es           auch durch den Konnektionismus, der
      der Linearität wurde umgangen, indem               konnten folglich nur wenige Bildfilter       versucht, mentale Phänomena durch
      die Merkmalsvektoren mit dem sog. Ker-             zur Berechnung der Merkmale verwen-         Verbindungen, Signale und Interak-
      neltrick in einen höher dimensionalen              det werden, die verarbeitbare Menge         tionen zwischen einer großen Anzahl
      Raum projiziert wurden. Bis 2012 war die           an Trainingsbildern war stark einge-        einfacher Einheiten zu beschreiben. Die
      Support Vector Machine in Kombinati-               schränkt, und insbesondere der Umgang       Gesamtheit der Gewichte aller einzelnen
      on mit manuell ausgewählten Bildfiltern             mit hochauflösenden Bildern mit Mil-         Neuronen bilden dabei die Parame-
      und Deskriptoren die vorherrschen-                 lionen von Pixeln war eine immense          ter des Systems, deren Werte in einem

664    Der Hautarzt 9 · 2020
phaGo 2017 den damaligen Weltmeister
                                                                                           Ke Jie im Brettspiel GO schlug, war
                                                                    Abb. 3 9 Ein künst-    dies zweifellos eine Meisterleistung und
                                                                    liches Neuron be-      damit ein historisches Ereignis in der
                                                                    rechnet eine nicht-    Entwicklung der künstlichen Intelligenz
                                                                    lineare Funktion       [8]. Das zuverlässige Kategorisieren und
                                                                    einer gewichteten      Segmentieren von Objekten auf Bilder
                                                                    Summer seiner Ein-
                                                                    gabewerte, y =         hat aber ungleich weitreichendere Be-
                                                                     f (w 1 x1 + . . . +   deutung nicht nur für medizinische An-
                                                                    w n x n + b), wobei    wendungen, sondern gleichsam für die
                                                                    x i die Eingabewerte   Entwicklung autonomer Fahrzeuge, der
                                                                    und w i die aus den    automatisierten Schädlingsbekämpfung
                                                                    Trainingsdaten ge-
                                                                    lernten Gewichte       in der Landwirtschaft oder der optischen
                                                                    darstellen             Qualitätskontrolle in der produzieren-
                                                                                           den Industrie. So gesehen, markiert der
sehr rechenintensiven Trainingsprozess         als die klassischen Verfahren des ma-       Durchbruch von 2016 in der Bildanalyse
namens Backpropagation unter Zuhilfe-          schinellen Lernens. Dies ermöglichte die    auch gleichzeitig den Beginn von „Big
nahme bereits kategorisierter Trainings-       Bildsegmentierung, also die Kategorisie-    Business with Artificial Intelligence“. Im
daten ermittelt werden. Es kann gezeigt        rung einzelner Pixel anstelle ganzer Bil-   Übrigen schlug AlphaGo bereits 2016
werden, dass solche Netze prinzipiell          der bis hin zur Echtzeitanalyse von Be-     den topklassierten Spieler Lee Sedol und
jede Funktionen, also Abbildung auf            wegtbildern in Videos – und dies so-        nutzte dabei dieselben Techniken („con-
Kategorien, approximieren können.              gar mit der eingeschränkten Leistungs-      volutional neural networks“) zur Analyse
    Die hierarchische Anordnung künstli-       fähigkeit eines Smartphone-Prozessors.      unzähliger auf öffentlichen Spielservern
cher Neuronen in einem Deep-Learning-          So ist es nicht erstaunlich, dass andere    gesammelter Brettsituationen.
Netz erlaubte fortan die direkte Verar-        algorithmische Verfahren der Bildana-           Mit dem Einzug der künstlichen In-
beitung der rohen Pixelwerte. Damit            lyse weitestgehend in der Bedeutungs-       telligenz in die medizinische Bildanalyse
entfiel die menschliche Auswahl von             losigkeit verschwanden. Aus technologi-     veränderte sich auch deren angestamm-
Bildfilter als mögliche Fehlerquelle in         scher Sicht beruht der durchschlagende      te Forschungsmethodik. Über Nacht
der Bilderkennung. Werden die gelern-          Erfolg von Deep Learning v. a. auf der      erschienen Google, Microsoft, Facebook
ten Gewichte in einem neuronalen Netz          Tatsache, dass neuronale Netze sehr viel    und OpenAI auf den Autorenlisten me-
über die verschiedenen Schichten hin-          größere Datenmengen verarbeiten und         dizinischer Publikationen; es werden
weg visualisiert, so fällt auf, dass frühere   damit statistisch besser verallgemeinern    medizinische Datenbanken kuratiert
Schichten eigenständig primitive Bild-         können [2]. Die mathematischen Opera-       und für Forschung und Wettbewerbe öf-
strukturen zu erkennen lernen und damit        tionen in einem neuronalen Netz lassen      fentlich zur Verfügung gestellt. Beispiels-
Filteroperationen imitieren. In späteren       sich als Additionen und Multiplikatio-      weise beinhaltet ISIC-2019 über 25.000
Schichten werden diese Informationen           nen von Matrizen auffassen und dadurch       dermatoskopische Bildaufnahmen an-
automatisch zu komplexeren Merkmalen           sehr viel effizienter auf spezialisierten     notiert mit 9 diagnostischen Kategorien,
kondensiert und schlussendlich auf eine        Grafikprozessoren ausführen. Dement-         wie z. B. „melanoma“, „melanocytic ne-
Wahrscheinlichkeitsverteilung über die         sprechend verdankt die moderne künst-       vus“, „dermatofibroma“ oder „actinic
möglichen Bildkategorien abgebildet.           liche Intelligenz ihren Durchbruch zu-      keratosis“ [6]. Die ISIC Challenge mit
Computer begannen also, die mensch-            mindest teilweise der Computerspielin-      den Disziplinen „lesion segmentation“,
liche Leistungsfähigkeit zu übertreffen,        dustrie. Ein zweiter Katalysator war na-    „lesion attribute detection“ und „disease
nachdem sie von der expliziten Eingabe         türlich die rasante Durchdringung un-       classification“ wird seit 2016 alljährlich
menschlichen Wissens befreit werden            seres Alltags durch das Social Web und      durchgeführt.
konnten. Yoshua Bengio, Geoffrey Hin-           damit einhergehend die explosionsartige
ton und Yann LeCun, die Pioniere dieses        Ausweitung und Verfügbarkeit von Bild-      Aktuelle Herausforderungen
Fachgebiets, wurden denn auch 2018             und Textdaten im Internet.
mit dem ACM Turing Award, dem No-                                                          Neuronale Netze manifestieren sich dem
belpreis der Informatik, ausgezeichnet         Big Business durch künstliche               Menschen gegenüber als Blackbox. Sie
[5]. Seit 2012 wurde jede ImageNet             Intelligenz                                 berechnen ihre Resultate aufgrund von
Challenge durch den Einsatz von Deep                                                       Millionen von Parameterwerten, die zu-
Learning gewonnen.                             Nicht nur für uns Menschen gehört           vor in einem oftmals tagelangen Rechen-
    Obwohl sich der Trainingsprozess von       das Sehen zu den wichtigsten Voraus-        prozess unter Miteinbezug von zehntau-
neuronalen Netzen enorm recheninten-           setzungen, um erfolgreich mit unserer       senden durch Menschen annotierten Bil-
siv gestaltet, so ist die spätere Anwen-       Umgebung interagieren zu können. Als        dern, Texten oder anderen Daten festge-
dung von trainierten Netzen effizienter          eine künstliche Intelligenz namens Al-      legt wurden. Zu Recht stellt sich dabei

                                                                                                                 Der Hautarzt 9 · 2020   665
Leitthema

      Abb. 4 8 a Originalbild aus [7], mit freundl. Genehmigung, ©David.moreno72, CC BY-SA 4.0, https://creativecommons.org/
      licenses/by-sa/4.0/. b, c Wärmebilder (GradCam und Guided Backpropagation) für die Diagnose („basal cell carcinoma“)
      (0,816). d, e Wärmebilder (GradCam und Guided Backpropagation) für die Diagnose („melanocytic nevus“) (0,045)

      die Frage, was ein neuronales Netz nun            auf die Klassifizierung hervorheben. Die                Die zentralste Herausforderung über-
      tatsächlich gelernt hat, wie es zu einem          . Abb. 4 zeigt ein dermatoskopisches               haupt ergibt sich aus dem beinahe un-
      bestimmten Resultat kommt und inwie-              Bild, für das ein Deep-Learning-Modell             stillbaren Datenhunger moderner Deep-
      fern sich dieses gegenüber menschlichen           eine Wahrscheinlichkeit von 81,6 % für             Learning-Modelle. Je mehrParameterein
      Experten rechtfertigen oder gegenüber             die Diagnose „basal cell carcinoma“ und            Modell hat, desto grösser ist seine Lern-
      Laien erklären lässt. Handelt es sich bei         4,5 % für „melanocytic nevus“ prognos-             kapazität. Folglich werden mit immer
      der Anwendung um eine optische Ent-               tiziert. Die beiden Wärmebilder zeigen,            mehr Rechenressourcen immer größere
      riegelungsfunktion einer Katzentür, so            welche Bildbereiche die entsprechenden             Modelle trainiert zum Preis eines immer
      sind die meisten Kunden durchaus ge-              Diagnosen stützen.                                 weiter ansteigenden Datenbedarfs. Ge-
      willt, diese Intransparenz zu akzeptieren.                                                           rade in der Medizin ist das verfügbare
      Interessanterweise stimmt diese Aussa-
      ge sogar für höchst sicherheitsrelevante          »aktivsten
                                                             XAI ist eines der derzeit
                                                                   Forschungsfelder in der
                                                                                                           Bildmaterial jedoch beschränkt, sei es
                                                                                                           aufgrund von seltenen Erscheinungen,
      Systeme. Vielleicht nutzen auch Sie die                                                              Datenschutzaspekten, besonders aber
      Smartphone-Gesichtserkennung für den              künstlichen Intelligenz                            aufgrund der mangelnden Verfügbarkeit
      Zugriff auf Ihre höchst privaten Bilder,                                                              menschlicher Experten zur Annotation
      Nachrichten oder Passwörter und ver-              Weiterführende Ansätze trainieren hier-            von Trainingsdaten. Somit war es denn
      trauen damit einem neuronalen Netz,               archische Modelle, die z. B. auf einer             auch keine algorithmisch-mathemati-
      dessen erlerntes Wissen sich nicht einmal         dermatoskopischen Aufnahme zuerst                  sche Erkenntnis, die den wichtigsten
      seinen Entwicklern erschließt.                    differenzialdiagnostische Merkmale wie              und eingangs bereits erwähnten Durch-
          Weitaus differenzierter gestaltet sich         „pigment network“, „streaks“, „globu-              bruch hinsichtlich Industrialisierbarkeit
      diese Beziehung in medizinischen An-              les“ oder „milia-like cyst“ identifizieren          von Deep-Learning-Modellen ermög-
      wendungen. Wir können zwar die Feh-               und erst danach eine Diagnose ableiten.            lichte, sondern ein brillanter und auf viel
      lerrate von neuronalen Netzen auf kli-            Damit benötigt dieser Ansatz aber auch             Intuition beruhender technischer Kniff.
      nisch validierten und repräsentativen             eine hinreichende Menge von auf dieser             Frühe Schichten in neuronalen Netzen
      Testdaten erheben, in Wettbewerben mit            Granularität annotierten Trainingsdaten,           lernen einfache Bildstrukturen, spätere
      menschlichen Fachexperten vergleichen,            und damit steigt unweigerlich der Auf-             Schichten kombinieren diese zu komple-
      darauf hinweisen, dass neuronale Netze            wand in der Datenbeschaffung. Inspiriert            xen Merkmalen und leiten schlussend-
      Dutzende von Diagnosen pro Sekunde                durch den klinischen Alltag und befähigt           lich eine Wahrscheinlichkeitsverteilung
      reproduzierbar liefern und sich als me-           durch die erstaunlichen Fortschritte in            über mögliche Kategorien daraus ab.
      dizinischer Service in Smartphone-Apps            der Deep-Learning-basierten Textgene-              Der Kniff besteht nun darin, dass zum
      über die Welt verteilen lassen. Es bleibt zu      rierung soll sich die modernste Form               Erlernen einfacher Bildstrukturen wie
      Recht die Frage nach der Erklärbarkeit.           der künstlichen Intelligenz nicht mehr             Linien und Kanten gar keine medizini-
      Explainable Artificial Intelligence (XAI)          nur mit der Voraussage der wahrschein-             schen Daten benötigt werden. Vielmehr
      ist damit auch eines der derzeit aktivs-          lichsten Diagnose begnügen, sondern                lassen sich diese Modelle auf riesigen,
      ten Forschungsfelder in der künstlichen           dazu gleich einen medizinischen Bericht            allgemeinen Bilddatenbanken einmalig
      Intelligenz. Neben der Modellkomplexi-            zu Händen des menschlichen Arztes                  vortrainieren. Dann werden die Parame-
      tät ist diese Intransparenz der Tatsache          verfassen. In der Medizin fehlen dazu              ter der frühen Schichten eingefroren und
      geschuldet, dass neuronale Netze nur              aktuell noch die nötigen Trainingsdaten,           nur die späteren Schichten auf einem
      Korrelationen berechnen, jedoch keine             jedoch hat Facebook Research bereits               domänenspezifischen Datensatz noch-
      Kausalitätsbeziehung ableiten können.             gezeigt, dass neuronale Netze von einer            mals trainiert, wobei durch die damit
      Erste Ansätze basieren auf Visualisie-            Fotoaufnahme eines Gerichts das dazu               erreichte Reduktion der Parameter sehr
      rungstechniken, die auf dem Originalbild          passende Kochrezept verfassen können               viel weniger Bilder und Rechenleistung
      die Bereiche mit dem stärksten Einfluss            [21].                                              benötigt werden. Wir bezeichnen dieses

666    Der Hautarzt 9 · 2020
Abb. 5 9 a–f Durch eine
                                                                                                            künstliche Intelligenz ge-
                                                                                                            nerierte Bilder menschli-
                                                                                                            cher Haut. (Aus [23])

Vorgehen als Transfer Learning. Google,       tografien von gefälschten Bildern unter-      nische Eigenschaften oder lassen Glied-
Facebook und Co. stellen mittlerweile         scheiden können. Nun wurden die Opti-        maßen nachwachsen.
ganze Bibliotheken von vortrainierten         mierungsfunktionen beider Netze so ge-          So groß wie die Erfolge von Deep
Modellen zur Verfügung, für deren             koppelt, dass, wenn sich der Fälscher im     Learning und anderen Methoden der
Training die wenigsten Forschungsin-          Laufe des Trainingsprozesses verbessert      künstlichen Intelligenz in der medi-
stitutionen überhaupt über die nötige         und damit realistischere Bilder generiert,   zinischen Bildanalyse der letzten Jah-
Rechenleistung verfügen würden und die        sich der Polizist bei der Unterscheidung     re, so groß sind unsere Erwartungen
wir nun mit wenigen Tagen Aufwand             zwischen echt und unecht ebenfalls ver-      und gleichsam die damit verbunde-
und überschaubaren Datenmengen an-            bessern muss. Verbessert sich umgekehrt      nen Herausforderungen. Immer wie-
wendungsspezifisch anpassen können.            der Polizist, muss der Fälscher seiner-      der übertreffen technische Systeme die
                                              seits nachziehen und noch bessere Fäl-       menschliche Leistungsfähigkeit unter
Generative Modelle                            schungen generieren usw. Gelangt die-        Laborbedingungen und scheitern dann
                                              ser Prozess in einen Gleichgewichtszu-       doch im klinischen Alltag an so unter-
Der Name von Facebooks Chief AI Scien-        stand, wurde eine künstliche Intelligenz     schiedlichen Aspekten wie Akzeptanz,
tist Yann LeCun ist im Zusammenhang           erschaffen, die Bilder aufgrund erlernter     Prozessintegration, Bedienbarkeit in
mit dem Turing Award für seine epo-           statistischer Strukturen generieren kann,    Stresssituationen oder den technischen
chalen Beiträge zur Deep-Learning-For-        die eine andere künstliche Intelligenz ih-   Gegebenheiten [14]. Nur zu gerne schlie-
schung bereits gefallen. Seine viel zitier-   rerseits nicht mehr von echten Bildern       ßen wir uns also dem Zitat von Michael
te Aussage bezieht sich auf ein von Ian       unterscheiden kann.                          Abramoff, dem Entwickler des eingangs
Goodfellow 2014 vorgeschlagenes Kon-                                                       erwähnten ophthalmologischen Deep-
zept namens Generative Adversarial Net-
works (GAN) zur künstlichen Generie-          »wurdeAusArtificial
                                                        Artificial Intelligence
                                                                 Creativity
                                                                                           Learning-Systems und damit Empfänger
                                                                                           der ersten Zulassung der amerikanischen
rung von Fotografien [3], in den Popu-                                                      Arzneimittelbehörde, an:
lärmedien auch Deepfakes genannt:
                                                                                           There is much more to Healthcare than Al-
                                              GANs unterstützen heute nicht nur den
The coolest idea in Deep Learning in the                                                   gorithms [13].
                                              menschlichen Designprozess von Mö-
last 20 years [11].
                                              belstücken oder Kleider, sondern finden
Goodfellow ließ 2 neuronale Netze, einen      zunehmend Einzug in die medizinische         Fazit für die Praxis
„Fälscher“ und einen „Polizisten“, in ei-     Bildanalyse: GANs generieren fotorealis-
nem kompetitiven Spiel gegeneinander          tische Bilder von Gewebe und Organen,        4 Bildanalytische Verfahren der moder-
antreten. Der Fälscher generiert künst-       wie in . Abb. 5 gezeigt, übertragen patho-      nen künstlichen Intelligenz erreichen
liche Bilder, der Polizist muss echte Fo-     logische Erscheinungen oder entfernen           heute in vielen Fällen die für den
                                              diese auf Patientenbilder, verändern eth-
                                                                                                                Der Hautarzt 9 · 2020    667
Leitthema

        industriellen und klinischen Einsatz                                                                                    cancer screening. Nature. https://doi.org/10.1038/
                                                                  Literatur                                                     s41586-019-1799-6
        geforderte Genauigkeit und über-                                                                                    20. Russakovsky O, Deng J, Su H et al (2015) Imagenet
        treffen sogar teilweise die Leistung                        1. Esteva A, Kuprel B, Novoa RA et al (2017)                 large scale visual recognition challenge. Int J
                                                                      Dermatologist-level classification of skin cancer          Comput Vis. https://doi.org/10.1007/s11263-015-
        menschlicher Experten.                                        with deep neural networks. Nature. https://doi.           0816-y
      4 Trotz zahlreicher Herausforderungen                           org/10.1038/nature21056                               21. Salvador A, Drozdzal M, Giro-I-Nieto X, Romero A
        in Bezug auf ihren Datenhunger,                            2. Goodfellow I, Bengio Y, Courville A (2016) Deep           (2019) Inverse cooking: recipe generation from
                                                                      learning. MIT Press, Cambridge, Massachusetts             food images. Proc IEEE Comput Soc Conf Comput
        mangelnde Interpretierbarkeit und                          3. Goodfellow IJ, Pouget-Abadie J, Mirza M et al             Vis Pattern Recognit. https://doi.org/10.1109/
        Anwendbarkeit unter klinischen                                (2014) Generative adversarial nets. In: Ghahramani        CVPR.2019.01070
        Alltagsbedingungen entwickelt sich                            Z, Welling M, Cortes C, Lawrence ND, Weinberger       22. Schnürle S, Pouly M, Vor Der Brück T et al (2017) On
                                                                      KQ (Hrgs) Advances in Neural Information                  using support vector machines for the detection
        diese Technologie fortwährend zu                              Processing Systems 27, Curran Associates, Inc.,           and quantification of hand eczema. ICAART 2017
        einem unverzichtbaren Werkzeug in                             S 2672–2680. https://papers.nips.cc/paper/5423-           – Proc 9th Int Conf Agents Artif Intell. https://doi.
        der modernen Medizin.                                         generative-adversarial-nets                               org/10.5220/0006125000750084
                                                                   4. He K, Zhang X, Ren S, Sun J (2016) Identity           23. Zenodo: https://zenodo.org/record/3873159#.
                                                                      mappings in deep residual networks. Lect Notes            XuDaIbxxe70. Zugegriffen: 3. August 2020
                                                                      Comput Sci (including Subser Lect Notes Artif
      Korrespondenzadresse                                            Intell Lect Notes Bioinformatics). https://doi.org/
                                                                      10.1007/978-3-319-46493-0_38
                           Prof. Dr. Marc Pouly                    5. https://awards.acm.org/about/2018-turing. Zu-
                           Informatik, Hochschule                     gegriffen: 23. Mai 2020
                           Luzern                                  6. https://challenge2019.isic-archive.com. Zugegrif-
                           Suurstoffi 1, 6343 Rotkreuz,                 fen: 24. Mai 2020
                           Schweiz                                 7. https://en.wikipedia.org/wiki/Basal-cell_
                           marc.pouly@hslu.ch                         carcinoma#/media/File:Dermoscopy_nodular_
                                                                      basal_cell_carcinoma.jpg. Zugegriffen: 3. August
                                                                      2020
      Funding. Open access funding provided by Lucerne             8. https://events.google.com/alphago2017/. Zuge-
      University of Applied Sciences and Arts                         griffen: 23. Mai 2020
                                                                   9. https://www.fda.gov/news-events/press-
                                                                      announcements/fda-permits-marketing-
                                                                      artificial-intelligence-based-device-detect-
      Einhaltung ethischer Richtlinien                                certain-diabetes-related-eye. Zugegriffen: 23. Mai
                                                                      2020
                                                                  10. https://www.mdmag.com/medical-news/ai-
      Interessenkonflikt. M. Pouly, T. Koller, P. Gottfrois            model-flags-patients-at-risk-osteoporosis. Zu-
      und S. Lionetti geben an, dass kein Interessenkonflikt           gegriffen: 23. Mai 2020
      besteht.                                                    11. https://www.nature.com/news/astronomers-
                                                                      explore-uses-for-ai-generated-images-1.21398
      Für diesen Beitrag wurden von den Autoren keine             12. https://www.nytimes.com/2015/12/11/science/
      Studien an Menschen oder Tieren durchgeführt.                   an-advance-in-artificial-intelligence-rivals-
      Für die aufgeführten Studien gelten die jeweils dort            human-vision-abilities.html. Zugegriffen: 23. Mai
      angegebenen ethischen Richtlinien.                              2020
                                                                  13. https://www.technologyreview.com/2020/04/
      Open Access. Dieser Artikel wird unter der Creative             27/1000658/google-medical-ai-accurate-lab-
      Commons Namensnennung 4.0 International Lizenz                  real-life-clinic-covid-diabetes-retina-disease/
      veröffentlicht, welche die Nutzung, Vervielfältigung,        14. https://www.technologyreview.com/2020/04/
      Bearbeitung, Verbreitung und Wiedergabe in jegli-               27/1000658/google-medical-ai-accurate-lab-
      chem Medium und Format erlaubt, sofern Sie den/die              real-life-clinic-covid-diabetes-retina-disease/.
      ursprünglichen Autor(en) und die Quelle ordnungsge-             Zugegriffen: 23. Mai 2020
      mäß nennen, einen Link zur Creative Commons Lizenz          15. Krizhevsky A, Sutskever I, Hinton GE (2012)
      beifügen und angeben, ob Änderungen vorgenom-                   ImageNet classification with deep convolutional
      men wurden.                                                     neural networks. In: Pereira F, Burges CJC,
                                                                      Bottou L, Weinberger KQ (Hrgs) Advances in
      Die in diesem Artikel enthaltenen Bilder und sonstiges          Neural Information Processing Systems 27, Curran
      Drittmaterial unterliegen ebenfalls der genannten               Associates, Inc., S 1097–1105. http://papers.nips.
      Creative Commons Lizenz, sofern sich aus der Abbil-             cc/paper/4824-imagenet-classification-with-
      dungslegende nichts anderes ergibt. Sofern das be-              deep-convolutional-neural-networks.pdf
      treffende Material nicht unter der genannten Creative        16. Liu X, Faes L, Kale AU et al (2019) A comparison
      Commons Lizenz steht und die betreffende Handlung                of deep learning performance against health-care
      nicht nach gesetzlichen Vorschriften erlaubt ist, ist für       professionals in detecting diseases from medical
      die oben aufgeführten Weiterverwendungen des Ma-                imaging: a systematic review and meta-analysis.
      terials die Einwilligung des jeweiligen Rechteinhabers          Lancet Digit Heal. https://doi.org/10.1016/S2589-
      einzuholen.                                                     7500(19)30123-2
                                                                  17. Liu Y, Jain A, Eng C et al (2020) A deep learning
      Weitere Details zur Lizenz entnehmen Sie bitte der              system for differential diagnosis of skin diseases.
      Lizenzinformation auf http://creativecommons.org/               Nat Med. https://doi.org/10.1038/s41591-020-
      licenses/by/4.0/deed.de.                                        0842-3
                                                                  18. McCulloch WS, Pitts W (1943) A logical calculus of
                                                                      the ideas immanent in nervous activity. Bull Math
                                                                      Biophys. https://doi.org/10.1007/BF02478259
                                                                  19. McKinney SM, Sieniek M, Godbole V et al (2020)
                                                                      International evaluation of an AI system for breast

668     Der Hautarzt 9 · 2020
Sie können auch lesen