Herausforderungen beim Einsatz Künstlicher Intelligenz zur Erkennung von im Zusammenhang mit Kinderpornografie stehenden Mediendateien ...
←
→
Transkription von Seiteninhalten
Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten
Gesellschaft für Informatik e.V. (GI) GI. (Hrsg.): INFORMATIK 2021, Lecture Notes in Informatics (LNI), Gesellschaft für Informatik, Bonn 2021 879 Herausforderungen beim Einsatz Künstlicher Intelligenz zur Erkennung von im Zusammenhang mit Kinderpornografie stehenden Mediendateien Nicole Garbers1, Michael Brodthage1 Abstract: Der Einsatz Neuronaler Netze bietet deutlich bessere Erkennungsraten bei kin- derpornografischem Bild- und Videomaterial als beispielsweise Hautanteilfilter und stellt daher im Rahmen der Strafverfolgung ein wichtiges Werkzeug zur Vorselektierung von Massendaten dar. Trotz aller Erfolge gibt es beim Einsatz in der Praxis Herausforderungen, die noch detaillierter betrachtet werden müssen. Diese Veröffentlichung beschäftigt sich mit verschiedenen Aspekten in der Datenzusammenstellung des Trainingsmaterials und der Datenvorverarbeitung und zeigt anhand von Beispielen deren jeweiligen Einfluss auf die spätere Klassifizierungsleistung des Neuronalen Netzes unter den besonderen Herausforderungen bei der Verfolgung von im Zusammenhang mit Kinderpornografie stehenden Straftaten. Keywords: Neuronale Netze, Datenvorverarbeitung, Erkennung von Kinderpornografie 1 Einleitung In den vergangenen Jahren ist durch die fortschreitende Digitalisierung die Datenmenge sichergestellter Asservate in allen Phänomenbereichen kontinuierlich stark angestiegen, ganz besonders davon betroffen ist der Bereich der im Zusammenhang mit Kinder- und Jugendpornografie stehenden Straftaten. Im Jahr 2020 haben allein die Ermittlungsbehörden in Niedersachsen 2373 Terabyte sichergestellt [An21]. Als Kinderpornografie wird dabei im Sinne des §184b Strafgesetzbuch eine fotore- alistische Darstellung sexueller Handlungen von, an oder vor einer Person unter 14 Jahren (Kind) bzw. die Wiedergabe eines ganz oder teilweise unbekleideten Kindes in aufreizend geschlechtsbetonter Körperhaltung oder die sexuell aufreizende Wiedergabe der unbekleideten Genitalien/des Geschlechts bezeichnet. Es ist sowohl die Verbreitung, der Erwerb als auch der Besitz kinderpornografischer Inhalte strafbar. Bei jugendpornografischen Inhalten, ist die Person 14 Jahre oder älter, aber noch nicht 18 Jahre alt. Da jede solcher Darstellung einen tatsächlichen Missbrauch zeigt, ist neben einer Verbreitungshandlung auch immer zu untersuchen, ob möglicherweise ein aktueller Missbrauch vorliegt. Solche Fälle dürfen auf keinen Fall im sichergestelltem Datenvo- lumen „untergehen“ – auch nicht im Fall immer steigender Datenmengen. 1 Landeskriminalamt Niedersachsen, Am Waterlooplatz 11, 30169 Hannover cba
Auf der anderen Seite treibt die Digitalisierung, verbunden mit zunehmend besserer 880 Nicole Garbers und Michael Brodthage Hardwareleistung, aber auch die Entwicklung und den Einsatz neuer Technologien voran. So sind inzwischen in den meisten Smart Devices im Haus oder im Smartphone zahlreiche Serviceleistungen vorhanden, die auf den Einsatz Künstlicher Intelligenz bzw. Neuronaler Netze beruhen. Da liegt es nahe, zu überprüfen, inwieweit solche technischen Ansätze zur Bewertung großer unstrukturierter Datenmangen auch bei der Strafverfolgung im Zusammenhang mit Kinder- und Jugendpornographie stehenden Straftaten unterstützen können. In der Vergangenheit eingesetzte Hautanteilfilter liefern in vielen Fällen keine geeignete Vorselektierung. Nicht nur spielt die Hautfarbe der abgebildeten Person fälschlicherweise eine entscheidende Rolle wie in [KHH21] gezeigt wurde, sondern es kommt auch zu unvermeidbaren Fehlinterpretationen bei vielen häufig vorkommenden Bildszenen innerhalb des gesicherten Datenmaterials. So werden Selfies mit einer Nahaufnahme des eigenen Gesichts fälschlicherweise als pornografisch erkannt, während kinderpornografische Szenen bei schlechter Beleuchtung (z. B. Eigenaufnahmen der Kinder in die Unterhose, rote Beleuchtung) oder Aufnahmen mit nur einem kleinen Hautanteil (z.B. verkleidetes Kind vor buntdekoriertem Hintergrund mit teilweise entblößtem Genitalbereich) nicht erkannt werden. Deutlich bessere Ergebnisse verspricht der Einsatz Neuronaler Netze in diesem Bereich [Ga2019]. Doch trotz erster Erfolge im Rahmen wissenschaftlicher Betrachtungen sind bei der Übertragung in die polizeiliche Praxis noch Besonderheiten zu beachten, die in dieser Veröffentlichung näher beleuchtet und dargelegt werden. 2 Neuronale Netze zur Erkennung von Kinderpornografie Automatische Klassifizierungsansätze zur Erkennung von Kinder-/Jugendpornografie haben zu einem die Aufgabe, pornografische Szenen zu erkennen, zum anderen, für die abgebildeten Personen zu bestimmen ob diese unter 14 Jahren bzw. 14 Jahre und älter aber jünger als 18 Jahre sind. In der Literatur findet man dazu unterschiedliche Ansätze, die anfangs auf Hautanteilfiltern basierten, inzwischen aber zumeist auf einem oder mehreren Neuronalen Netzen aufbauen. Dabei kann die Klassifikation in die beiden oben beschriebenen Aufgaben aufgeteilt und dann zusammengeführt werden, oder aber ein Neuronales Netz verwendet werden, welches sowohl die Erkennung von Pornografie als auch die Altersschätzung gelernt hat. Einen Workflow zur Erkennung von Kinderpornografie, der aus einer Kombination von Gesichtserkennung zur Altersschätzung und einer Berechnung des Hauttonanteils besteht, stellen beispielsweise Moser et al. in [MTH15] vor. Zur Altersschätzung wird sich dabei auf bestimmte Regionen der Augen, der Nase und des Mundes konzentriert. Bestimmte geometrische Verhältnisse in diesem Bereich sollen es ermöglichen, eine Unterscheidung zwischen „Kind“ und „Erwachsener“ zu treffen [IT12]. Allerdings zeigen Moser et al., dass dieses Vorgehen auf den dortigen Testdaten keinen Erfolg aufweist: 2/3 der Gesichter wurden falsch klassifiziert.
Zur Erkennung von Pornografie wurde der in einem bestimmten Gesichtsbereich Künstliche Intelligenz zur Erkennung von Kinderpornografie in Mediendateien 881 dominierende Farbton als individueller Hautton angenommen und als Grenzwert bei der anschließend durchgeführten Filterung nach sichtbarer Haut verwendet. Hier konnte eine Erkennung von Pornografie in 84 % der Fälle erreicht werden, die Falsch-Positiv-Rate wurde dabei jedoch nicht genannt. In Summe bewerten die Autoren ihr Vorgehen für fehleranfällig und nicht für die Praxis geeignet. Der Einsatz Neuronaler Netze bietet hier deutlich bessere Ergebnisse. In [Ga2019] wurden auf einem Testdatensatz aus 42.000 Bildern die Klassifizierungsleistung eines HSV- und eines YcbCr-Filters mit derer von drei verschiedenen Neuronalen Netzarchitekturen (VGG-19, ResNet152, DenseNet) verglichen. Dabei konnte durch die Verwendung eines Hautanteilfilters Erwachsenenpornografie zu 63.25% (YcbCr) bzw. 63.06% (HSV) erkannt werden. Ein leicht schlechteres Ergebnis konnte ebenfalls für Jugendpornografie erreicht werden (59.12% (YcbCr), 62.44% (HSV)), während kinderpornografisches Material nur zu 47.71% (YcbCr) bzw. 50.38% (HSV) erkannt wurde. Die Falsch-Positiv- Rate betrug dabei 14.25 % (YcbCr) bzw. 18.25% (HSV). Für das DenseNet als beispielhafter Vertreter der untersuchten Neuronalen Netze zeigten sich deutlich bessere Ergebnisse. So konnten 99.46 % der jugendpornografischen Bilder, 98.80% der kinderpornografischen Bilder und 98.38 % der pornografischen Bilder als pornografisch erkannt werden. Gleichzeitig betrug die Falsch-Positiv-Rate auf den Alltagsbildern 15.13%. Ähnlich gute Ergebnisse wurden auch in [APR17] bestätigt. In [MCD] wurde ebenfalls ein aus Altersschätzung und Pornografieerkennung bestehender Workflow vorgestellt. Dieser bestand jedoch im Gegensatz zu [MTH15] aus zwei Neuronalen Netzen. Damit erreichen die Autoren bei der Unterscheidung „Kind“ „Erwachsener“ eine Genauigkeit von über 94 % auf den mehr als 500.000 Bilder umfassenden Datensatz IMDB-WIKI-101 und auf dem RCPD Datensatz (region-based annotated child pornography dataset [8]) der brasilianischen Polizei mit kinderporno- grafischen Bildern eine Genauigkeit von ca. 82%. Ähnlich gute Ergebnisse konnten bei der Erkennung von Pornografie in dem RCPD Datensatz erreicht werden. Kombiniert man jedoch diese beiden Netze, um tatsächlich Kinderpornografie im RCPD Datensatz zu erkennen, beträgt die Falsch-Positiv-Rate 68% und die Falsch-Negativ-Rate 64.61%. Dies zeigt deutlich, dass es bei der Übertragung von wissenschaftlichen Erkenntnissen in den praktischen Wirkbetrieb noch Problemstellungen gibt, die besonders betrachtet werden müssen. 3 Besondere Problemstellungen im Phänomenbereich Kinderpornografie Dieses Kapitel beleuchtet die verschiedenen Aspekte bezüglich der Auswahl, des Trainings und des Einsatzes im Wirkbetrieb von Neuronalen Netzen im Phänomenbereich Kinderpornografie. Es werden die Besonderheiten und die sich daraus ergebenen Anforderungen sowie noch offenen Problemstellungen dargestellt.
3.1 Auswahl der Kategorien 882 Nicole Garbers und Michael Brodthage Aus strafrechtlichen Aspekten ist die Erkennung von kinder- und jugendpornografischer Bilder und Videos relevant. Dabei spricht man in Deutschland von Kinderpornografie, wenn eine abgebildete Person jünger als 14 Jahre ist. Diese Definition ist international jedoch nicht einheitlich, so gilt beispielsweise in Australien je nach Territorium eine Altersgrenze von 16, 17 oder 18 Jahren und in den USA eine Altersgrenze von 18 Jahren. Eine Differenzierung in Kinder- und Jugendpornografie wie in Deutschland findet somit nicht statt. Auch bei der Bewertung der Bildszene gibt es nationale Unterschiede, so fällt in Deutschland auch ein nur teilweise unbekleidetes Kind in aufreizend geschlechtsbetonter Körperhaltung unter den Begriff der Kinderpornografie, während in Österreich eine sexuelle Handlung, Genitalien oder die Schamgegend sichtbar sein müssen. Dies führt dazu, dass Neuronale Netze zu dieser Fragestellung aufgrund der unterschiedlichen Anforderungen nicht ohne weiteres von internationalen Forschungsgruppen übernommen werden können. Die korrekte Altersschätzung stellt dabei ein besonderes Problem da. Auch wenn es inzwischen auch für diese Fragestellung eine Vielzahl von Neuronalen Netzen gibt, so weisen sie alle nicht die benötigte Genauigkeit auf. Bereits eine Varianz von +/- 3 Jahren [PGK], [Pa16], die im Erwachsenenbereich häufig ausreichend ist, würde bei der hier vorliegenden Fragestellung zu einer falschen Eingruppierung der abgebildeten Person führen. Erschwerend kommt hinzu, dass die meisten Neuronalen Netze entweder Gesichtszüge interpretieren oder das Alter anhand von Körperproportionen schätzen. Während Kleinkinder beim Verhältnis Kopf zu Körper ein Verhältnis von 1:5 aufweisen, ändert sich dies für Schulkinder zu 1:6, bevor zu Beginn der Pubertät ein vermehrtes Längenwachstum der Gliedmaßen einsetzt. In kinder- bzw. jugendpornographischen Aufnahmen sind jedoch häufig weder Gesichtszüge noch ausreichend Körperproportionen sichtbar, um darauf basierend mit bereits existierenden Lösungen eine Altersschätzung durchführen zu können. Aus technischen Gründen stellt sich außerdem die Frage, wie es sich am besten realisieren lässt, drei eher ähnliche Kategorien von einer sehr breit gefassten Kategorie zu trennen, siehe auch Kapitel 3.3. So ist der Übergang von Kinder- zu Jugendpornografie bzw. Jugend- zu Erwachsenenpornografie als eher fließend zu betrachten, während irrelevante Szenen deutlich andere Themenfelder zeigen. Schwierig hiervon zu trennen, sind jedoch wiederum kinderpornografische Szenen, in denen das Kind beispielsweise vollständig bekleidet ist und „verkleidet“ sexuell anregend posieren muss. Diese Betrachtungen zeigen, dass typische „NudeNetze“ zur Pornografieerkennung [Ba19], [Mo15], [JWT18] bei dieser Fragestellung nicht eingesetzt werden können. Bei kinderpornografische Szenen, in denen das Kind beispielsweise vollständig bekleidet ist und „verkleidet“ sexuell anregend posieren muss, ist eine Abgrenzung zu dem Alltagsbereich als schwierig einzustufen, da es nicht ausreicht, wenn das Neuronale Netz Bilder dieser Art anhand eines vorhandenen bzw. nicht vorhandenen Haut-anteils
bewerten würde. Das Gesicht als auch unbekleidete Arme/Beine beim Tragen einer Künstliche Intelligenz zur Erkennung von Kinderpornografie in Mediendateien 883 Sommerbekleidung sind anatomisch kleiner als der Geschlechtsbereich dieser Person, so dass ein hier keine Differenzierung über die Summe der insgesamt vorliegenden Pixel mit Hautfarbe erfolgen kann. In [Ya2021] untersuchten die Autoren die Verbreitung von Gesichtern über die verschiedenen Kategorien des Imagenet-Datensatzes und zeigten, dass in 106 Kategorien, mehr als die Hälfte der Bilder dieser Kategorie Gesichter beinhalteten. Dies verdeutlicht, dass, in einem diversen Datensatz unterschiedlicher Themenbereiche, Gesichter immer eine dominierende Rolle spielen und ein Hautanteilfilter, wie bereits in Abschnitt 2 beschrieben, kein geeigneten Ansatz liefert. 3.2 Objekterkennung vs. Szenenerkennung Prinzipiell bietet sich zwei unterschiedliche Ansätze zur Umsetzung an. Es ist sowohl möglich, ein Neuronales Netz zu trainieren, bestimmte Objekte wie beispielsweise Geschlechtsteile oder Brustwarzen zu erkennen (Objekterkennung) oder ein Bild als komplette Szene zu bewerten (Bildklassifikation). Im letzteren Fall lernt das Neuronale Netz eigenständig, relevante Objekte oder Szenenbereich im Rahmen der Auswertung zu identifizieren. Der Vorteil einer objektbasierten Klassifizierung ist die Robustheit gegenüber der Vielzahl möglicher Szenen, d.h. Hintergründe, Anzahl abgebildeter Personen oder Aufnahmeperspektiven haben deutlich weniger Einfluss, da nur nach dem Vorhandensein bestimmter Objekte gesucht wird. In [Fu05] wurden dafür beispielsweise als Objekte „männliche Geschlechtsorgane“, „weibliche Geschlechtsorgane“, „weibliche Brust“ und Gesäß“ gewählt. Problematisch für eine Übertragung dieser Kategorien in den Phänomenbereich Kinderpornografie ist, dass die Geschlechtsmerkmale altersbedingt noch nicht soweit ausgeprägt sind. So müsste die Klasse „weibliche Brust“ mindestens auf die Definition „Brustwarzen“ erweitert werden, da keine Geschlechtsunterscheidung möglich ist. Dies wurde beispielsweise in [Ya2021] für die Erkennung von pornografischem Bildmaterial betrachtet. Dieser Ansatz weist neben einer Sensitivität hinsichtlich Fehlklassifikationen ähnlicher Objekte und der Tatsache, dass die genannten Objekte sich hinsichtlich Größe und Form stark unterscheiden können, vor allem das Problem auf, dass die Objekte nicht unbedingt in der Bildszene präsent sein müssen. Wie bereits in Abschnitt 3.1 dargestellt, können kinderpornografische Aufnahmen auch bekleidete Kinder zeigen, die entsprechend posieren, oder aber die sexuelle Handlung ergibt sich nur durch die Position zweier Personen zueinander. Solche Szenen könnten, unabhängig von der Zusammenstellung der Trainingsdaten, niemals erkannt werden. Daher ist in jedem Fall eine szenenbasierte Klassifizierung einer objektbasierten vorzuziehen. 3.3 Unausgewogene Datenklassen Unabhängig von den tatsächlich gewählten Kategorien, in die differenziert werden soll (z.B. Kinder-/Jugendpornografie vs. Erwachsenenpornografie vs. irrelevant oder Kinder- /Jugendpornografie vs. irrelevant), existiert in jedem Fall eine Klasse „irrelevant“, die eine
sehr breite Definition aufweist, da sie quasi als „Resteklasse“ verwendet wird. Dies ist bei 884 Nicole Garbers und Michael Brodthage wissenschaftlichen Fragestellungen eher untypisch. Hier liegen eher die Anforderungen einer Klassifikation in Hundebild oder ein Katzenbild o.ä. vor, d.h. alle zu identifizierende Klassen lassen sich, auch für sich betrachtet, eindeutig abgrenzen. Bei der Fragestellung „Porno“ vs. „Nicht-Porno“ o.ä. definiert sich eine Klasse nur durch das Nicht- Vorhandensein der anderen Klasse und kann damit nahezu unendlich viele verschiedene Bildszenen enthalten. Diese Schwierigkeit versucht man im Allgemeinen durch die Auswahl eines entsprechend großen und diversen Trainingsdatensatzes zu lösen. In [Fu05] wurde als Alternative dazu vorgeschlagen, einen sogenannten Deep One-Class mit Pornographie-Erkennung zu verwenden. Ob dieser Ansatz in abgewandelter Form tatsächlich auch in dem hier vorliegenden Themenfeld Anwendung finden kann, muss noch untersucht werden. 3.4 Zusammenstellung Datenmaterial Eine weitere Schwierigkeit liegt in der Zusammenstellung von geeignetem Trainings- material. Da in Deutschland der Besitz kinder- und jugendpornografischer Schriften auch zu wissenschaftlichen Zwecken verboten ist, bestehen nur die Möglichkeiten, ausländische Kooperationspartner zu beauftragen, die Daten „verändert“, aber für das Neuronale Netz interpretierbar zur Verfügung zu stellen oder die Neuronalen Netze innerhalb der Polizeibehörden zu entwickeln. Je nach Wahl der Möglichkeit und deren Umsetzung kann dies zu der Situation führen, dass polizeiliche Ermittlungspersonen das Material vorauswählen und deren Bildinhalt aber während der Entwicklung des Neuronalen Netzes für die wissenschaftlichen Entwickler nicht einsehbar ist. Dadurch kann eine mögliche Unausgewogenheit z.B. bei der Szenenwahl in den Eingabedaten nicht mehr erkannt werden. Dies müsste bereits im Vorfeld bei der Zusammenstellung durch die Ermittlungsbehörde verhindert werden. Es gilt hierbei beispielsweise darauf zu achten, dass in jeder Klasse auch Aufnahmen von Personen jeglichen Alters dieser Klasse zu sehen sind, ebenso wie die Gleichverteilung bezüglich Geschlechter, Ethnie, Einzel vs. Gruppenaufnahmen, verschiedener Hintergründe wie Auto, Wald, Wiese oder abgedunkeltes Schlafzimmer, bearbeiteter Bilder mit Logos oder Schriftzug und vor allem der möglichen Szenen, die sich in Aufnahmewinkel (Nahaufnahmen, Eigenaufnahmen, professionale Studioaufnahmen) und Aufnahmemotiv deutlich unterscheiden können, um nur einige Aspekte zu nennen. Ebenso sollte sich nicht nur auf hochwertige Aufnahmen oder „Standardszenen“ konzentriert werden, denn dies beinhaltet die große Gefahr, dass gerade nicht „professional“ erstellte Bilder/Videos nicht richtig klassifiziert werden. Diese Bilder/Videos zeigen jedoch überproportional oft den aktuellen Missbrauch und sollten daher besonders sensitiv erkannt werden. Auf der anderen Seite dürfen die Bilder keine Gemeinsamkeiten enthalten, die nicht für die zugehörige Klasse Repräsentant sind. Würden beispielsweise nur Bilder eines bestimmten Fotostudios mit demselben blauen Hintergrund als Trainingsmate-rial für die Klasse Kinderpornografie gewählt werden, so bestünde die Gefahr, dass das Neuronale Netz zukünftig bei jedem blauen Hintergrund Kinderpornografie erkennen würde, wenn nicht auch in den anderen Klassen entsprechend oft ein blauer Hintergrund im Trainingsmaterial enthalten ist.
Wird die Zusammenstellung des Trainingsmaterial von Sachbearbeitern aus diesem Künstliche Intelligenz zur Erkennung von Kinderpornografie in Mediendateien 885 Phänomenbereich durchgeführt bzw. bestehende Datenbanken übernommen, so besteht die Gefahr, dass die Definition bzw. Abgrenzung der Klassen für das Training andere sind, als die unter denen die Daten zusammengestellt werden bzw. wurden. So beginnen Serienaufnahmen beispielsweise oft mit einem Alltagsbild wie z.B. einem Kind auf einem Fahrrad, welches sich erst auf späteren Aufnahmen entkleidet. Da diese Serien auf jedem Bild mit dem Logo versehen sein können und als Ganzes verbreitet werden, ist es aus polizeitaktischen Gründen sinnvoll, bereits das erste Alltags-bild mit diesem Logo als Indiz für das mögliche Vorhandensein inkriminierter Dateien zu werden, auch wenn es keine strafrechtliche Bedeutung hat. Für das Training eines Neuronalen Netzes (welches nicht das Erkennen solcher Schriftzüge zum Ziel hat), wäre die Einsortierung des ersten Alltagsbildes in beispielsweise Kinderpornografie hingegen eine Fehlklassifikation, die, falls sie in ausreichender Menge im Datensatz vorkommen, die Klassifizierungsqualität des Neuronalen Netzes erheblich negativ beeinflussen können. Welche Auswirkungen eine Fehlklassifikation bei der manuellen Bestimmung der Trainingsdaten haben kann, wurde in [Ch20] ausführlich am Beispiel eines Hunde/Katzen- bzw. eines bös-/gutartigen Hautmerkmal-Klassifikator untersucht. So wurde im Fall einer falsch vergebenen Kategorie im Trainingsdatensatz gezeigt, dass bereits eine Fehlklassifikation von 5 % zu einer Reduktion der Erkennungsrate um bis zu 9% führte. Im Fall weiterer Klassen, die sich teilweise nicht so eindeutig separieren lassen, wie beispielsweise die Kategorien Kinder-, Jugend- und Erwachsenenpornografie, ist zu erwarten das eine falsche Klassifizierung während der Trainingsphase zu einer noch höheren Reduktion der Erkennungsrate führen. Würde man diese Bilder aufgrund ihrer Fehlklassifikation als nicht-inkriminiertes Datenmaterial aus Gründen der notwendigen Datenreduktion bei Massendaten nicht mehr manuell sichten, so birgt jedes dieser Bilder die Gefahr, dass ein sich noch fortsetzender Missbrauch nicht erkannt und damit nicht beendet werden kann. Hinzukommt, dass in [Ch20] nur binäre Klassifizierungen betrachtet wurden. 3.5 Verzerrungen Die meisten Neuronalen Netze benötigen eine feste Größe der Bilder, hier wird standardmäßig häufig 224 x 224 gewählt. Dies führt jedoch in den allermeisten Fällen dazu, dass sich die Seitenverhältnisse im Vergleich zum Original verändern und es somit zu Verzerrungen der geometrischen Formen der abgebildeten Objekte kommt. In vielen Anwendungsbereichen der Bildklassifikation lässt sich die richtige Bildklasse an mehreren abgebildeten Objekten erkennen, z.B. Autos, Ampeln oder Straßenschilder für eine „Straßenszene“ vs. Palmen, Meer oder Sand für eine „Strandszene“. Bei der Unterscheidung eines inkriminierten Bildes von einem nicht strafbaren Bild hingegen kann ein einzelnes kleines Detail bzw. Objekt entscheidend sein, z.B. ein spielendes Kind in seinem Kinderzimmer, einmal jedoch wurde ihm der Hosenstall geöffnet und sein Geschlechtsteil wird „präsentiert“. Wird letztes nicht richtig erkannt, da es aufgrund von Verzerrungen beispielsweise statt einer länglichen Form eher elliptisch geworden ist, so
wird das gesamte Bild fehlklassifiziert. Der häufig in anderen Bereichen verwendete 886 Nicole Garbers und Michael Brodthage Ansatz der Data Augmentation durch Verzerrungen kommt aus denselben Gründen ebenfalls sehr schnell an seine Grenzen, da er nur funktioniert, wenn die eigentliche Information auf dem Bild noch gut erkennbar bleibt. Eine automatische Data Augmentation ohne visuelle Kontrolle kann dazu führen, dass Bilder, die bereits vor der Verzerrung nur grenzwertig eindeutig einer Kategorie zugeordnet werden konnten, die dazu vorliegenden Kriterien verlieren (z.B. Genitalbereich ist rasiert/hat noch keinen Haaransatz) und einer anderen Kategorie zugeordnet werden müssten. Neben einer Skalierung gibt es noch die Möglichkeit, nur jeweils einen 224 x 224 Pixel Ausschnitt des Bildes zu betrachten. Dieser kann zufällig gewählt werden oder aber die kürzeste Bildseite wird unter Beibehaltung der Seitenverhältnisse auf 224 Pixel skaliert und anschließend mittig ein Ausschnitt gebildet. Letzteres hat den Vorteil, dass das Bild nur an zwei Rändern abgeschnitten wird. Trotzdem bleibt die Gefahr bestehen, dass das „entscheidende Detail“ für die Erkennung von Kinderporno-grafie genau in diesem Bereich zu finden gewesen wäre. Eine noch höhere Bildabdeckung kann man durch die Verwendung mehrerer Ausschnitte pro Bild erreichen. In [Ch20] haben die Autoren daher als Lösungsansatz das sogenannte Scale Constraint Pooling vorgeschlagen, dass Eingabedaten verschiedener Größe in eine einheitliche Ausgabegröße konvertiert. 3.6 Vorschaubilder Alle Betriebssysteme und viele Anwendungsprogramme erstellen im zur schnelleren Darstellung Vorschaubilder, die auch noch existent sein können, wenn das Original-bild bereits gelöscht wurde. Daher spielen sie bei der Strafverfolgung eine entscheidende Rolle. Die Bilder liegen dabei häufig mit einer Farbauflösung von 32-bit und einer Größe von 32 x32 bis 256 x 256 Pixeln (teilweise auch größer) vor. Bei dieser Größe ist eine Erkennung von Details und damit eine treffsichere Klassifizierung erschwert. Dies zeigen auch Vergleiche aus anderen Anwendungsbereichen, wie beispielsweise die Tiny ImageNet Challenge im Vergleich zur ImageNet Challenge. Der Datensatz der Tiny ImageNet Challenge besteht aus 64x64 Bildern, während die Bilder im ImageNet Datensatz durchschnittlich 482x418 Pixel groß sind. Mit einem Ansatz aus der Sprachverarbeitung konnten Dosovitsky et al. [Do20] 2020 eine Steigerung der Erkennungsrate für den Tiny ImageNet Datensatz auf immerhin 84.65 % erreichen, während der gleiche Ansatz auf dem ImageNet Datensatz jedoch 88.55 % lieferte. Andere Neuronale Netze und Ansätze zeigen ähnliche Schwierigkeiten. In diesem Zusammenhang soll auf eine weitere Besonderheit bei der Anwendung Neuronaler Netz im strafrechtlichen Kontext verwiesen werden: Es darf hier keine Bewertung eines Bildinhaltes erfolgen, der „künstlich“ aufgrund von höchstmöglicher Wahrscheinlichkeit im Rahmen einer Auswertung erzeugt wurde. Dadurch ist beispielsweise die Verwendung sogenannter Generative Adversarial Networks, wie sie bei anderen Anwendungen häufig zur Erstellung photorealistischer Bilder bzw. zur Bildbearbeitung im Einsatz sind, ausgeschlossen.
Vielmehr wäre hier vermutlich zu empfehlen, in der Praxis verschiedene Neuronale Netze Künstliche Intelligenz zur Erkennung von Kinderpornografie in Mediendateien 887 in Abhängigkeit der Eingabegröße zu verwenden, um ein zu starkes Skalieren zu vermeiden und sich ggf. aufgrund der Bildqualität auf die Unterscheidung pornografisch bzw. nicht-pornografisch zu beschränken und keine Altersschätzung durchzuführen. Da am Ende der Beweisführung ein menschlicher Betrachter jederzeit in der Lage sein muss, aus dem vorhandenen Material dieselben Rückschlüsse ziehen zu können, sind hier gewissen Grenzen vorgegeben. 3.7 Teildefekte Bilder Bei wissenschaftlichen Fragestellungen wird vielfach mit genau definierten Trainings- und auch Testdatensätzen gearbeitet, wie beispielsweise ImageNet oder MS-COCO. Diese Bilder zeigen häufig nicht nur „Hochglanz“-Motive ohne Aufnahmefehler oder schlechter Beleuchtung, sondern weisen auch keine Beschädigungen im Format oder ihrer Darstellung auf. Im Anwendungsfall der Strafverfolgung ist dies jedoch häufig nicht gegeben. Im Rahmen der Datenwiederherstellung können in vielen Fällen nur noch Teilbereiche des Bildes wiederhergestellt werden, fehlende Zwischenstücke werden durch die forensische Aufbereitungssoftware „beliebig“ ergänzt, entsprechende Beispiele sind in Abb. 1 zu finden. Für das Neuronale Netz besteht vor der korrekten Interpretation der gezeigten Szene hier zuerst einmal die Schwierigkeit, die Szene von den Füllpixeln korrekt zu separieren. Im Fall, dass die eine einheitliche Füllfarbe vorliegt, könnte dieser Bereich als dominant prägend für die Klasse interpretiert werden und das Bild ähnlicher einer einheitlichen Farbkachel bewertet wird. Andernfalls, wenn verschiedenfarbige Pixel vorliegen, besteht die Gefahr, dass diese möglicherweise als eine Art Rauschen interpretiert werden und damit die Klassifikation stören können. Abb. 1. Beispiele für wiederhergestellte Dateien mit fehlenden Bildbereichen
4888 Nicole Zusammenfassung Garbers und Michael Brodthage Es wurde gezeigt, dass die Zusammenstellung des Trainingsmaterials detaillierte Kenntnisse sowohl des Phänomenbereichs Kinderpornografie bedarf als auch Kenntnisse aus der Entwicklung Neuronaler Netze, um mögliche unbeabsichtigte Korrelationen zwischen den Bildaufnahmen zu erkennen und ein Fehltraining des Neuronalen Netzes zu verhindern. Eine weitere Herausforderung stellt die sehr differenziale Bildauflösung des zu untersuchenden Datenmaterials in der Praxis dar, beginnend vom Vorschaubild bis zu hochauflösenden Aufnahmen. Im Rahmen Datenvorverarbeitung kann es außerdem zu ungünstigen Verzerrungen von für die richtige Klassifizierung relevanten Objekten kommen, die die Erkennung erschweren. Ebenso stellt sich die Frage, inwieweit Bild- dateien sehr verschiedener Auflösungen mit einem einzigen Neuronalen Netz und einheitlichen Kategorien sinnvoll behandelt werden können. Nach Wiederherstellung gelöschter Bilddateien kann eine Beschädigung des Bild-inhalts vorliegen, so dass nur noch ein Teil des Originalbildes sichtbar ist. Der fehlende Bereich wird dabei im Rahmen der Wiederherstellung ein- oder mehrfarbig motivlos gepixelt ergänzt. Da gerade diese Bilder im nicht-zerstörtem Bereich eine strafrechtliche Relevanz aufweisen können, sollten sie entweder ebenso korrekt wie ein vollständig vorliegendes Bild automatisch erkannt oder andernfalls als „nicht-bewertbar“ markiert werden. Literaturverzeichnis [An21] Ansprechstelle Kinderpornografie LKA Niedersachsen: interne Erhebung, 2021 [APR17] Avila, S., Perez, M., Rocha, A.: Leverage Deep Neural Networks to Fight Child Pornogra-phy in the Age of Social Media, Journal of Visual Communication and Image Represent-tion, Bd. 50, S. 303-3013, 2017 [Ba19] Banaeeyan, R., Karim, H. A., Lye, H., Fauzi, M. F. A., Mansor, S., See, J.: Automated Nudity Recognition using Very Deep Residual Learning Network, International Journal of Recent Technology and Engineering 8.3S, S.136-141, 2019 [Br21] Brazilian Federal Police, http://patreo.dcc.ufmg.br/datasets/rcpd/, 10.07.2021 [Ch20] Chen, J., Liang, G., He, W., Xu, Ch., Yang, J., Liu, R.: A Pornographic Images Recogni- tion Model based on Deep One-Class Classification With Visual Attention Mechanism, IEEE Access 8, S. 122709-122721, 2020 [Do20] Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., Houlsby, N.: An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale, arXiv:2010.11929, 2020 [Fu05] Fuangkhon, P.: Neural Network-Based Nipple Detection for Obscene Pictures, WSEAS Transactions on Computers ,4, S.1138-1145, 2005 [Ga2019] Garbers, N.: Erkennung inkriminierter Bilder: Neuronale Netzarchitekturen und Hautanteilfilter im Vergleich, Polizei-Informatik, S. 82 – 992, 2019 [IT12] Izadpanahi, S. and Toygar, O.: Geometric feature based age classification using facial imag-es, Conference on Image Processing (IPR), S. 1-5, 2012
[JWT18] Jin, X., Wang, Y., Tan. X.: Pornographic Image Recognition via Weighted Multiple Künstliche Intelligenz Instance Learning, zur IEEEErkennung von Transactions onKinderpornografie in Mediendateien 889 Cybernetics, S.1-9, 2018 [KHH21] Kaplan, S.; Handelman D., Handelman, A.: Sensitivity of neural networks to corruption of image classification, AI Ethics, S. 1-10, 2021 [MTH15] Moser, A., Temper, M., Haslinger, D.: Challenges and Limitations Concerning Automatic Child Pornography: Classification, 10th International Conference on Computer Vision Theory and Applications, 2015 [MCD] Macedo, J., Costa, F., dos Santos, J. A: A Benchmark Methodology for Child Pornography Detection, 31st SIBGRAPI Conference on Graphics, Patterns and Images (SIBGRAPI), S. 455-462, 2018 [Mo15] Moustafa, M.: Applying deep learning to classify pornographic images and videos, arXiv:1511.08899, 2015 [Pa16] Panis, G., Lanitis, A, Tsapatsoulis, N., Cootes T.F.: Overview of research on facial ageing using the FG-NET ageing database. IET Biom 5, S. 37–46, 2016 [PGK] Punyani, P., Gupta, R. & Kumar, A. Neural networks for facial age estimation: a survey on recent advances. Artif Intell Rev 53, S. 3299–3347, 2020. [Ya2021] Yang, K., Yau, J., Fei-Fei, L., Deng, J., Russakovsky, O.: A Study of Face Obfuscation in ImageNet. arXiv preprint arXiv:2103.06191, 2021
Sie können auch lesen