Herausforderungen beim Einsatz Künstlicher Intelligenz zur Erkennung von im Zusammenhang mit Kinderpornografie stehenden Mediendateien ...

Die Seite wird erstellt Haimo-Haio Weis
 
WEITER LESEN
Herausforderungen beim Einsatz Künstlicher Intelligenz zur Erkennung von im Zusammenhang mit Kinderpornografie stehenden Mediendateien ...
Gesellschaft für Informatik e.V. (GI) GI. (Hrsg.): INFORMATIK 2021,
                    Lecture Notes in Informatics (LNI), Gesellschaft für Informatik, Bonn 2021 879

Herausforderungen beim Einsatz Künstlicher Intelligenz
zur Erkennung von im Zusammenhang mit
Kinderpornografie stehenden Mediendateien

Nicole Garbers1, Michael Brodthage1

Abstract: Der Einsatz Neuronaler Netze bietet deutlich bessere Erkennungsraten bei kin-
derpornografischem Bild- und Videomaterial als beispielsweise Hautanteilfilter und stellt daher im
Rahmen der Strafverfolgung ein wichtiges Werkzeug zur Vorselektierung von Massendaten dar.
Trotz aller Erfolge gibt es beim Einsatz in der Praxis Herausforderungen, die noch detaillierter
betrachtet werden müssen. Diese Veröffentlichung beschäftigt sich mit verschiedenen Aspekten in
der Datenzusammenstellung des Trainingsmaterials und der Datenvorverarbeitung und zeigt anhand
von Beispielen deren jeweiligen Einfluss auf die spätere Klassifizierungsleistung des Neuronalen
Netzes unter den besonderen Herausforderungen bei der Verfolgung von im Zusammenhang mit
Kinderpornografie stehenden Straftaten.
Keywords: Neuronale Netze, Datenvorverarbeitung, Erkennung von Kinderpornografie

1       Einleitung

In den vergangenen Jahren ist durch die fortschreitende Digitalisierung die Datenmenge
sichergestellter Asservate in allen Phänomenbereichen kontinuierlich stark angestiegen,
ganz besonders davon betroffen ist der Bereich der im Zusammenhang mit Kinder- und
Jugendpornografie stehenden Straftaten. Im Jahr 2020 haben allein die
Ermittlungsbehörden in Niedersachsen 2373 Terabyte sichergestellt [An21].
Als Kinderpornografie wird dabei im Sinne des §184b Strafgesetzbuch eine fotore-
alistische Darstellung sexueller Handlungen von, an oder vor einer Person unter 14 Jahren
(Kind) bzw. die Wiedergabe eines ganz oder teilweise unbekleideten Kindes in aufreizend
geschlechtsbetonter Körperhaltung oder die sexuell aufreizende Wiedergabe der
unbekleideten Genitalien/des Geschlechts bezeichnet. Es ist sowohl die Verbreitung, der
Erwerb als auch der Besitz kinderpornografischer Inhalte strafbar. Bei
jugendpornografischen Inhalten, ist die Person 14 Jahre oder älter, aber noch nicht 18
Jahre alt.
Da jede solcher Darstellung einen tatsächlichen Missbrauch zeigt, ist neben einer
Verbreitungshandlung auch immer zu untersuchen, ob möglicherweise ein aktueller
Missbrauch vorliegt. Solche Fälle dürfen auf keinen Fall im sichergestelltem Datenvo-
lumen „untergehen“ – auch nicht im Fall immer steigender Datenmengen.

1
    Landeskriminalamt Niedersachsen, Am Waterlooplatz 11, 30169 Hannover

cba
Auf der anderen Seite treibt die Digitalisierung, verbunden mit zunehmend besserer
880 Nicole Garbers und Michael Brodthage
Hardwareleistung, aber auch die Entwicklung und den Einsatz neuer Technologien voran.
So sind inzwischen in den meisten Smart Devices im Haus oder im Smartphone zahlreiche
Serviceleistungen vorhanden, die auf den Einsatz Künstlicher Intelligenz bzw. Neuronaler
Netze beruhen. Da liegt es nahe, zu überprüfen, inwieweit solche technischen Ansätze zur
Bewertung großer unstrukturierter Datenmangen auch bei der Strafverfolgung im
Zusammenhang mit Kinder- und Jugendpornographie stehenden Straftaten unterstützen
können.
In der Vergangenheit eingesetzte Hautanteilfilter liefern in vielen Fällen keine geeignete
Vorselektierung. Nicht nur spielt die Hautfarbe der abgebildeten Person fälschlicherweise
eine entscheidende Rolle wie in [KHH21] gezeigt wurde, sondern es kommt auch zu
unvermeidbaren Fehlinterpretationen bei vielen häufig vorkommenden Bildszenen
innerhalb des gesicherten Datenmaterials. So werden Selfies mit einer Nahaufnahme des
eigenen Gesichts fälschlicherweise als pornografisch erkannt, während
kinderpornografische Szenen bei schlechter Beleuchtung (z. B. Eigenaufnahmen der
Kinder in die Unterhose, rote Beleuchtung) oder Aufnahmen mit nur einem kleinen
Hautanteil (z.B. verkleidetes Kind vor buntdekoriertem Hintergrund mit teilweise
entblößtem Genitalbereich) nicht erkannt werden.
Deutlich bessere Ergebnisse verspricht der Einsatz Neuronaler Netze in diesem Bereich
[Ga2019]. Doch trotz erster Erfolge im Rahmen wissenschaftlicher Betrachtungen sind
bei der Übertragung in die polizeiliche Praxis noch Besonderheiten zu beachten, die in
dieser Veröffentlichung näher beleuchtet und dargelegt werden.

2     Neuronale Netze zur Erkennung von Kinderpornografie

Automatische Klassifizierungsansätze zur Erkennung von Kinder-/Jugendpornografie
haben zu einem die Aufgabe, pornografische Szenen zu erkennen, zum anderen, für die
abgebildeten Personen zu bestimmen ob diese unter 14 Jahren bzw. 14 Jahre und älter aber
jünger als 18 Jahre sind. In der Literatur findet man dazu unterschiedliche Ansätze, die
anfangs auf Hautanteilfiltern basierten, inzwischen aber zumeist auf einem oder mehreren
Neuronalen Netzen aufbauen. Dabei kann die Klassifikation in die beiden oben
beschriebenen Aufgaben aufgeteilt und dann zusammengeführt werden, oder aber ein
Neuronales Netz verwendet werden, welches sowohl die Erkennung von Pornografie als
auch die Altersschätzung gelernt hat.
Einen Workflow zur Erkennung von Kinderpornografie, der aus einer Kombination von
Gesichtserkennung zur Altersschätzung und einer Berechnung des Hauttonanteils besteht,
stellen beispielsweise Moser et al. in [MTH15] vor. Zur Altersschätzung wird sich dabei
auf bestimmte Regionen der Augen, der Nase und des Mundes konzentriert. Bestimmte
geometrische Verhältnisse in diesem Bereich sollen es ermöglichen, eine Unterscheidung
zwischen „Kind“ und „Erwachsener“ zu treffen [IT12]. Allerdings zeigen Moser et al.,
dass dieses Vorgehen auf den dortigen Testdaten keinen Erfolg aufweist: 2/3 der Gesichter
wurden falsch klassifiziert.
Zur Erkennung von Pornografie wurde der in einem bestimmten Gesichtsbereich
     Künstliche Intelligenz zur Erkennung von Kinderpornografie in Mediendateien 881
dominierende Farbton als individueller Hautton angenommen und als Grenzwert bei der
anschließend durchgeführten Filterung nach sichtbarer Haut verwendet. Hier konnte eine
Erkennung von Pornografie in 84 % der Fälle erreicht werden, die Falsch-Positiv-Rate
wurde dabei jedoch nicht genannt. In Summe bewerten die Autoren ihr Vorgehen für
fehleranfällig und nicht für die Praxis geeignet.
Der Einsatz Neuronaler Netze bietet hier deutlich bessere Ergebnisse. In [Ga2019] wurden
auf einem Testdatensatz aus 42.000 Bildern die Klassifizierungsleistung eines HSV- und
eines YcbCr-Filters mit derer von drei verschiedenen Neuronalen Netzarchitekturen
(VGG-19, ResNet152, DenseNet) verglichen. Dabei konnte durch die Verwendung eines
Hautanteilfilters Erwachsenenpornografie zu 63.25% (YcbCr) bzw. 63.06% (HSV)
erkannt werden. Ein leicht schlechteres Ergebnis konnte ebenfalls für Jugendpornografie
erreicht werden (59.12% (YcbCr), 62.44% (HSV)), während kinderpornografisches
Material nur zu 47.71% (YcbCr) bzw. 50.38% (HSV) erkannt wurde. Die Falsch-Positiv-
Rate betrug dabei 14.25 % (YcbCr) bzw. 18.25% (HSV).
Für das DenseNet als beispielhafter Vertreter der untersuchten Neuronalen Netze zeigten
sich deutlich bessere Ergebnisse. So konnten 99.46 % der jugendpornografischen Bilder,
98.80% der kinderpornografischen Bilder und 98.38 % der pornografischen Bilder als
pornografisch erkannt werden. Gleichzeitig betrug die Falsch-Positiv-Rate auf den
Alltagsbildern 15.13%.
Ähnlich gute Ergebnisse wurden auch in [APR17] bestätigt.
In [MCD] wurde ebenfalls ein aus Altersschätzung und Pornografieerkennung
bestehender Workflow vorgestellt. Dieser bestand jedoch im Gegensatz zu [MTH15] aus
zwei Neuronalen Netzen. Damit erreichen die Autoren bei der Unterscheidung „Kind“
„Erwachsener“ eine Genauigkeit von über 94 % auf den mehr als 500.000 Bilder
umfassenden Datensatz IMDB-WIKI-101 und auf dem RCPD Datensatz (region-based
annotated child pornography dataset [8]) der brasilianischen Polizei mit kinderporno-
grafischen Bildern eine Genauigkeit von ca. 82%. Ähnlich gute Ergebnisse konnten bei
der Erkennung von Pornografie in dem RCPD Datensatz erreicht werden. Kombiniert man
jedoch diese beiden Netze, um tatsächlich Kinderpornografie im RCPD Datensatz zu
erkennen, beträgt die Falsch-Positiv-Rate 68% und die Falsch-Negativ-Rate 64.61%.
Dies zeigt deutlich, dass es bei der Übertragung von wissenschaftlichen Erkenntnissen in
den praktischen Wirkbetrieb noch Problemstellungen gibt, die besonders betrachtet
werden müssen.

3    Besondere Problemstellungen im Phänomenbereich
     Kinderpornografie

Dieses Kapitel beleuchtet die verschiedenen Aspekte bezüglich der Auswahl, des
Trainings und des Einsatzes im Wirkbetrieb von Neuronalen Netzen im Phänomenbereich
Kinderpornografie. Es werden die Besonderheiten und die sich daraus ergebenen
Anforderungen sowie noch offenen Problemstellungen dargestellt.
3.1  Auswahl der Kategorien
882 Nicole Garbers und Michael Brodthage
Aus strafrechtlichen Aspekten ist die Erkennung von kinder- und jugendpornografischer
Bilder und Videos relevant. Dabei spricht man in Deutschland von Kinderpornografie,
wenn eine abgebildete Person jünger als 14 Jahre ist. Diese Definition ist international
jedoch nicht einheitlich, so gilt beispielsweise in Australien je nach Territorium eine
Altersgrenze von 16, 17 oder 18 Jahren und in den USA eine Altersgrenze von 18 Jahren.
Eine Differenzierung in Kinder- und Jugendpornografie wie in Deutschland findet somit
nicht statt.
Auch bei der Bewertung der Bildszene gibt es nationale Unterschiede, so fällt in
Deutschland auch ein nur teilweise unbekleidetes Kind in aufreizend geschlechtsbetonter
Körperhaltung unter den Begriff der Kinderpornografie, während in Österreich eine
sexuelle Handlung, Genitalien oder die Schamgegend sichtbar sein müssen.
Dies führt dazu, dass Neuronale Netze zu dieser Fragestellung aufgrund der
unterschiedlichen Anforderungen nicht ohne weiteres von internationalen
Forschungsgruppen übernommen werden können.
Die korrekte Altersschätzung stellt dabei ein besonderes Problem da. Auch wenn es
inzwischen auch für diese Fragestellung eine Vielzahl von Neuronalen Netzen gibt, so
weisen sie alle nicht die benötigte Genauigkeit auf. Bereits eine Varianz von +/- 3 Jahren
[PGK], [Pa16], die im Erwachsenenbereich häufig ausreichend ist, würde bei der hier
vorliegenden Fragestellung zu einer falschen Eingruppierung der abgebildeten Person
führen. Erschwerend kommt hinzu, dass die meisten Neuronalen Netze entweder
Gesichtszüge interpretieren oder das Alter anhand von Körperproportionen schätzen.
Während Kleinkinder beim Verhältnis Kopf zu Körper ein Verhältnis von 1:5 aufweisen,
ändert sich dies für Schulkinder zu 1:6, bevor zu Beginn der Pubertät ein vermehrtes
Längenwachstum der Gliedmaßen einsetzt. In kinder- bzw. jugendpornographischen
Aufnahmen sind jedoch häufig weder Gesichtszüge noch ausreichend Körperproportionen
sichtbar, um darauf basierend mit bereits existierenden Lösungen eine Altersschätzung
durchführen zu können.

Aus technischen Gründen stellt sich außerdem die Frage, wie es sich am besten realisieren
lässt, drei eher ähnliche Kategorien von einer sehr breit gefassten Kategorie zu trennen,
siehe auch Kapitel 3.3. So ist der Übergang von Kinder- zu Jugendpornografie bzw.
Jugend- zu Erwachsenenpornografie als eher fließend zu betrachten, während irrelevante
Szenen deutlich andere Themenfelder zeigen. Schwierig hiervon zu trennen, sind jedoch
wiederum kinderpornografische Szenen, in denen das Kind beispielsweise vollständig
bekleidet ist und „verkleidet“ sexuell anregend posieren muss. Diese Betrachtungen
zeigen, dass typische „NudeNetze“ zur Pornografieerkennung [Ba19], [Mo15], [JWT18]
bei dieser Fragestellung nicht eingesetzt werden können.
Bei kinderpornografische Szenen, in denen das Kind beispielsweise vollständig bekleidet
ist und „verkleidet“ sexuell anregend posieren muss, ist eine Abgrenzung zu dem
Alltagsbereich als schwierig einzustufen, da es nicht ausreicht, wenn das Neuronale Netz
Bilder dieser Art anhand eines vorhandenen bzw. nicht vorhandenen Haut-anteils
bewerten würde. Das Gesicht als auch unbekleidete Arme/Beine beim Tragen einer
     Künstliche Intelligenz zur Erkennung von Kinderpornografie in Mediendateien 883
Sommerbekleidung sind anatomisch kleiner als der Geschlechtsbereich dieser Person, so
dass ein hier keine Differenzierung über die Summe der insgesamt vorliegenden Pixel mit
Hautfarbe erfolgen kann. In [Ya2021] untersuchten die Autoren die Verbreitung von
Gesichtern über die verschiedenen Kategorien des Imagenet-Datensatzes und zeigten, dass
in 106 Kategorien, mehr als die Hälfte der Bilder dieser Kategorie Gesichter beinhalteten.
Dies verdeutlicht, dass, in einem diversen Datensatz unterschiedlicher Themenbereiche,
Gesichter immer eine dominierende Rolle spielen und ein Hautanteilfilter, wie bereits in
Abschnitt 2 beschrieben, kein geeigneten Ansatz liefert.

3.2    Objekterkennung vs. Szenenerkennung

Prinzipiell bietet sich zwei unterschiedliche Ansätze zur Umsetzung an. Es ist sowohl
möglich, ein Neuronales Netz zu trainieren, bestimmte Objekte wie beispielsweise
Geschlechtsteile oder Brustwarzen zu erkennen (Objekterkennung) oder ein Bild als
komplette Szene zu bewerten (Bildklassifikation). Im letzteren Fall lernt das Neuronale
Netz eigenständig, relevante Objekte oder Szenenbereich im Rahmen der Auswertung zu
identifizieren.
Der Vorteil einer objektbasierten Klassifizierung ist die Robustheit gegenüber der
Vielzahl möglicher Szenen, d.h. Hintergründe, Anzahl abgebildeter Personen oder
Aufnahmeperspektiven haben deutlich weniger Einfluss, da nur nach dem Vorhandensein
bestimmter Objekte gesucht wird. In [Fu05] wurden dafür beispielsweise als Objekte
„männliche Geschlechtsorgane“, „weibliche Geschlechtsorgane“, „weibliche Brust“ und
Gesäß“ gewählt. Problematisch für eine Übertragung dieser Kategorien in den
Phänomenbereich Kinderpornografie ist, dass die Geschlechtsmerkmale altersbedingt
noch nicht soweit ausgeprägt sind. So müsste die Klasse „weibliche Brust“ mindestens auf
die Definition „Brustwarzen“ erweitert werden, da keine Geschlechtsunterscheidung
möglich ist. Dies wurde beispielsweise in [Ya2021] für die Erkennung von
pornografischem Bildmaterial betrachtet.
Dieser Ansatz weist neben einer Sensitivität hinsichtlich Fehlklassifikationen ähnlicher
Objekte und der Tatsache, dass die genannten Objekte sich hinsichtlich Größe und Form
stark unterscheiden können, vor allem das Problem auf, dass die Objekte nicht unbedingt
in der Bildszene präsent sein müssen. Wie bereits in Abschnitt 3.1 dargestellt, können
kinderpornografische Aufnahmen auch bekleidete Kinder zeigen, die entsprechend
posieren, oder aber die sexuelle Handlung ergibt sich nur durch die Position zweier
Personen zueinander. Solche Szenen könnten, unabhängig von der Zusammenstellung der
Trainingsdaten, niemals erkannt werden. Daher ist in jedem Fall eine szenenbasierte
Klassifizierung einer objektbasierten vorzuziehen.

3.3    Unausgewogene Datenklassen

Unabhängig von den tatsächlich gewählten Kategorien, in die differenziert werden soll
(z.B. Kinder-/Jugendpornografie vs. Erwachsenenpornografie vs. irrelevant oder Kinder-
/Jugendpornografie vs. irrelevant), existiert in jedem Fall eine Klasse „irrelevant“, die eine
sehr breite Definition aufweist, da sie quasi als „Resteklasse“ verwendet wird. Dies ist bei
 884 Nicole Garbers und Michael Brodthage
wissenschaftlichen Fragestellungen eher untypisch. Hier liegen eher die Anforderungen
einer Klassifikation in Hundebild oder ein Katzenbild o.ä. vor, d.h. alle zu identifizierende
Klassen lassen sich, auch für sich betrachtet, eindeutig abgrenzen. Bei der Fragestellung
„Porno“ vs. „Nicht-Porno“ o.ä. definiert sich eine Klasse nur durch das Nicht-
Vorhandensein der anderen Klasse und kann damit nahezu unendlich viele verschiedene
Bildszenen enthalten. Diese Schwierigkeit versucht man im Allgemeinen durch die
Auswahl eines entsprechend großen und diversen Trainingsdatensatzes zu lösen. In [Fu05]
wurde als Alternative dazu vorgeschlagen, einen sogenannten Deep One-Class mit
Pornographie-Erkennung zu verwenden. Ob dieser Ansatz in abgewandelter Form
tatsächlich auch in dem hier vorliegenden Themenfeld Anwendung finden kann, muss
noch untersucht werden.

3.4    Zusammenstellung Datenmaterial

Eine weitere Schwierigkeit liegt in der Zusammenstellung von geeignetem Trainings-
material. Da in Deutschland der Besitz kinder- und jugendpornografischer Schriften auch
zu wissenschaftlichen Zwecken verboten ist, bestehen nur die Möglichkeiten,
ausländische Kooperationspartner zu beauftragen, die Daten „verändert“, aber für das
Neuronale Netz interpretierbar zur Verfügung zu stellen oder die Neuronalen Netze
innerhalb der Polizeibehörden zu entwickeln. Je nach Wahl der Möglichkeit und deren
Umsetzung kann dies zu der Situation führen, dass polizeiliche Ermittlungspersonen das
Material vorauswählen und deren Bildinhalt aber während der Entwicklung des
Neuronalen Netzes für die wissenschaftlichen Entwickler nicht einsehbar ist. Dadurch
kann eine mögliche Unausgewogenheit z.B. bei der Szenenwahl in den Eingabedaten nicht
mehr erkannt werden. Dies müsste bereits im Vorfeld bei der Zusammenstellung durch
die Ermittlungsbehörde verhindert werden. Es gilt hierbei beispielsweise darauf zu achten,
dass in jeder Klasse auch Aufnahmen von Personen jeglichen Alters dieser Klasse zu
sehen sind, ebenso wie die Gleichverteilung bezüglich Geschlechter, Ethnie, Einzel vs.
Gruppenaufnahmen, verschiedener Hintergründe wie Auto, Wald, Wiese oder
abgedunkeltes Schlafzimmer, bearbeiteter Bilder mit Logos oder Schriftzug und vor allem
der möglichen Szenen, die sich in Aufnahmewinkel (Nahaufnahmen, Eigenaufnahmen,
professionale Studioaufnahmen) und Aufnahmemotiv deutlich unterscheiden können, um
nur einige Aspekte zu nennen. Ebenso sollte sich nicht nur auf hochwertige Aufnahmen
oder „Standardszenen“ konzentriert werden, denn dies beinhaltet die große Gefahr, dass
gerade nicht „professional“ erstellte Bilder/Videos nicht richtig klassifiziert werden. Diese
Bilder/Videos zeigen jedoch überproportional oft den aktuellen Missbrauch und sollten
daher besonders sensitiv erkannt werden.
Auf der anderen Seite dürfen die Bilder keine Gemeinsamkeiten enthalten, die nicht für
die zugehörige Klasse Repräsentant sind. Würden beispielsweise nur Bilder eines
bestimmten Fotostudios mit demselben blauen Hintergrund als Trainingsmate-rial für die
Klasse Kinderpornografie gewählt werden, so bestünde die Gefahr, dass das Neuronale
Netz zukünftig bei jedem blauen Hintergrund Kinderpornografie erkennen würde, wenn
nicht auch in den anderen Klassen entsprechend oft ein blauer Hintergrund im
Trainingsmaterial enthalten ist.
Wird die Zusammenstellung des Trainingsmaterial von Sachbearbeitern aus diesem
      Künstliche Intelligenz zur Erkennung von Kinderpornografie in Mediendateien 885
Phänomenbereich durchgeführt bzw. bestehende Datenbanken übernommen, so besteht
die Gefahr, dass die Definition bzw. Abgrenzung der Klassen für das Training andere sind,
als die unter denen die Daten zusammengestellt werden bzw. wurden. So beginnen
Serienaufnahmen beispielsweise oft mit einem Alltagsbild wie z.B. einem Kind auf einem
Fahrrad, welches sich erst auf späteren Aufnahmen entkleidet. Da diese Serien auf jedem
Bild mit dem Logo versehen sein können und als Ganzes verbreitet werden, ist es aus
polizeitaktischen Gründen sinnvoll, bereits das erste Alltags-bild mit diesem Logo als
Indiz für das mögliche Vorhandensein inkriminierter Dateien zu werden, auch wenn es
keine strafrechtliche Bedeutung hat. Für das Training eines Neuronalen Netzes (welches
nicht das Erkennen solcher Schriftzüge zum Ziel hat), wäre die Einsortierung des ersten
Alltagsbildes in beispielsweise Kinderpornografie hingegen eine Fehlklassifikation, die,
falls sie in ausreichender Menge im Datensatz vorkommen, die Klassifizierungsqualität
des Neuronalen Netzes erheblich negativ beeinflussen können.
Welche Auswirkungen eine Fehlklassifikation bei der manuellen Bestimmung der
Trainingsdaten haben kann, wurde in [Ch20] ausführlich am Beispiel eines
Hunde/Katzen- bzw. eines bös-/gutartigen Hautmerkmal-Klassifikator untersucht. So
wurde im Fall einer falsch vergebenen Kategorie im Trainingsdatensatz gezeigt, dass
bereits eine Fehlklassifikation von 5 % zu einer Reduktion der Erkennungsrate um bis zu
9% führte.
Im Fall weiterer Klassen, die sich teilweise nicht so eindeutig separieren lassen, wie
beispielsweise die Kategorien Kinder-, Jugend- und Erwachsenenpornografie, ist zu
erwarten das eine falsche Klassifizierung während der Trainingsphase zu einer noch
höheren Reduktion der Erkennungsrate führen.
Würde man diese Bilder aufgrund ihrer Fehlklassifikation als nicht-inkriminiertes
Datenmaterial aus Gründen der notwendigen Datenreduktion bei Massendaten nicht mehr
manuell sichten, so birgt jedes dieser Bilder die Gefahr, dass ein sich noch fortsetzender
Missbrauch nicht erkannt und damit nicht beendet werden kann. Hinzukommt, dass in
[Ch20] nur binäre Klassifizierungen betrachtet wurden.

3.5    Verzerrungen

Die meisten Neuronalen Netze benötigen eine feste Größe der Bilder, hier wird
standardmäßig häufig 224 x 224 gewählt. Dies führt jedoch in den allermeisten Fällen
dazu, dass sich die Seitenverhältnisse im Vergleich zum Original verändern und es somit
zu Verzerrungen der geometrischen Formen der abgebildeten Objekte kommt. In vielen
Anwendungsbereichen der Bildklassifikation lässt sich die richtige Bildklasse an
mehreren abgebildeten Objekten erkennen, z.B. Autos, Ampeln oder Straßenschilder für
eine „Straßenszene“ vs. Palmen, Meer oder Sand für eine „Strandszene“. Bei der
Unterscheidung eines inkriminierten Bildes von einem nicht strafbaren Bild hingegen
kann ein einzelnes kleines Detail bzw. Objekt entscheidend sein, z.B. ein spielendes Kind
in seinem Kinderzimmer, einmal jedoch wurde ihm der Hosenstall geöffnet und sein
Geschlechtsteil wird „präsentiert“. Wird letztes nicht richtig erkannt, da es aufgrund von
Verzerrungen beispielsweise statt einer länglichen Form eher elliptisch geworden ist, so
wird das gesamte Bild fehlklassifiziert. Der häufig in anderen Bereichen verwendete
886 Nicole Garbers und Michael Brodthage
Ansatz der Data Augmentation durch Verzerrungen kommt aus denselben Gründen
ebenfalls sehr schnell an seine Grenzen, da er nur funktioniert, wenn die eigentliche
Information auf dem Bild noch gut erkennbar bleibt. Eine automatische Data
Augmentation ohne visuelle Kontrolle kann dazu führen, dass Bilder, die bereits vor der
Verzerrung nur grenzwertig eindeutig einer Kategorie zugeordnet werden konnten, die
dazu vorliegenden Kriterien verlieren (z.B. Genitalbereich ist rasiert/hat noch keinen
Haaransatz) und einer anderen Kategorie zugeordnet werden müssten.
Neben einer Skalierung gibt es noch die Möglichkeit, nur jeweils einen 224 x 224 Pixel
Ausschnitt des Bildes zu betrachten. Dieser kann zufällig gewählt werden oder aber die
kürzeste Bildseite wird unter Beibehaltung der Seitenverhältnisse auf 224 Pixel skaliert
und anschließend mittig ein Ausschnitt gebildet. Letzteres hat den Vorteil, dass das Bild
nur an zwei Rändern abgeschnitten wird. Trotzdem bleibt die Gefahr bestehen, dass das
„entscheidende Detail“ für die Erkennung von Kinderporno-grafie genau in diesem
Bereich zu finden gewesen wäre. Eine noch höhere Bildabdeckung kann man durch die
Verwendung mehrerer Ausschnitte pro Bild erreichen.
In [Ch20] haben die Autoren daher als Lösungsansatz das sogenannte Scale Constraint
Pooling vorgeschlagen, dass Eingabedaten verschiedener Größe in eine einheitliche
Ausgabegröße konvertiert.

3.6    Vorschaubilder

Alle Betriebssysteme und viele Anwendungsprogramme erstellen im zur schnelleren
Darstellung Vorschaubilder, die auch noch existent sein können, wenn das Original-bild
bereits gelöscht wurde. Daher spielen sie bei der Strafverfolgung eine entscheidende
Rolle. Die Bilder liegen dabei häufig mit einer Farbauflösung von 32-bit und einer Größe
von 32 x32 bis 256 x 256 Pixeln (teilweise auch größer) vor. Bei dieser Größe ist eine
Erkennung von Details und damit eine treffsichere Klassifizierung erschwert. Dies zeigen
auch Vergleiche aus anderen Anwendungsbereichen, wie beispielsweise die Tiny
ImageNet Challenge im Vergleich zur ImageNet Challenge. Der Datensatz der Tiny
ImageNet Challenge besteht aus 64x64 Bildern, während die Bilder im ImageNet
Datensatz durchschnittlich 482x418 Pixel groß sind. Mit einem Ansatz aus der
Sprachverarbeitung konnten Dosovitsky et al. [Do20] 2020 eine Steigerung der
Erkennungsrate für den Tiny ImageNet Datensatz auf immerhin 84.65 % erreichen,
während der gleiche Ansatz auf dem ImageNet Datensatz jedoch 88.55 % lieferte. Andere
Neuronale Netze und Ansätze zeigen ähnliche Schwierigkeiten.
In diesem Zusammenhang soll auf eine weitere Besonderheit bei der Anwendung
Neuronaler Netz im strafrechtlichen Kontext verwiesen werden: Es darf hier keine
Bewertung eines Bildinhaltes erfolgen, der „künstlich“ aufgrund von höchstmöglicher
Wahrscheinlichkeit im Rahmen einer Auswertung erzeugt wurde. Dadurch ist
beispielsweise die Verwendung sogenannter Generative Adversarial Networks, wie sie bei
anderen Anwendungen häufig zur Erstellung photorealistischer Bilder bzw. zur
Bildbearbeitung im Einsatz sind, ausgeschlossen.
Vielmehr wäre hier vermutlich zu empfehlen, in der Praxis verschiedene Neuronale Netze
     Künstliche Intelligenz zur Erkennung von Kinderpornografie in Mediendateien 887
in Abhängigkeit der Eingabegröße zu verwenden, um ein zu starkes Skalieren zu
vermeiden und sich ggf. aufgrund der Bildqualität auf die Unterscheidung pornografisch
bzw. nicht-pornografisch zu beschränken und keine Altersschätzung durchzuführen. Da
am Ende der Beweisführung ein menschlicher Betrachter jederzeit in der Lage sein muss,
aus dem vorhandenen Material dieselben Rückschlüsse ziehen zu können, sind hier
gewissen Grenzen vorgegeben.

3.7    Teildefekte Bilder

Bei wissenschaftlichen Fragestellungen wird vielfach mit genau definierten Trainings-
und auch Testdatensätzen gearbeitet, wie beispielsweise ImageNet oder MS-COCO. Diese
Bilder zeigen häufig nicht nur „Hochglanz“-Motive ohne Aufnahmefehler oder schlechter
Beleuchtung, sondern weisen auch keine Beschädigungen im Format oder ihrer
Darstellung auf. Im Anwendungsfall der Strafverfolgung ist dies jedoch häufig nicht
gegeben. Im Rahmen der Datenwiederherstellung können in vielen Fällen nur noch
Teilbereiche des Bildes wiederhergestellt werden, fehlende Zwischenstücke werden durch
die forensische Aufbereitungssoftware „beliebig“ ergänzt, entsprechende Beispiele sind
in Abb. 1 zu finden. Für das Neuronale Netz besteht vor der korrekten Interpretation der
gezeigten Szene hier zuerst einmal die Schwierigkeit, die Szene von den Füllpixeln korrekt
zu separieren. Im Fall, dass die eine einheitliche Füllfarbe vorliegt, könnte dieser Bereich
als dominant prägend für die Klasse interpretiert werden und das Bild ähnlicher einer
einheitlichen Farbkachel bewertet wird. Andernfalls, wenn verschiedenfarbige Pixel
vorliegen, besteht die Gefahr, dass diese möglicherweise als eine Art Rauschen
interpretiert werden und damit die Klassifikation stören können.

          Abb. 1. Beispiele für wiederhergestellte Dateien mit fehlenden Bildbereichen
4888 Nicole
     Zusammenfassung
            Garbers und Michael Brodthage

Es wurde gezeigt, dass die Zusammenstellung des Trainingsmaterials detaillierte
Kenntnisse sowohl des Phänomenbereichs Kinderpornografie bedarf als auch Kenntnisse
aus der Entwicklung Neuronaler Netze, um mögliche unbeabsichtigte Korrelationen
zwischen den Bildaufnahmen zu erkennen und ein Fehltraining des Neuronalen Netzes zu
verhindern.
Eine weitere Herausforderung stellt die sehr differenziale Bildauflösung des zu
untersuchenden Datenmaterials in der Praxis dar, beginnend vom Vorschaubild bis zu
hochauflösenden Aufnahmen. Im Rahmen Datenvorverarbeitung kann es außerdem zu
ungünstigen Verzerrungen von für die richtige Klassifizierung relevanten Objekten
kommen, die die Erkennung erschweren. Ebenso stellt sich die Frage, inwieweit Bild-
dateien sehr verschiedener Auflösungen mit einem einzigen Neuronalen Netz und
einheitlichen Kategorien sinnvoll behandelt werden können.
Nach Wiederherstellung gelöschter Bilddateien kann eine Beschädigung des Bild-inhalts
vorliegen, so dass nur noch ein Teil des Originalbildes sichtbar ist. Der fehlende Bereich
wird dabei im Rahmen der Wiederherstellung ein- oder mehrfarbig motivlos gepixelt
ergänzt. Da gerade diese Bilder im nicht-zerstörtem Bereich eine strafrechtliche Relevanz
aufweisen können, sollten sie entweder ebenso korrekt wie ein vollständig vorliegendes
Bild automatisch erkannt oder andernfalls als „nicht-bewertbar“ markiert werden.
Literaturverzeichnis
[An21]    Ansprechstelle Kinderpornografie LKA Niedersachsen: interne Erhebung, 2021
[APR17]   Avila, S., Perez, M., Rocha, A.: Leverage Deep Neural Networks to Fight Child
          Pornogra-phy in the Age of Social Media, Journal of Visual Communication and Image
          Represent-tion, Bd. 50, S. 303-3013, 2017
[Ba19]    Banaeeyan, R., Karim, H. A., Lye, H., Fauzi, M. F. A., Mansor, S., See, J.: Automated
          Nudity Recognition using Very Deep Residual Learning Network, International Journal
          of Recent Technology and Engineering 8.3S, S.136-141, 2019
[Br21]    Brazilian Federal Police, http://patreo.dcc.ufmg.br/datasets/rcpd/, 10.07.2021
[Ch20]    Chen, J., Liang, G., He, W., Xu, Ch., Yang, J., Liu, R.: A Pornographic Images Recogni-
          tion Model based on Deep One-Class Classification With Visual Attention Mechanism,
          IEEE Access 8, S. 122709-122721, 2020
[Do20]    Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T.,
          Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., Houlsby, N.: An
          Image is Worth 16x16 Words: Transformers for Image Recognition at Scale,
          arXiv:2010.11929, 2020
[Fu05]    Fuangkhon, P.: Neural Network-Based Nipple Detection for Obscene Pictures, WSEAS
          Transactions on Computers ,4, S.1138-1145, 2005
[Ga2019] Garbers, N.: Erkennung inkriminierter Bilder: Neuronale Netzarchitekturen und
         Hautanteilfilter im Vergleich, Polizei-Informatik, S. 82 – 992, 2019
[IT12]    Izadpanahi, S. and Toygar, O.: Geometric feature based age classification using facial
          imag-es, Conference on Image Processing (IPR), S. 1-5, 2012
[JWT18]    Jin, X., Wang, Y., Tan. X.: Pornographic Image Recognition via Weighted Multiple
     Künstliche Intelligenz
         Instance Learning, zur
                            IEEEErkennung  von
                                 Transactions onKinderpornografie   in Mediendateien 889
                                                Cybernetics, S.1-9, 2018
[KHH21] Kaplan, S.; Handelman D., Handelman, A.: Sensitivity of neural networks to corruption
        of image classification, AI Ethics, S. 1-10, 2021
[MTH15] Moser, A., Temper, M., Haslinger, D.: Challenges and Limitations Concerning
        Automatic Child Pornography: Classification, 10th International Conference on
        Computer Vision Theory and Applications, 2015
[MCD]      Macedo, J., Costa, F., dos Santos, J. A: A Benchmark Methodology for Child
           Pornography Detection, 31st SIBGRAPI Conference on Graphics, Patterns and Images
           (SIBGRAPI), S. 455-462, 2018
[Mo15]     Moustafa, M.: Applying deep learning to classify pornographic images and videos,
           arXiv:1511.08899, 2015
[Pa16]     Panis, G., Lanitis, A, Tsapatsoulis, N., Cootes T.F.: Overview of research on facial
           ageing using the FG-NET ageing database. IET Biom 5, S. 37–46, 2016
[PGK]      Punyani, P., Gupta, R. & Kumar, A. Neural networks for facial age estimation: a survey
           on recent advances. Artif Intell Rev 53, S. 3299–3347, 2020.
[Ya2021] Yang, K., Yau, J., Fei-Fei, L., Deng, J., Russakovsky, O.: A Study of Face Obfuscation
         in ImageNet. arXiv preprint arXiv:2103.06191, 2021
Sie können auch lesen