Automatische Annotation und Erschließung von audiovisuellen Quellen am Beispiel der Deutschen Wochenschau Masterarbeit - unipub

Die Seite wird erstellt Hortensia-Angelika Reichert
 
WEITER LESEN
Automatische Annotation und Erschließung von audiovisuellen Quellen am Beispiel der Deutschen Wochenschau Masterarbeit - unipub
Automatische Annotation und Erschließung von audiovisuellen
 Quellen am Beispiel der Deutschen Wochenschau

 Masterarbeit

 zur Erlangung des akademischen Grades eines

 Masters of Arts

 an der Karl-Franzens-Universität Graz

 vorgelegt von

 Ing. Michael Fleck, BA

 am Zentrum für Informationsmodellierung
 Austrian Centre for Digital Humanities

 Begutachter:

 Univ. Prof. Dr. Georg Vogeler, MA

 Graz, am 27. Mai 2022
Automatische Annotation und Erschließung von audiovisuellen Quellen am Beispiel der Deutschen Wochenschau Masterarbeit - unipub
Automatische Annotation und Erschließung von audiovisuellen Quellen am Beispiel der Deutschen Wochenschau

Inhaltsverzeichnis
1. Einführung ................................................................................................................................. 3

2. Theoretischer Rahmen ............................................................................................................... 6
 2.1. Deutsche Wochenschau (1940-1945) ........................................................................................6
 2.2. Einbettung der Projektarbeit in den Kontext der Digitalen Geisteswissenschaften................9
 2.3. Stand der Forschung zur automatischen Annotation audiovisueller Quellen .......................11
 2.4. Grundlagen künstlicher Intelligenz .........................................................................................14
 2.5. Zusammenfassung...................................................................................................................17

3. Automatische Spracherkennung .............................................................................................. 19
 3.1. Grundprobleme der automatischen Spracherkennung ..........................................................19
 3.2. Open-Source Modelle ..............................................................................................................22
 3.3. Evaluierung der Qualität von automatischer Spracherkennung............................................28
 3.4. Rechtliche Hindernisse in der Cloud ........................................................................................33
 3.5. Zusammenfassung...................................................................................................................35

4. Automatische Annotation und Erschließung ............................................................................ 36
 4.1. Optimieren der Spracherkennung ...........................................................................................37
 4.2. Erschließungen basierend auf den transkribierten Text ........................................................39
 4.3. Erschließung des graphischen Inhalts .....................................................................................41
 4.4. Automatische Erstellen eines TEI-Dokuments ........................................................................46
 Exkurs: Erschließung eines Sujets der Tobis-Wochenschau (um 1930) .........................................50
 4.5. Zusammenfassung...................................................................................................................51

5. Ausblick & Conclusio ................................................................................................................ 53

Bibliographie ............................................................................................................................... 56
 Literatur ..........................................................................................................................................56
 Online-Ressourcen ..........................................................................................................................58

Anhang ........................................................................................................................................ 61
 Code-Repositorien ..........................................................................................................................61
 Abkürzungsverzeichnis ...................................................................................................................61

 2
Automatische Annotation und Erschließung von audiovisuellen Quellen am Beispiel der Deutschen Wochenschau Masterarbeit - unipub
Automatische Annotation und Erschließung von audiovisuellen Quellen am Beispiel der Deutschen Wochenschau

1. Einführung

Seit im Jahr 1860 der Franzose Édouard-Léon Scott de Martinville Schallwellen mit einem
Phonoautographen aufzeichnete, 1877 der Phonograph von Thomas A. Edison und 1887 die
Schallplatte von Emil Berliner erfunden wurde, der erste öffentliche Rundfunk 1923 in Berlin seinen
Betrieb aufnahm, die ersten Lichtspieltheater um die Jahrhundertwende öffneten und dort seit den
1920er Jahren Tonfilme gezeigt werden, wurden bis heute Unmengen an Ton- und Filmdokumente
produziert. Bild, Ton und Video sind die entscheidenden Informationsmedien des 20. und 21.
Jahrhunderts. Für die Geisteswissenschaften bedeutet dies eine kaum zu überblickende Menge an
audiovisuellen Daten. Die leichte Verfügbarkeit von Aufnahme- und Verbreitungsgeräten macht es
heute möglich, dass jede Sekunde mehrere hundert Stunden an Videos auf Plattformen wie YouTube
oder TikTok hochgeladen werden. Es ist klar, dass diese Datenmengen in Zukunft automatisiert
(vor-)erschlossen werden müssen, um sie jemals einer wissenschaftlichen Analyse zugänglich zu
machen.

Dieses Projekt widmet sich der Deutschen Wochenschau von 1940 bis 1945. Sie erschien zu einer Zeit
als das Medium Film bereits zu einem Massenphänomen aufgestiegen war und es im
nationalsozialistischen Deutschland dazu diente, die Bevölkerung zur Erreichung der Kriegsziele zu
mobilisieren. Aufgrund der hohen Popularität und des medialen Eindrucks, direkt in das
Kriegsgeschehen eingebunden zu sein, war sie eines der wichtigsten Propagandamittel im Dritten
Reich. Die Kriegswochenschauen wurden bereits vielfach rezipiert, jedoch wurden Forschungen
aufgrund technischer Hürden bislang primär auf qualitativer Ebene durchgeführt.

Die Erfolge der letzten zehn Jahre im Bereich Künstlicher Intelligenz erlauben es den Digitalen
Geisteswissenschaften Natural Language Processing (NLP) nicht mehr nur ausschließlich auf textuelle
Daten anzuwenden, sondern Quellen in Bild und Ton einzubinden. Deep-Learning-Algorithmen
erreichen in Bereichen wie automatischer Sprach- und Bilderkennung Erkennungsraten, welche
ausreichend hoch sind, um die durch sie gewonnenen Daten einer belastbaren Analyse zuzuführen.

Dies ergibt nun die Möglichkeit, historische Videoaufnahmen automatisiert zu erschließen und zu
annotieren, um mit den daraus gewonnenen Informationen eine tiefgreifende Indexierung
durchzuführen und daran anknüpfend neue analytische Möglichkeiten zu eröffnen. Aufgrund der
starken Fokussierung der Digitalen Geisteswissenschaften auf textuelle Daten gibt es bis dato kaum
etablierte Werkzeuge und Methoden, welche diesen Erschließungsprozess begleiten.

 3
Automatische Annotation und Erschließung von audiovisuellen Quellen am Beispiel der Deutschen Wochenschau Masterarbeit - unipub
Automatische Annotation und Erschließung von audiovisuellen Quellen am Beispiel der Deutschen Wochenschau

Ziel dieser Masterarbeit ist es, am Beispiel der Deutschen Wochenschau aufzuzeigen, wie mit
audiovisuellen Daten im Kontext der Digitalen Geisteswissenschaften umgegangen werden kann und
für den Prozess der Erschließung audiovisueller Quellen passende Werkzeuge bereitzustellen. Um
dieses Ziel zu erreichen, teilt sich diese Arbeit in die drei folgenden Abschnitte.

Der erste Abschnitt beinhaltet den theoretischen Rahmen, in den das folgende Projekt eingebettet
ist. Es wird erläutert, warum sich, neben dem historischen Wert als Quelle, die Deutsche
Wochenschau ideal eignet, um sie automatisiert zu annotieren und zu erschließen. Nachfolgend wird
am Beispiel der Editionswissenschaft gezeigt, warum Digitale Geisteswissenschaften historisch stark
auf textuelle Daten fokussiert sind, um anschließend den aktuellen Stand der Forschung zur
automatisierten Annotation audiovisueller Daten zu erheben. Da die meisten in dieser Arbeit
verwendeten Technologien auf künstlicher Intelligenz basieren, ist es weiters nötig, sich den
Grundlagen dieser Technologie und ihrer wichtigsten Begriffe anzunähern.

Der wohl wichtigste Teil im Prozess der Erschließung der Deutschen Wochenschau ist die
automatische Erkennung von Gesprochenem, um die ausgiebige Moderation aus dem Off
weiterverarbeiten zu können. Aus diesem Grund dient die automatische Spracherkennung (englisch
Automatic Speech Recognitionn; ASR) in dieser Arbeit als Beispiel für den Vergleich zwischen
quelloffenen und proprietären Lösungen. Dazu wird basierend auf dem von Meta (vormals Facebook)
entwickelten ASR-Framework Wav2Vec und einem vortrainierten multilingualen Sprachmodell ein
eigenes, den neuesten Entwicklungen entsprechendes, deutsches Spracherkennungsmodell
entwickelt, um dessen Erkennungsleistung mit jenen proprietären – vor allem cloudbasierten –
Anbietern zu vergleichen. Wie gezeigt wird, erzielen in allgemeinen KI-Anwendungsbereichen, die
von kommerziellen Anbietern abgedeckt werden, proprietäre Lösungen bessere Ergebnisse als
quelloffene.

Im letzten Abschnitt wird mithilfe von Software des Cloudanbieters Amazon Web Services (AWS) ein
Python-Skript entwickelt, welches automatisiert übergebene Videodateien erschließt. Zum einen
wird mit einer an den NS-Sprachgebrauch angepassten Vokabelliste versucht, die Erkennungsleistung
des Spracherkennungsdienst von AWS zu maximieren. Auf Basis des transkribierten Textes werden
anschließend einige in den Digitalen Geisteswissenschaften weit verbreitete Methoden wie Entity-
Recognition, Sentimentanalyse und Part-of-Speech-Tagging eingesetzt. Die Videospur wird durch
Objekt-, Text- und Gesichtserkennung erschlossen. Zuletzt werden die erhaltenen Ergebnisse so
transformiert, um sie in ein ebenso automatisiert erstelltes TEI-Dokument einzufügen. Im
Vordergrund steht eine einfache Nachnutzbarkeit des erstellten Skripts.

Im Schlussteil werden die zentralsten Erkenntnisse und Resultate, welche bei der Durchführung
dieses Projektes erzielt wurden, wiedergegeben und ein Ausblick gestellt, wie die in dieser Arbeit

 4
Automatische Annotation und Erschließung von audiovisuellen Quellen am Beispiel der Deutschen Wochenschau Masterarbeit - unipub
Automatische Annotation und Erschließung von audiovisuellen Quellen am Beispiel der Deutschen Wochenschau

verwendeten Technologien und Methoden in weiterer Folge dazu verwendet werden können, um
neue wissenschaftliche Fragestellungen hinsichtlich audiovisueller Quellen beantworten zu können.

Diese Masterarbeit hat nicht den Zweck eine vollständige Erschließung der Deutschen Wochenschau
durchzuführen, sondern prototypisch die Möglichkeiten und Limitationen automatischer, KI-
basierter Annotation und Erschließung aufzuzeigen. Aufgrund der Menge an nötigen Rohdaten und
der damit verbundenen Probleme aufgrund begrenzter Rechnerkapazitäten (bei freier Software) bzw.
der für ein studentisches Projekt zu hohen Kosten (bei Cloudanbietern) beinhaltet diese Masterarbeit
keine weiterführende quantitative Analyse der erschlossenen Informationen. Aus sprachlichen
Gründen berücksichtigt diese Arbeit lediglich deutsch- und englischsprachige Literatur und
Projektarbeiten. Aus Gründen der besseren Lesbarkeit werden anstelle geschlechtsneutraler Sprache
männliche und weibliche Formen alternierend verwendet.

 5
Automatische Annotation und Erschließung von audiovisuellen Quellen am Beispiel der Deutschen Wochenschau Masterarbeit - unipub
Automatische Annotation und Erschließung von audiovisuellen Quellen am Beispiel der Deutschen Wochenschau

2. Theoretischer Rahmen

In diesem Kapitel wird der theoretische Rahmen behandelt, in dem die nachfolgende Projektarbeit
eingebettet ist. Zunächst wird die Deutsche Wochenschau als historische Quelle vorgestellt und
dargelegt, warum sich dieser Quellenkorpus eignet, um ihn automatisiert zu annotieren.
Anschließend wird am Beispiel des (digitalen) Edierens erläutert, warum sich die Digitalen
Geisteswissenschaften historisch stark auf textuelle Daten konzentrierten. Weiters wird auf den
aktuellen Stand der Forschung in den Digitalen Geisteswissenschaften zum Thema Erschließung
audiovisueller Quellen eingegangen. Da viele der in dieser Arbeit eingesetzten Werkzeuge auf
künstlicher Intelligenz basieren, findet sich zuletzt eine allgemeine Übersicht zu den Konzepten und
Begriffen dieser Thematik.

2.1. Deutsche Wochenschau (1940-1945)

Gab es in den 1930er Jahren mit der Ufa-Tonwoche, der Deulig-Ton-Woche, Tobis und Fox-Tönende
Wochenschau noch vier voneinander unabhängige Wochenschauproduzenten, wurde mit 20. Juni
1940 (Vereinheitlichung des Inhalts, aber weiterhin mit vier verschiedenen Vorspannen) bzw. 21.
November 1940 (auch einheitlicher Vorspann) nur mehr eine Wochenschau unter dem Titel Deutsche
Wochenschau produziert. Hatte die dezentralisierte mediale Kriegsberichterstattung im Ersten
Weltkrieg noch improvisierten Charakter, kontrollierte die Wehrmacht durch ihre
Propagandakompanien vom ersten Tag des Krieges an, welches Bildmaterial in den Wochenschauen
gezeigt wird.1

Anders als die Vorkriegswochenschauen, die der Vermittlung langfristiger ideologischer Ziele dienten,
war der Zweck der Kriegswochenschauen die Mobilisierung der Massen für die Erreichung der
gesetzten Kriegsziele, wobei die Kluft zwischen Realität und Anspruch im Laufe des Krieges infolge
der Niederlagen an den Fronten deutlich zunahm. 2 Dabei folgen die meisten Wochenschauen im
Aufbau einem ähnlichen Muster. Nach dem markanten Intro mit der Wochenschau-Fanfare (bis 1941)

1
 Hoffmann 1988, S. 200-201
2
 Bartels 2004, S. 519-520.

 6
Automatische Annotation und Erschließung von audiovisuellen Quellen am Beispiel der Deutschen Wochenschau

bzw. der Russland-Fanfare 3 (ab dem Krieg gegen die Sowjetunion) basierte das Gestaltungsschema
ähnlich wie in Spielfilmen auf einer sich stetig steigenden Spannungskurve, unterbrochen von
einzelnen retardierenden Szenen, welche sich in einem finalen Höhepunkt, meist einer kriegerischen
Handlung, entlädt.

Ulrike Bartels führte in ihrer Dissertation neben einer Zusammenfassung aller Ausgaben eine
statistische Analyse der Kriegswochenschauen durch.4 Sie zählte wie häufig einzelne Themenfelder5
pro Jahr vorkamen. Dabei zeigt sich, dass große Teile der Deutschen Wochenschau dazu dienten,
Berichte über deutsche Truppen und die Situation an der Front zu schildern (Kriegsberichterstattung)
und die Anzahl derartiger Berichte im Laufe des Krieges zunahm („Totaler Krieg“), während andere
Themen (Wirtschaft, Sport, Unterhaltung, etc.) stark abnahmen.

Die Deutsche Wochenschau für die Jahre 1940-1945 bietet sich aus vielerlei Gründen als Prototyp für
eine digitale Tiefenerschließung an. Neben ihrem historischen Wert ist sie zum einen thematisch eng
abgegrenzt, da sie sich hauptsächlich mit den Geschehnissen des Zweiten Weltkrieges und dessen
unmittelbaren Folgen für das Deutsche Reich beschäftigt. Die einzelnen Ausgaben werden aus dem
Off von einem einzigen Sprecher 6 moderiert, während andere Wortmeldungen (z.B. Reden oder
Interviews) die Ausnahme bilden. Des Weiteren findet diese Moderation durchgängig statt, es gibt
kaum Szenen, in denen ausschließlich Bildsprache vorherrscht. Die in den Wochenschauen
verwendete Sprache ist zwar weit von moderner Alltagssprache entfernt, jedoch wird sehr deutlich
in Standarddeutsch gesprochen. Es finden sich viele Begrifflichkeiten des Nationalsozialismus und der
Wehrmacht, welche in heutigen Wortschätzen nicht mehr vorkommen. Diese Begriffe eignen sich
besonders dafür, sie einem Spracherkennungsprogramm explizit beizubringen.

3
 Die „Wochenschau-Fanfare“ ist eine Sequenz aus dem Horst-Wessel-Lied. Die „Russland-Fanfare“ wurde aus „Les
Préludes“ von Ernst Liszt entnommen.
4
 Bartels 2004, S. 422-427
5
 Einzelne Themen wurden in eine der folgenden Überkategorien eingeteilt:
 • Berichte über Deutsche im Ausland u. in • Städte- / Landschaftsbild
 ehemals dt. Gebieten • Religion
 • Leben und Arbeit des Bauern • Sport
 • Feste und Feiern im Jahreslauf • Unterhaltung
 • Politische Lage Deutschlands • Auslandsberichterstattung
 • Ausgrenzung bestimmter Bevölkerungsteils • Aufrüstung / kriegsvorbereitende
 • Arbeitseinsatz / Arbeitsbeschaffung Maßnahmen
 • Maßnahmen zur Stärkung der • Kriegsberichterstattung
 Opferbereitschaft • Berichte über eroberte Gebiete
 • Wissenschaft / Technik • Sonstiges
 • Kultur (Kunst / Architektur)

6
 Hauptsprecher war Harry Giese, der während seiner Gelbsucht-Erkrankung von Walter Tappe vertreten wurde.

 7
Automatische Annotation und Erschließung von audiovisuellen Quellen am Beispiel der Deutschen Wochenschau

Ein großer Nachteil dieser Wochenschauen ist ihre sehr geringe Aufnahme- und
Digitalisierungsqualität. Im Ton findet sich das für Aufnahmen aus dieser Zeit typische
Hintergrundrauschen. Weiters werden die Bilder durch pompöse Musik untermalt, was sich auf die
Spracherkennungsqualität negativ auswirken kann.

Die Deutsche Wochenschau ist eine der wichtigsten Quellen zur nationalsozialistischen Propaganda.
Sie wurde im gesamten Deutschen Reich, den besetzten Ländern und teils im neutralen Ausland
gezeigt. Ihre Inhalte erreichten große Teile der Bevölkerung, denn der Besuch von Lichtspieltheatern
war eine populäre Freizeitbeschäftigung, wobei die Wochenschauen vor bzw. nach dem Hauptfilm
gezeigt wurden. Die propagandistische Wirkung der Wochenschauen überstieg teilweise jene von
Presse und Rundfunk. 7 Trotzdem sind ihre Episoden der Jahre 1940-1945 noch kaum online
erschlossen. Die hier verwendeten Aufnahmen stammen vom Onlinearchiv Archive.org. Die Videos
sind im Jahr 2009 von einer unbekannten Person hochgeladen worden. Von wo diese Digitalisate
ursprünglich stammen, konnte nicht eruiert werden. Es sind sehr viele Ausgaben auf Archive.org zu
finden. Ob die Sammlung vollständig ist, ist schwer zu beantworten, da es kaum Möglichkeiten zur
Kategorisierung auf der Plattform gibt und einzelne Videos nur in Teilen fragmentarisch hochgeladen
wurden. In analoger Form liegt die Deutsche Wochenschau vollständig8 im Deutschen Bundesarchiv
vor.

Die deutschen Wochenschauen (inklusive der Jahre 1940-45) wurden im Bundesarchiv bereits
erschlossen und teilweise in SD-Qualität digitalisiert. Dabei wurden die analogen Bänder lediglich mit
einer Digitalkamera abgefilmt. In Band 8 der Findbücher zu Beständen des Bundesarchives (1984) ist
neben einer stichpunktartigen Zusammenfassung des Inhalts jeder Episode auch ein Personen-, Ort-
und Sachregister vorhanden. Es umfasst jedoch nur die Nennungen in diesen Zusammenfassungen,
nicht jenen in den Filmaufnahmen.

Das Bundesarchiv-Filmarchiv arbeitet bis 2024 daran, alle Wochenschauen in ihren Beständen in 4K-
Qualität zu digitalisieren, wobei ein Verfahren angewandt wird, in dem alle Einzelbilder eines
Filmbands separat aufgenommen und anschließend digital rekonstruiert werden und somit eine
weitaus höhere Videoqualität beinhalten. Bis dato sind einige Wochenschauen aus dem Ersten
Weltkrieg, der Weimarer Republik und der Nachkriegszeit online zugänglich9, wobei ein Großteil des

7
 Bartels 2004, S. 523
8
 Nach Bartels 2004, S. 421, gibt es insgesamt 286 Ausgaben, einige davon jedoch nur noch fragmentarisch.
9
 https://www.filmothek.bundesarchiv.de

 8
Automatische Annotation und Erschließung von audiovisuellen Quellen am Beispiel der Deutschen Wochenschau

Bestandes des Bundesarchiv aus rechtlichen Gründen nicht online gestellt werden darf.10 Ob die stark
politisierenden NS-Wochenschauen dort ebenfalls zugänglich gemacht werden, ist noch unsicher. 11

2.2. Einbettung der Projektarbeit in den Kontext der Digitalen Geisteswissenschaft

Digitale Editionen mit den mit ihnen mitgelieferten Analysemethoden gehören zu den zentralen
Forschungsinstrumenten der Digitalen Geisteswissenschaft. Wissenschaftliche Editionen sind mit
zusätzlichen Informationen aufbereitete Ausgaben von literarischen (Ur-)Texten oder historischen
Quellen. Das Edieren gehört seit Jahrhunderten zur geisteswissenschaftlichen und philosophischen
Praxis. In den frühen Handschriftkulturen mussten Texte einzeln per Hand abgeschrieben werden,
während das Original im Laufe der Zeit verloren ging. So entstanden bewusst und unbewusst
Änderungen am originalen Text. Die Editionsphilologie beschäftigt sich damit, aus einzelnen
Abschriften Abstammungslinien zu erschließen, um den Ausgangstext möglichst authentisch zu
rekonstruieren. Diese als „Lachmannsche“ genannte Methode zur Urtexterschließung ist aber nur ein
Aspekt von Editionen. Weitere Zielsetzungen des Edierens kann das Identifizieren der besten
verfügbaren Zeugen sein (Leithandschriftenprinzip), die Varianz aller verfügbaren Ausgaben
aufzuzeigen (Variorum-Edition), die Art der Entstehung nachzuvollziehen (genetische Edition), einen
möglichst lesbaren Text herzustellen, durch diplomatische Ausgaben die Form des überlieferten
Dokumentes möglichst nahe zu kommen oder durch Erschließungen den Informationsgehalt eines
Textes aufzuzeigen. Unter Erschließung versteht man alle kritischen Eingriffe in einen Text wie die
Identifizierung von referenzierbaren Daten, wissenschaftliche Sachanmerkungen bis hin zur
allgemeinen Textkritik.12

Der große Nachteil gedruckter Editionen ist die Eindimensionalität von Büchern und letztlich auch
deren sehr limitierte Platzverhältnisse. Die Grundeinheit eines gedruckten Werkes ist die Seite, eine
Begrenzung, welche es im Digitalen kaum gibt. Während sich aufgrund dessen gedruckte Editionen
auf eine der oben genannten Varianten konzentrieren und dabei eine einzige Sicht auf die
zugrundeliegende Quelle bietet, kann eine digitale Edition wesentlich offener gestaltet werden und
einen Text quellen- und benutzernah (parallel) darstellen. In der Regel sind heutige digitale Editionen

10
 https://www.filmothek.bundesarchiv.de/contents_weimar_republic
11
 So die Auskunft der Leiterinnen des Filmarchivs, Dr. Petra Rauschenbach und Dr. Adelheit Heftberger, in einem
Online-Meeting im April 2022.
12
 Sahle 2017, S. 237-239

 9
Automatische Annotation und Erschließung von audiovisuellen Quellen am Beispiel der Deutschen Wochenschau

 13
Webapplikationen basierend auf den Standardlösungen HTML, CSS und JavaScript. Die
Veröffentlichung im Web und die dadurch große Nähe zum Endnutzer erlaubt es auch, eine Edition
bereits im frühen Stadium für zukünftige Benutzer einfach zugänglich zu machen, beispielsweise mit
der Veröffentlichung von Teilstücken oder von Vorstufen einer Gesamtedition.14

Die Darstellung einer Edition im Digitalen ermöglicht der Benutzerin interaktiv mit dieser umzugehen.
Entschied bei analogen Editionen noch die Autorenschaft, wie und wo etwas dargestellt wurde,
erlauben digitale Editionen dem Benutzer selbst auszuwählen, wann welche Elemente auf dem
Bildschirm erscheinen. In der Regel bieten digitale Editionen ihre zugrundeliegenden Datensätze zum
Download an, um Nutzerinnen die Möglichkeit zu geben, diese weiterzuverwenden oder selbst zu
analysieren.15

Für das Anreichern mit zusätzlichen Informationen wird in digitalen Editionen in den meisten Fällen
die Text Encoding Initiative (TEI)16 verwendet, welche auf den XML-Standard basiert. Die TEI ist eine
Sammlung und Grammatik von etwa 500 verschiedenen Elementen und wird von einer großen
Community gepflegt. Die TEI folgt dem Ansatz, dass Texte hierarchisch aufgebaute Abfolgen von
Inhaltsobjekten sind.17 Es können sowohl Form als auch Inhalt eines Dokuments erschlossen werden.
Mit TEI annotierte Texte sind sowohl maschinen- als auch menschenlesbar.

Da die TEI noch wenig zur Beschreibung audiovisueller Quellen verwendet wird, fehlen für einige
Annotationsschritte passende Elemente und Attribute, weshalb in diesem Projekt ein leicht
adaptiertes Schema des TEI-Standards zum Einsatz kommt.

Gedruckte Editionen waren aus technischen und ökonomischen Gründen arm an Bildern und somit
zumeist monomedial. Dies ändert sich mit digitalen Editionen, in denen das Darstellen von Scans des
originalen Dokuments neben Transkription, diplomatischen Text und eventuell annotierten Text
gängige Praxis ist. Dieses Paradigma der Multimedialität kann als Ausgangspunkt weg von der
Beschäftigung mit schriftlichen Dokumenten hin zu audiovisuellem Quellen gesehen werden.

13
 Sahle 2017, S. 240, 245
14
 Sahle 2013, S. 132
15
 Fritze 2019, S. 433
16
 https://tei-c.org
17
 Sahle 2017, S. 245-247

 10
Automatische Annotation und Erschließung von audiovisuellen Quellen am Beispiel der Deutschen Wochenschau

2.3. Stand der Forschung zur automatischen Annotation audiovisueller Quellen

 „Automatisierte Analysen, Annotierungen und Visualisierungen von Videomaterial sind derzeit in der
 Entwicklung und werden die Auseinandersetzung mit Bewegtbildern und der ihnen eigenen Sprache
 auch in den Digital Humanities unterstützen.“18

Wie aus dem vorherigen Unterkapitel hervorgeht, fokussierten sich die Digitale
Geisteswissenschaften lange fast ausschließlich auf textuelle Quellen (Manuskripte, Urkunden, Briefe,
etc.) und klammerten audiovisuelle Quellen weitgehend aus. Zum einen liegt dies daran, dass neue
Technologien zuerst für das Lösen alter Fragestellungen verwendet werden, bevor neue potentielle
Fragestellungen erkannt werden, welche durch neue Technologie überhaupt erst beantwortbar sind.
Zum anderen brauchte es auch lange Zeit, bis Bestände audiovisueller Quellen erschlossen wurden,
wobei chronologisch neue Bestände noch wenig historisches Potential bieten, da sie noch im
zeitgenössischen kollektiven Gedächtnis vorhanden sind. Weiters beschränken sich Ton- und
Filmarchive weitgehend auf die bloße Digitalisierung ihrer Bestände und weniger auf eine breite
inhaltliche Erschließung. 19 Des Weiteren wurden die Digitale Geisteswissenschaften lange von
Historikern und Literaturwissenschaftlerinnen geprägt und sind somit primär ergänzend zu diesen
textfokussierten Disziplinen tätig.

In den Medienwissenschaften werden unter (digitale) Filmeditionen häufig Restaurierungsprojekte
verstanden, welche dem Benutzer bei der Wiedergabe historischer Aufnahmen die Möglichkeit
geben, zwischen Originalfassung, verschiedenen Überlieferungsfassungen oder redaktionellen
Eingriffen zu wählen.20 Als Editionsobjekte dienen bedeutende Werke der Filmgeschichte, wobei das
Werk selbst im Mittelpunkt und der historische Wert als Quelle im Hintergrund steht.21 Die historisch-
kritische Filmedition kontextualisiert ähnlich der literarischen Edition den Inhalt des Films.
Filmeditionen standen vor allem in den 2000er Jahren im Fokus der Medienwissenschaft, weshalb als
Trägermedium lange die DVD genutzt wurde. 22 23

Erst in den letzten Jahren wurden Werkzeuge und Methoden der Medienwissenschaft mit jenen der
digitalen Geisteswissenschaften verknüpft. Bhargav et al. 2019 filterte und analysierte Untertitel aus

18
 Rapp 2017, S. 266
19
 Als Beispiel dienen die Filmothek des Bundesarchivs (https://www.filmothek.bundesarchiv.de) und die
österreichische Mediathek (https://www.mediathek.at).
20
 https://www.udk-berlin.de/universitaet/fakultaet-gestaltung/institute/institut-fuer-zeitbasierte-
medien/filminstitut/dvd-als-medium-kritischer-filmeditionen
21
 Beispielsweise https://filmeditio.hypotheses.org/film
22
 Keitz 2013, S. 33-37
23
 Rieger 2021

 11
Automatische Annotation und Erschließung von audiovisuellen Quellen am Beispiel der Deutschen Wochenschau

der frühen Stummfilmzeit. Lincoln et al. 2020 und Wevers, Smits 2020 arbeiteten mit Deep-Learning-
Algorithmen, um automatisiert Metadaten zu historische Bildaufnahmen hinzuzufügen.24

Lee et al. 2020 entnahmen und analysierten visuelle Inhalte aus 16 Millionen Seiten von
amerikanischen Zeitungen und Zeitschriften. Taylor, Lauren 2019 formulierten das Konzept des
Distant Viewing, welches dabei helfen soll, Bilder in hoher Skalierung automatisiert zu interpretieren.
In der Archäologie wird bereits lange auf KI-unterstütze Algorithmen gesetzt. 25 Engel et al. 2019
nutzen die Google Vision API zur automatischen Bilderkennung.

Ein Team der Universität Paderborn entwickelte Modelle zur automatischen Erkennung von
Abschnitten, Boxen, Sprechblasen und Text aus Comics und fügten diese Informationen in einem
hierarchischen XML-Dokument ein.26 27 Taiwanesische Wissenschaftler entwickelten eine Software,
welche althistorische Texte aus China mithilfe externer Datenquellen automatisiert annotiert.28

EUscreen29 ist ein Zusammenschluss von rund 30 Rundfunkanstalten und audiovisuellen Archiven aus
ganz Europa. Es stellt für diese Organisationen eine Plattform zur Verfügung, auf der Ton- und
Videoinhalte hochgeladen werden können, um sie so einem größeren Publikum zugänglich zu
machen. Das Projekt Europeana Subtitled wendet automatische Spracherkennung und Übersetzung
an, um Teile des Inhalts von EUscreen zu erschließen und durchsuchbar zu machen.30

Das Team des Sensory Moving Image Archive (SEMIA) Projektes31 erarbeitete einen Prototyp, welcher
Medienarchive automatisch anhand von syntaktischen Merkmalen („syntactic features“)
kategorisierte. Darunter werden beispielsweise Farben oder Formen, welche in den Videos
vorkommen verstanden. Die Entwickler gingen somit weg von der klassischen semantischen
Beschreibung der Videos hin zur automatisierten Annotation graphischer Merkmale zur
Metadatengenerierung.

Im Projekt I-Media-Cities32 wurde eine Videoplattform geschaffen, in welche historische Aufnahmen
von Städten und Straßen integriert wurden. Automatisch erschlossen bzw. annotiert wurden Szenen,
der Inhalt nach Konzepten (Person, Gebäude, Straßenbahn, etc.) und Gebäude bzw. Monumente mit
ihren Geotags. Die Plattform erlaubt daraufhin die Suche mit Volltext, Ort oder nach Kategorien. Die

24
 Literatursammlung entnommen aus Van Noord et al. 2021, S. 634.
25
 https://www.nytimes.com/2020/11/24/science/artificial-intelligence-archaeology-cnn.html
26
 Dunst, Hartel, Laubrock 2017
27
 Dubray, Laubrock 2019
28
 Chen, Chen, Liu 2018
29
 https://euscreen.eu
30
 https://pro.europeana.eu/project/europeana-subtitled
31
 https://sensorymovingimagearchive.humanities.uva.nl
32
 https://www.imediacities.eu/

 12
Automatische Annotation und Erschließung von audiovisuellen Quellen am Beispiel der Deutschen Wochenschau

Videoansicht erlaubt die gleichzeitige Wiedergabe des Videos sowie die annotierten Tags der
aktuellen Szene:

 Abbildung 1: https://imediacities.hpc.cineca.it/app/catalog/videos/a4cb3b82-8771-495f-b2ad-11d479258216

CLARIAH arbeitet am Aufbau einer Audiovisual Processing (AVP) Infrastruktur inklusive Webplattform,
welche Archiven bereitgestellt werden soll. Als Hauptgrund für die Vernachlässigung von
audiovisuellen Quellen in den Digitalen Geisteswissenschaften sehen die Entwicklerinnen von
CLARIAH-AVP das Fehlen geeigneter Werkzeuge zur Analyse großer Bestände.33

CLARIAH bietet digitale Forschungsinfrastrukturen für die Geisteswissenschaft und angrenzenden
Disziplinen an. Das Projekt teilt sich in drei Gruppen, welche durch die zu bearbeitenden Datentypen
geteilt sind. Die erste Gruppe beschäftigt sich mit textuellen Daten für linguistische Anwendungen,
während sich die zweite auf strukturierte Daten für den sozial-wirtschaftlichen und historischen
Bereich fokussiert. Für diese Masterarbeit relevanteste Gruppe drei arbeitet mit audiovisuellen Daten.
Audio und Video sind Datentypen, welche stark in den Medienwissenschaften, den
Geschichtswissenschaften und insbesondere den Oral History verbreitet sind.34

33
 Van Noord et al. 2021, S. 634
34
 Melgar-Estrada et al. 2019, S. 373-374

 13
Automatische Annotation und Erschließung von audiovisuellen Quellen am Beispiel der Deutschen Wochenschau

Als Basis ihrer Arbeit diente die Media Suite35, eine niederländische Videoplattform zur Sammlung
von Filmen, TV- und Radio-Beiträgen, Zeitungen und Oral History Interviews bereitgestellt vom
Netherlands Institute for Sound and Vision (NISV), dem Eye-Filmmuseum und der Nationalbibliothek
der Niederlande. Die Inhalte dieser Media Suite wurde anschließend mit automatisierten AVP-
Werkzeugen in drei folgenden Anwendungsfällen annotiert: Metadatengenerierung für den Inhalt,
Analyse von Posen zur Genreklassifizierung und automatische Spracherkennung insbesondere für
Interviews. Die Inhalts-Metadaten werden durch semantische Objekterkennung, Farbanalyse und
automatische Spracherkennung generiert.36

Die Arbeiten von CLARIAH hinsichtlich automatischer Spracherkennung sind in erster Linie zwar
interessant, aber bei genauem Hinblick für diese Arbeit kaum relevant, da lediglich Modelle für
Niederländisch zur Verfügung gestellt werden, aber in dieser Arbeit auf die Sprache Deutsch trainierte
Modelle nötig sind. Die Leistungsfähigkeit ihres Kaldi37-Modells wird mit einer Wortfehlerrate von
etwa 10% angegeben.38 Jedoch ist hier zu bedenken, dass diese Wortfehlerrate gegen einen sehr
standardisierten Test-Datensatz erzielt wurde und bei Nutzung gegen historische Aufnahmen
wesentlich schlechtere Ergebnisse zu erwarten sind.39 Weiters ist zu bedenken, dass das Framework
Kaldi technisch bereits in die Jahre gekommen ist.

Leider konnte die Media Suite nicht vollständig getestet werden, da entscheidende Funktionen nur
für angemeldete Benutzer verfügbar sind und die Universität Graz keinen Zugang besitzt.40 CLARIAH
stellte die genutzte Infrastruktur als Open-Source auf GitHub zur Verfügung.41

2.4. Grundlagen künstlicher Intelligenz

Die meisten in dieser Arbeit eingesetzten Werkzeuge zur automatischen Extraktion von
Informationen aus audiovisuellen Quellen basieren auf dem Konzept der schwachen Künstlichen
Intelligenz, weswegen es nötig ist, die wichtigsten Begriffe und Konzepte im Vorfeld zu behandeln.
Ziel der Forschung zu Künstlicher Intelligenz ist es, ein System zu entwickeln, das die gleichen

35
 https://mediasuite.clariah.nl
36
 Van Noord et al. 2021, S. 634-638
37
 https://kaldi-asr.org
38
 Ordelman, van Hessen 2018, S. 166
39
 Siehe dazu Auswertungen von ASR-Lösungen in dieser Arbeit.
40
 „The organisation you are authenticating from is not authorized access to the CLARIAH Media Suite“
41
 https://github.com/CLARIAH/DANE

 14
Automatische Annotation und Erschließung von audiovisuellen Quellen am Beispiel der Deutschen Wochenschau

intellektuellen Kompetenzen – Logisches Denken, Treffen von Entscheidungen bei Unsicherheit,
Planen, Lernen, Kommunikation in natürlicher Sprache, Bewusstsein und Gefühle – aufweist wie der
Mensch. Dabei muss ein solches System nicht den Menschen imitieren können 42 , sondern wird
voraussichtlich eine andere kognitive Architektur aufweisen.

Wird allgemein von Künstlicher Intelligenz (Artificial Intelligence), Maschinellem Lernen (Machine
Learning) und Tiefem Lernen (Deep Learning) gesprochen, werden diese Begriffe häufig synonym
verwendet. Sie bezeichnen jedoch unterschiedliche Konzepte, welche sich teilweise überschneiden.
Diese Konzepte sind historisch gewachsen und wurden ineinander integriert:43

 Abbildung 2: https://blogs.nvidia.com/blog/2016/07/29/whats-difference-artificial-intelligence-machine-learning-deep-
 learning-ai/

Die Idee einer artifiziellen Intelligenz gibt es seit der Frühphase des Computers und war geprägt von
der hohen Erwartungshaltung an diese neue Technologie. Diese frühen Systeme basierten auf
Entscheidungsbäumen, welche formale (Prädikaten-)Logik beinhalteten. Dabei durchläuft eine
Abfrage mittels Heuristiken verschiedene Verknüpfungspunkte, welche anschließend eine Aussage

42
 Anders als es allgemein durch den Turing-Test impliziert wird.
43
 Copeland 2016

 15
Automatische Annotation und Erschließung von audiovisuellen Quellen am Beispiel der Deutschen Wochenschau

zurückgeben.44 Die Logiken der Entscheidungsbäume mussten in dieser Zeit sehr zeitintensiv manuell
entwickelt werden, weswegen diese Systeme nicht sehr leistungsstark waren.

Erst seit den späten 80ern sind Computersysteme leistungsstark genug, um sich selbst Logiken
beizubringen, indem sie in Rohdaten nach Mustern suchen und diese dann auf unbekannte Abfragen
anwenden. Das Erkennen von Mustern in unstrukturierten Daten erfordert zuvor einen Lernvorgang,
wobei unterschiedliche Verfahren zum Einsatz kommen:45

Beim überwachten Lernen (Supervised Learning) bekommt das Computersystem die Rohdaten
gemeinsam mit der in ihnen vorhandenen Interpretationsmöglichkeiten. Im Lernvorgang sollen dann
verallgemeinbare Regeln gefunden werden, welche im Anschluss für unbekannte Eingabedaten
angewendet werden können. Im unüberwachten Lernen (Unsupervised Learning) entfällt die
vorgegeben Interpretation der Daten, sodass das System selbständig nach Mustern in den Rohdaten
suchen muss und diese dann anschließend in verschiedene Cluster zu teilen. Im Verstärkten Lernen
(Reinforcement Learning) interagiert ein System direkt mit seiner Umgebung und versucht aufgrund
vorheriger Erfahrungen Entscheidungen zu treffen. Ziel ist es, dass das System sich die Konsequenzen
seiner Handlung merkt und diese in nachfolgenden Durchläufen berücksichtigt.

Das im folgenden Kapitel zur Spracherkennung verwendete Framework Wav2vec wendet
selbstüberwachtes Lernen (Selfsupervised Learning) an, welches aufgrund der sehr zeitaufwendigen
Annotation von Trainingsmaterial versucht, die Rohdaten selbständig zu beschriften. Dies erlaubt ein
anschließendes überwachtes Lernen mit weit weniger zuvor händisch annotieren Trainingsdaten.46

Heutige Neuerungen im Bereich künstlicher Intelligenz basieren fast ausschließlich auf Deep Learning.
Darunter versteht man neuronale Netze, welche datengesteuerte Entscheidungen treffen können
und dem menschlichen Gehirn ähneln. Ein Eingangssignal wird durch Reihen von Synapsen geleitet,
welche miteinander verbunden sind. Einige Verbindungen sind höher gewichtet als andere. Erreichen
die Eingangssignale einer Synapse einen gewissen Wert, so gibt diese das Signal an die nächste Ebene
 47
weiter. Diese Synapsen werden automatisch generiert, wobei die Stärke der einzelnen
Verbindungen, sowie die Grenzwerte bei dem eine Synapse das Signal weiterleitet konfigurierbar sind.
Durch diese Konfigurationen kann ein neuronales Netz auf eine gewünschte Ausgabe hintrainiert
werden.48 Neuronale Netze sind somit im Grunde (komplexe) mathematische Funktionen. 49

44
 Wittpahl 2019, S. 22-23
45
 Wittpahl 2019, S. 24-29
46
 https://datadrivencompany.de/self-supervised-learning
47
 Spezialformen wie Recurrent Neural Networks, welche Verbindungen zu Synapsen gleicher oder vorheriger
Ebene aufweisen, werden hier ausgeklammert.
48
 Specht 2019, S. 227
49
 Kelleher 2019, S. 8

 16
Automatische Annotation und Erschließung von audiovisuellen Quellen am Beispiel der Deutschen Wochenschau

 Abbildung 3: Synapsen eines Deep-Learning-Algorithmus (eigene Darstellung)

Neben den vielfältigen Möglichkeiten, welche auf künstliche Intelligenz basierende Werkzeuge und
Methoden schaffen, ist festzuhalten, dass es hierbei auch negative Aspekte gibt. Zum einen gibt es
kein KI-Tool, dass eine hundertprozentige Genauigkeit besitzt. Je nach Anwendungsfall und Lösung,
reichen die Fehlerquoten teils bis über 50 Prozent. Dies hängt von einem von der Qualität der
Ausgangsdaten, mit denen Algorithmen trainiert werden, wie auch vom Algorithmus selbst ab. Bei
Interpretationen von Datensätzen, welche von diesen Tools generiert und nicht nachbearbeitet
wurden, ist dies stets zu beachten. Auch wenn, wie im Idealfall, Open-Source-Software zur
Anwendung kommt, handelt es sich aufgrund der schieren Komplexität mancher Frameworks nach
wie vor für die meisten Anwender um Black Boxes. De facto gibt es kein komplettes unsupervised
Training von Algorithmen, denn Algorithmus und Ausgangsdaten werden vom Menschen ausgewählt
und können somit einen gewissen Bias aufweisen.50

2.5. Zusammenfassung

Die Deutsche Wochenschau von 1940-1945 ist eine der zentralen Quellen zur nationalsozialistischen
Propaganda des Zweiten Weltkrieges. Obgleich ihrer historischen Bedeutung, ist sie bis dato noch
kaum digital erschlossen. Sie zeichnet sich zum einen durch ihr Alter und der damit einhergehenden
schlechten Video- und Tonqualität als relativ herausfordernd für die nachfolgenden Arbeitsschritte

50
 Dobson 2019 im Kapitel Can an Algorithm Be Disturbed? Machine Learning, Intrinsic Criticism, and the Digital
Humanities, unpaginiertes E-Book

 17
Automatische Annotation und Erschließung von audiovisuellen Quellen am Beispiel der Deutschen Wochenschau

aus, zum anderen ist ihr Korpus sehr abgegrenzt und homogen, was zu einer einheitlichen
Prozessierung der Ausgaben führen wird. Mit diesen Vor- und Nachteilen sind die Ausgaben der
Deutschen Wochenschau ein ideales Experimentierfeld zur Anwendung automatisierter Verfahren
zur Annotation audiovisueller Quellen.

Die analoge Editionswissenschaft beschäftigt sich aus praktischen und technischen Gründen zumeist
mit textuellen Quellen, ein Umstand, den Digitale Editionen lange folgten. Durch die Multimedialität
einer digital erscheinenden Edition ist es möglich, auch audiovisuelle Quellen mit bekannten
Methoden der Digitalen Geisteswissenschaften zu verknüpfen.

Doch erst in den letzten fünf Jahren erschienen Publikationen, die sich der Brücke zwischen
Medienwissenschaften und Digitalen Geisteswissenschaften zur Aufgabe machten. Aufgrund der
einfacheren technischen Handhabung beschäftigten sich diese Arbeiten meist mit der quantitativen
Analyse großer Bildbestände.

Dieses Projekt unterscheidet sich insofern von bisherigen Arbeiten, als dass hier keine vollständige
Infrastruktur bereitgestellt werden soll. Vielmehr wird auf eine niederschwellige Nachnutzbarkeit des
entstehenden Quellcodes gesetzt.

Das folgende Forschungsvorhaben wird erst dadurch ermöglicht, dass im letzten Jahrzehnt ein sehr
großer Schritt vorwärts im Bereich künstlicher Intelligenz gemacht wurde. Erst durch diese
Technologie wurde es möglich, große audiovisuelle Quellkorpora automatisiert zu erschließen.

 18
Automatische Annotation und Erschließung von audiovisuellen Quellen am Beispiel der Deutschen Wochenschau

3. Automatische Spracherkennung

Wie im Kapitel zum theoretischen Rahmen gezeigt, verwendet die Digitale Geisteswissenschaft
Methoden und Werkzeuge, welche für die Prozessierung von textuellen Daten zugeschnitten sind.
Somit ist die automatische Umwandlung vom Gesprochenem zu Text der wichtigste Baustein für die
weitere Verarbeitung audiovisueller Quellen. Seit der Frühzeit des Computers wird an automatischer
Spracherkennung (englisch Automatic Speech Recognition; ASR) geforscht, doch erst in den letzten
zehn Jahren kam es aufgrund der Nutzung von Deep Learning zu einem wesentlichen Fortschritt in
der allgemeinen Erkennungsqualität, sodass diese Technologie für den Einsatz in den
Geisteswissenschaften nun relevant wird.

Nach einer Einführung, in der dargelegt wird, warum aktuelle Spracherkennungsdienste selbst heute
noch weit entfernt von hundertprozentig richtiger Erkennung sind, wird ein auf aktueller Technologie
basierendes, quelloffenes Spracherkennungsmodell trainiert, um es anschließend mit proprietären
Lösungen zu vergleichen. Am Ende des Kapitels wird ferner noch die rechtliche Komponente der
Nutzung cloudbasierter ASR-Software behandelt.

3.1. Grundprobleme der automatischen Spracherkennung

Die Kernaufgabe der automatischen Spracherkennung ist die Umwandlung von gesprochener
Sprache zu verschriftlichen Text. Sprachsignale entstehen, wenn eine Person etwas spricht und die
dabei entstehenden Schallwellen über einen elektroakustischen Wandler (Mikrofon) in ein
elektrisches Signal umgewandelt werden. Dieses Signal wird vor allem durch den Inhalt der
Sprachnachricht diversifiziert, jedoch wird es von einer Vielzahl von weiteren Faktoren beeinflusst.
Hierzu zählen beispielsweise der Dialekt, die Sprechgewohnheiten, die Physiologie des Vokaltraktes,
aber auch der emotionale und gesundheitliche Zustand des Sprechers. Weiters wirkt sich die jeweilige
Umgebung auf den Sprecher aus. Auch die technischen Gegebenheiten, wie Signalkodierung und

 19
Automatische Annotation und Erschließung von audiovisuellen Quellen am Beispiel der Deutschen Wochenschau

-kompression, wirken sich letztlich auf das Sprachsignal aus.51 Diese Einflussfaktoren bewirken, dass
ein Sprachsignal für eine Silbe oder ein Wort sehr variabel ist, selbst wenn dasselbe gesagt wurde.
Diese Variabilität zeigt sich im Sprachsignal an den folgenden Merkmalen:52

 • Die Dauer eines Lautes, Wortes oder Satzes variiert zwischen 50 und 200 Prozent der
 Normallänge.
 • Die Lautstärke wirkt sich direkt auf das Sprachmuster aus. Dies hängt von der Sprechweise
 (nuscheln bis schreien), sowie vom Abstand des Sprechers zum Mikrofon ab.
 • Die Grundfrequenz von menschlicher Sprache kann zwischen 50 Hertz (tiefe Männerstimme)
 und 400 Hertz (hohe Kinderstimme) liegen.
 • Die größte Varianz innerhalb eines einzelnen Sprechers ergibt sich aus der Koartikulation, so
 klingt als Beispiel ein k-Laut bei einem nachfolgenden i-Laut anders als ein k-Laut mit
 nachfolgenden u-Laut.
 • Zwischen verschiedenen Sprecherinnen in verschiedenen Kontexten unterscheiden sich die
 Lautfolgen. Dies ist hauptsächlich bedingt durch sogenannte Verschleifungen, die im
 schnellen und ungenauen Sprechen passieren. Das Wort „fünf“ wird häufig nicht als [fʏnf],
 sondern als [fʏmf] oder [fʏmpf] ausgesprochen. Es wird dabei ein Laut dem nachfolgenden
 angeglichen. (Assimilation)
 • In Regionen mit sehr hohen Dialektfärbungen erfährt auch die Hochsprache bei vielen
 Menschen merkliche Änderungen.

Neben diesen physiologischen Problemen in der Erkennung ergeben sich noch praktische Hürden, da
sich gesprochene Sprache von verschriftlicher Sprache unterscheidet. Bei fließendem Sprechen ist es
schwierig auszumachen, wann ein Wort endet und das nächste beginnt. Wortlokalisierung und
Lauterkennung beeinflussen sich gegenseitig. Weiters gibt es in sprachlichen Aussagen keine
Satzzeichen, womit eine Strukturierung des Gesprochenen kaum möglich ist. Zudem treten in
mündlicher Kommunikation häufig unkorrekte Wortfolgen, Füllwörter und Aussetzer auf. Zuletzt
ergibt sich das Problem, dass lautsprachliche Äußerungen mehrdeutig sein können. Die Zahlenfolge
drei hundert zehn drei zehn kann 3 100 10 3 10, 310 13, 300 10 3 10, etc. bedeuten.53

All diese Aspekte stören bei der Spracherkennung, bei der lediglich die linguistische Aussage des
Sprechers rekonstruiert werden soll. Bei dieser Rekonstruktion kommen zwei unterschiedliche
Ansätze zur Anwendung. Im ersten Ansatz werden eingehende Sprachsignale nach eintrainierten
Mustern bzw. daraus berechneten Merkmalsequenzen durchsucht. Dieses Akustikmodell wird für die

51
 Pfister, Kaufmann 2017, S. 25-26.
52
 Fleck 2020, S.7-8
53
 Pfister, Kaufmann 2017, S. 329-330

 20
Automatische Annotation und Erschließung von audiovisuellen Quellen am Beispiel der Deutschen Wochenschau

Erkennung von Phonemen, Silben oder kurzen Wörtern verwendet. Es gilt dasjenige
Phonem/Silbe/Wort als erkannt, dessen Muster die höchste Ähnlichkeit aufweist. Ein reiner
Mustervergleich ist zur korrekten Erkennung jedoch nicht ausreichend.54 Im linguistischen Modell
wird mittels Stochastik versucht für Silben und Wörter eine Wahrscheinlichkeit festzulegen, welche
angibt, wie häufig welche Merkmalsequenzen im Sprachkorpus vorkommen oder einander folgen
können. Dazu werden Sprachkorpora erstellt, welche auf Transkriptionen natürlicher Sprache
basieren. 55 In diesem letzten Schritt können die so erkannten Wörter einem Vergleich mit einem
Wörterbuch unterzogen werden, um sie so orthographisch korrekt abbilden zu können.

Die folgende Abbildung fasst zusammen, wie eine gemachte Mitteilung (W) durch einen
elektroakustischen Wandler (Mikrofon) in ein elektronisches Signal (s) umgewandelt wird, welches
anschließend mittels automatischer Spracherkennung dekodiert werden soll. Dazu wird im
Sprachsignal nach bekannten Merkmalen (X) gesucht, welche als Basis zur statistischen
Rekonstruktion der gemachten Aussage W dienen.

 Abbildung 4 entnommen aus Pfister, Kaufmann 2017, S. 369

Um die Qualität einer automatisiert erstellten Transkription zu bewerten, benötigt es objektive
Kennzahlen. Die Bewertung erfordert den Abgleich der automatisch erstellten Transkription mit der
(manuell) erstellten, richtigen Transkription.

Die häufigste genutzten Metrik ist die Wortfehlerrate (Word Error Rate; WER). Sie addiert die Anzahl
der Ersetzungen (ein korrektes Wort wurde durch ein falsches ersetzt), Auslassungen (ein Wort wurde
vom Erkennungsprogramm weggelassen) und Einfügungen (das Erkennungsprogramm hat ein
zusätzliches Wort eingefügt), um diese Summe durch die Gesamtanzahl der Wörter zu dividieren:56

54
 Pfister, Kaufmann 2017, S. 28
55
 Alpaydin 2016, S. 68
56
 Pfister, Kaufmann 2017, S. 335.

 21
Automatische Annotation und Erschließung von audiovisuellen Quellen am Beispiel der Deutschen Wochenschau

 # #$%&'()*+&*,# -)%./%%)*+&*,# #0*1ü+)*+&*
 ℎ = (× 100%)
 # 3ö$'&$

Je niedriger die Wortfehlerrate, desto besser ist die Transkription.

Eine weitere leicht nutzbare Metrik ist die Worterkennungsrate (Word Recognition Rate; WRR). Bei
ihr wird die Anzahl der richtig erkannten Wörter durch die Gesamtanzahl der Wörter des
Referenztextes dividiert. Es gilt somit, je höher der Wert, desto besser die Transkription.
 # #$5/**'&$ 3ö$'&$
 = # 3ö$'&$
 (× 100%)

Auch wenn Wortfehlerrate und Worterkennungsrate miteinander korrelieren, unterscheiden sich die
beiden Metriken voneinander, sodass Rankings nach WER und WRR unterschiedlich ausfallen können.

Für die Berechnung der WER und WRR bietet sich das Python Modul asr-evaluation57 an, welches den
Abgleich zwischen einer korrekten und einer automatisch generierten Transkription durchführt. Die
in dieser Arbeit durchgeführten Abgleiche werden case-insensitive durchgeführt, das heißt, ein Wort
wird als korrekt eingestuft, auch wenn die Groß- und Kleinschreibung nicht korrekt ist. Ebenso
werden Satz- und Sonderzeichen ignoriert.

3.2. Open-Source Modelle

Die in den 2010er Jahren entwickelten quelloffenen Frameworks zur automatischen
Spracherkennung – Kaldi58 und DeepSpeech59 – benötigen eine große Menge (über 1.000 Stunden)
an detailreich annotierten Trainingsdaten, um ansprechende Resultate zu liefern. Sie funktionieren
nach dem Prinzip; je mehr Trainingsdaten, desto bessere Transkriptionen werden erreicht. Dies führt
dazu, dass diese Frameworks ausschließlich für Sprachen gut verwendbar sind, für die es genügend
annotierte Rohdaten gibt, was jedoch nur für Englisch (und eventuell Chinesisch) der Fall ist. Das vom
AI-Team von Meta (Facebook) entwickelte ASR-Framework Wav2vec in der Version 2 setzt mit einer
Self-Supervised-Lernmethode an dieser Schwachstelle an.

Dieses Framework trainiert Modelle in drei Schritten: Im ersten Schritt werden Zehntausende bzw.
sogar Hunderttausende Stunden an nicht-annotierten Audiodaten genutzt, um ein Sprachmodell zu
trainieren. Dazu werden die Eingangssignale in 25 Millisekunden lange Einheiten unterteilt, welche

57
 https://github.com/belambert/asr-evaluation
58
 https://github.com/kaldi-asr/kaldi
59
 https://github.com/mozilla/DeepSpeech

 22
Automatische Annotation und Erschließung von audiovisuellen Quellen am Beispiel der Deutschen Wochenschau

sogar kürzer als Phoneme sind. Diese Einheiten werden dann einem Quantisierer übergeben, welcher
eine bereits gelernte Spracheinheit dieser neuen Einheit zuordnet. Ungefähr die Hälfte des
Eingangssignals wird verdeckt, bevor die Einheit dem Transformer übergeben wird, der
Informationen über das gesamte Signal hinzufügt. Die Ausgabe des Transformer wird vom
Sprachmodell verwendet, um die korrekt quantifizierte Einheit für die verdeckte Position zu
identifizieren. Das Sprachmodell trainiert sich also selbst, um Muster in den Eingangssignalen zu
erkennen.60

Anschließend wird dieses Sprachmodell mit annotierten Audiodaten verknüpft, um ein
Spracherkennungsmodell für Sprache-zu-Text zu erhalten. Den gelernten Mustern werden in diesem
Prozess Zeichen und Silben zugeordnet. Der große Vorteil von Wav2vec2 liegt nun darin, dass für
diese Laut-Zeichen-Zuordnung nur sehr wenig annotierte Sprachdaten (weniger als 100 Stunden)
nötig sind, um ausreichend gute Ergebnisse zu erzielen.

Wie von den Forschern von Meta demonstriert, muss das vortrainierte Sprachmodell nicht zwingend
monolingual in der Sprache der späteren Erkennung trainiert werden, sondern kann auch aus einem
Pool mehrerer Sprachen bestehen.61 Das zurzeit größte öffentlich zur Verfügung stehende XLSR-300
Pretrained-Modell wurde mit 436.000 Stunden in 128 Sprachen trainiert.62 63 Ziel ist es nun, dieses
Modell 64 mit den ebenfalls öffentlich zugänglichen deutschen Trainingssatz des CommonVoice
Projektes 65 zu verfeinern, um ein offenes Spracherkennungsmodell für die Sprache Deutsch zu
entwickeln.

Die folgende Grafik verdeutlicht nochmal das Prinzip von Wav2vec2. Nichtannotierte Audiodaten in
einer Vielzahl von Sprachen werden in einem selbstüberwachten Training genutzt, um ein
Sprachmodell zu erstellen, welches anschließend als Basis für ein verfeinertes Akustikmodell dienen
kann.

60
 Baevski et al.2020, S. 1-3.
61
 Conneau et al. 2020, S. 4-6
62
 Babu et al. 2021
63
 Zum Zeitpunkt des Schreibens dieser Masterarbeit wird ein Pretrained-Modell mit über 300 Milliarden Token
entwickelt. Das Modell wird mehrere Monate auf einem Cluster mit 384 A100 GPUs trainiert und wird vermutlich
im Juli 2022 verfügbar sein: https://bigscience.huggingface.co
64
 https://huggingface.co/facebook/wav2vec2-xls-r-300m
65
 https://commonvoice.mozilla.org/de

 23
Sie können auch lesen