Stereotypisierter Kontinent?

Die Seite wird erstellt Mona Langer

Sport

Deutsch

Like
Teilen
Einbetten
Vollbild
Folien
HTML Herunterladen
PDF Herunterladen
Missbrauch

←

WEITER LESEN

→

Transkription von Seiteninhalten

Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten

Humboldt-Universität zu Berlin
Philosophische Fakultät
Institut für Geschichtswissenschaften

                                        BACHELORARBEIT

                             Stereotypisierter Kontinent?
               Historische Datenauswertung der Afrikaberichterstattung
           in „DER SPIEGEL“, „DIE ZEIT“ und „Hamburger Abendblatt“
                                          - 24.01.2020 -

Matthias Meyer
E-Mail: kontakt@matthmeyer.de

I NHALT

  Einleitung – „Elends-Kontinent Afrika“ .................................................................................... 1

  1 Vorüberlegungen und Methode ............................................................................................... 3

     1.1 Quellenauswahl ................................................................................................................ 3
     1.2 Erstellung des Korpus ...................................................................................................... 5
  2 Auswertungsmethoden ............................................................................................................ 8

     2.1 Schlüsselbegriffsanalyse .................................................................................................. 8
     2.2 Zitate-Scanner ................................................................................................................ 10
     2.3 Sentiment-Analyse ......................................................................................................... 11
     2.4 Rubrik-Analyse .............................................................................................................. 12
     2.5 Netzwerkanalyse ............................................................................................................ 13
  3 Auswertungsergebnisse ......................................................................................................... 14

     3.1 Unterrepräsentiert: Afrika und der Globale Süden ......................................................... 14
     3.2 Sonderfall Ägypten: Kein afrikanischer Staat? .............................................................. 15
     3.3 Sonderfall Nigeria: Abseits der Korrespondentenstädte ................................................ 18
     3.3 Selektive Berichterstattung: Kriege und Krisen ............................................................. 23
     3.4 Fremdbezeichnungen und Zitate .................................................................................... 27
     3.5 Methodische Probleme ................................................................................................... 29
  Schlussbetrachtung ................................................................................................................... 30

  A. Quellenverzeichnis ............................................................................................................. 33

  B. Literaturverzeichnis ............................................................................................................ 33

  Anhang ..................................................................................................................................... 36

     1 Wortlisten .......................................................................................................................... 36
        1.1 Die zehn ersten von Newspaper3K erkannten Schlüsselbegriffe im Spiegel-Artikel „Ein schwarzer
        Holocaust“ sortiert nach Gewichtung ........................................................................................................... 36
        1.2 Von spaCy erkannte Entitäten im Spiegel-Artikel „Ein schwarzer Holocaust“ in alphabetischer
        Reinfolge ...................................................................................................................................................... 36
        1.3 Vom selbst entwickelten Schlüsselbegriffsscanner erkannte Schlüsselbegriffe im Spiegel-Artikel
        „Ein schwarzer Holocaust“........................................................................................................................... 37
        1.4 Liste für Nachrichtenartikel typischen Verben zur Einleitung direkter Rede ......................................... 37

2 Tabellen ............................................................................................................................. 38
2.1 Ergebnis der Schlüsselbegriffsanalyse: Die 20 indirekt oder direkt meistgenannten Länder ................. 38
2.2 Ergebnis der Schlüsselbegriffsanalyse: Kontinente und Anzahl der Nennungen total
beziehungsweise Anzahl der Nennungen pro 1.000 Einwohner .................................................................. 38

3 Grafiken ............................................................................................................................. 39
3.1 Länder der Erde eingefärbt nach Anzahl der direkten oder indirekten Nennungen im Korpus .............. 39
3.2 Ergebnis der Schlüsselbegriffsanalyse: Kontinente und Anzahl der Nennungen total beziehungsweise
Anzahl der Nennungen pro Einwohner ........................................................................................................ 40
3.3 Länder Afrikas eingefärbt nach Anzahl der direkten oder indirekten Nennungen im Korpus ............... 41
3.4 Anzahl der Nennungen der Länder Afrikas in Abhängigkeit zu deren Bruttoinlandsprodukt ................ 42
3.5 Anteil der Artikel, die das Wort „Afrika“ beinhalten, an der Gesamtzahl der Artikel zu einem Land... 43
3.6 Netzwerkgraph: Ergebnis der Netzwerkanalyse ..................................................................................... 44
3.7 Ausschnitt Netzwerkgraph: Sonderrolle Ägyptens................................................................................. 45
3.8 Prozentualer Anteil an Artikeln über Ägypten, in denen entweder "Jerusalem" oder
"Israel" vorkommt ........................................................................................................................................ 46
3.9 Ortsmarkierungen eingezeichnet nach der Häufigkeit ihrer Nennung auf einer Weltkarte .................... 46
3.10 Anzahl der Artikel mit den Suchbegriffen „Biafra“, „Hunger“ in Kombination mit „Biafra“ und
„Kind“ in Kombination mit „Biafra“ 1967 bis Ende 1969 ........................................................................... 47
3.11 Anzahl Artikel mit dem Suchbegriff „Hunger“ in den Artikeln zu Afrika 1949-2019......................... 47
3.12 Anzahl der Artikel mit den Suchbegriffen „Holocaust“, „Genozid“ oder „Völkermord“ 1949-2019 .. 48
3.13 Anteil der Artikel mit den Suchbegriffen „Ägypten“ an der Gesamtartikelzahl 1949-2019 in ‰ ....... 48
3.14 Ausschnitt Netzwerkgraph: Sonderrolle Südafriaks ............................................................................. 49
3.15 Absolute Anzahl an Artikeln aus der Rubrik „Sport“ afrikanischer Länder ......................................... 49
3.16 Rubrikverteilung der Länder Ruanda, Libyen, Somalia und Kongo im Vergleich mit den
Vereinigten Staaten von Amerika und Australien ........................................................................................ 50
3.17 Anteil der Artikel mit dem Suchbegriff „Südafrika“ an der Gesamtzahl der Artikel in ‰ 1949-2019 51
3.18 Anteil der Artikel mit dem Suchbegriff „Ruanda“ an der Gesamtzahl der Artikel in ‰ 1949-2019 ... 51
3.19 Anteil der Artikel mit dem Suchbegriff „Somalia“ an der Gesamtzahl der Artikel in ‰ 1949-2019 .. 52
3.20 Anteil der Artikel mit dem Suchbegriff „Kongo“ an der Gesamtzahl der Artikel in ‰ 1949-2019 .... 52
3.21 Anteil der Artikel mit dem Suchbegriff „Vietnam“ an der Gesamtzahl der Artikel in ‰ 1949-2019.. 53
3.22 Anteil der Artikel mit dem Suchbegriff „Chile“ an der Gesamtzahl der Artikel in ‰ 1949-2019....... 53
3.23 Durchschnittliches Sentiment der Artikeltexte nach Kontinent............................................................ 54
3.24 Länder der Erde eingefärbt nach ihrem Artikelsentiment..................................................................... 55
3.25 Die markantesten Substantive nach Kontinenten ................................................................................. 56
3.26 Anteil der Artikel mit den Suchbegriffen „Hunger“, „Terror“, „Armut“ und „Krieg“ nach
Kontinenten in % .......................................................................................................................................... 58
3.27 Anteil an Artikeln mit verschiedenen Fremdbezeichnung als Suchbegriff in ‰ 1949-2019 ............... 60
3.28 Anteil der Artikel mit Kontinentsgruppenbezeichnung an der Gesamtzahl an Artikeln zu einem
Kontinent in %.............................................................................................................................................. 61
3.29 Durchschnittliche Anzahl an erkannten Personen pro Artikel nach Kontinenten ................................. 61

E INLEITUNG – „E LENDS -K ONTINENT A FRIKA “

„Verrückte Krieger und verhungernde Kinder, Anarchie und Elend - das ist das Antlitz Afrikas
im letzten Jahrzehnt dieses Jahrtausends“,1 leitete der Journalist Hans Hielscher 1992 die Titelge-
schichte des Nachrichtenmagazins „DER SPIEGEL“ ein. Auf dem Cover der Ausgabe prangerte
„Elends-Kontinent Afrika“. Anlass für den Aufmacher war der amerikanische Eingriff der USA in
den Bürgerkrieg Somalias. Der entsprechende Text beginnt mit der Beschreibung eines an Unter-
ernährung sterbenden Kindes, leitet zu Kalaschnikows und Sonnenbrillen tragenden schwarzen
Soldaten über und mündet schließlich in folgender Frage: „Müssen also die Weißen zurückkehren,
um den Schwarzen Kontinent zu retten, über den sie einst Tod und Verderben gebracht hatten?“2
Die Antwort gibt der Autor in den nächsten Abschnitten selbst. Afrika sei ein Kontinent ohne Hoff-
nung und deshalb angewiesen auf die Hilfe der Weißen.
Der Artikel fußt dabei auf einer meinungsstark aufgemachten Dichotomie zwischen zivilisier-
ten Weißen und hoffnungslosen Schwarzen, die postkoloniale Forscher:innen als problematisch
herausstellen würden. Richtungsweisend für den Postkolonialismus war Edward Saids Werk „Ori-
entalism“ aus dem Jahr 1978.3 Darin entwickelte er am Beispiel des „Orients“ die These, dass
westliche Wissenschaftler:innen in ihrer Darstellung des Fremden einen Diskurs schufen, der die
Kulturen ehemaliger kolonialer Gebiete als unterlegenes Anderes konstruierte und dieses Andere
damit erst erschuf. Daran anschließend habe dieser Diskurs dazu beigetragen, koloniale Macht-
strukturen zu verfestigen und zu legitimieren. Fraglich ist, inwiefern sich solche Konstrukte abseits
des selektiven Beispiels vom „Elends-Kontinent Afrika“ flächendeckend in der journalistischen
Berichterstattung finden. Mit anderen Worten: Wurde in der Nachkriegszeit in der Nachkriegszeit
anders über die Länder Afrikas und über den Kontinent Afrika an sich berichtet als über andere?
Das Afrikabild in den publizistischen Medien des globalen Nordens ist kein neues Forschungs-
gebiet. Bereits in den 1990er Jahren kam Beverly Hawk zu dem Schluss, die westliche Afrikabe-
richterstattung sei vereinfachend, rassistisch und in ihrer Thematik und ihrem Ton überwältigend
negativ.4 Dieses als Afropessimismus zusammengefasste Phänomen spiegelt den Prozess wider,
dass Afrika als Kontinent wenig bis gar keine positiven Entwicklungschancen zugesprochen wer-
den.5 Darin zeigt sich ein medialer Modus, der den Kontinent auf negative Stereotype reduziert.

1
Hans Hielscher, Ein schwarzer Holocaust, in: DER SPIEGEL 1992 (51). 14.12.1992, https://www.spie-
gel.de/spiegel/print/d-13691854.html (Zugriff: 04.01.2020).
2
Vgl. ebd.
3
Vgl. Edward Wadie Said, Orientalism. New York 1978.
4
Vgl. Beverly Hawk, Africa’s Media Image. New York 1992.
5
Vgl. James Garrett/Sandra Schmidt, Reconstituting Pessimistic Discourses, in: Critical Arts 25,3. 2011, 423-440,
hier 423-424.
1

Wie die Medienwissenschaftlerin Mel Bunce argumentiert, sei weniger die Tatsache problema-
tisch, dass die Stereotype unwahr seien, sondern vielmehr, dass sie Afrika nur unvollständig ab-
bildeten.6
Obwohl in Studien wie der von Bunce, in der sie textimmanent 892 Artikel von internationalen
Nachrichtenagenturen analysierte,7 vor allem in den letzten zwei Jahrzehnten wissenschaftlich viel
zur Afrikaberichterstattung aufgearbeitet wurde, gibt es dennoch Forschungsbedarf. Zum einen
waren diese Studien immer kontemporär angelegt; eine historische Einordnung auch über länger
zurückliegende Zeiträume fehlt – nicht zuletzt im deutschsprachigen Raum. Zum anderen ist die
Medienlandschaft in ihrem Pluralismus und ihrer gerade über Jahrzehnte hinweg gesehenen Viel-
zahl an publizierten Beiträgen höchst komplex zu überblicken. Afrikastereotype wurden dabei an
selektiven Beispielen aus kurzen Zeiträumen oder anhand von händisch auswertbaren Artikelmen-
gen nachgewiesen.
Diese Arbeit setzt sich das ehrgeizige Ziel, sich der deutschsprachigen Afrikaberichterstattung
mit einer Makroperspektive anzunähern. Geschichtswissenschaftlich sind Makroperspektiven hei-
kel, müssen sie sich doch schnell dem Vorwurf der Undifferenziertheit in einem traditionell sehr
quellennah arbeitenden und eher qualitativ als quantitativ urteilenden Fach stellen. Insbesondere
die jüngere Neuzeit aber stellt die Geschichtswissenschaften vor das Problem, dass die Anzahl der
Quellen bei Weitem die mit klassischen Methoden bearbeitbare Menge übersteigt. Allen voran gilt
dies für die Mediengeschichte. Der wachsende Fachbereich der digitalen Geschichtswissenschaf-
ten versucht dem Problem mit der Entwicklung quantitativer computergestützten Methoden zu
begegnen. Solche Methoden sollen in dieser auf die Fragestellung übertragen, angewandt und auf
ihre Fruchtbarkeit und Aussagekraft überprüft werden.8
Als Quellenkorpus für diese Arbeit dienen die online verfügbaren Texte der Nachrichtenmaga-
zine „DER SPIEGEL“, „DIE ZEIT“ und die Tageszeitung „Hamburger Abendblatt“ (im folgenden

6
Vgl. Mel Bunce, The International News Coverage of Africa. Beyond the “Single Story”, in: dies., Suzanne
Franks, Chris Paterson (Hrsg.): Africa’s Media Image in the 21st Century. From the “Heart of Darkness” to “Af-
rica Rising”. London/New York 2017, 17-29, hier 17.
7
Weitere zu nennende Studien zur Afrikaberichterstattung sind Lutz Mükkes umfangreiche Analyse von 1.055
Artikeln über Afrika im Zeitraum von 2002 bis 2004 und Susanne Fenglers und Marcus Kreutlers Auswertung
von 211 Nachrichtenbeitragen mit Afrikabezug im Jahr 213. Vgl. Lutz Mükke, Journalisten der Finsternis. Ak-
teure, Strukturen und Potenziale deutscher Afrikaberichterstattung . (Reihe des Instituts für Praktische Journalis-
musforschung, Bd. 1.) Köln 2009, 92 und Susanne Fengler/Marcus Kreutler, Das Afrikabild aus journalistischer
Perspektive. Ergebnisse einer Inhaltsanalyse deutscher Zeitungen im Frühjahr 2013, in: Veye Tatah (Hrsg.), Af-
rika 3.0. Mediale Abbilder und Zerrbilder eines Kontinents im Wandel. Berlin 2014, 55-64. Dirke Köpp unter-
suchte inhaltsanalytisch anhand ausgewählter Beispiele das Afrikabild in den populären Zeitschriften „Bunte“,
„Neue Revue“, „Praline“, „Quick“ und „Stern“ im Zeitraum 1946 bis 2000. Vgl. Dirke Köpp, „Keine Hungersnot
in Afrika“ hat keinen besonderen Nachrichtenwert. Afrika in populären deutschen Zeitschriften (1946-2000).
Frankfurt am Main 2005.
8
Ein vergleichbares zeitgeschichtliche Datenprojekte mit anderer Themensetzung ist Daniel Burckhardts und Ale-
xander Geykens computergestützte Analyse der DDR-Presse, Vgl. Daniel Burckhardt/Alexander Geyken, Distant
Reading in der Zeitgeschichte. Möglichkeiten und Grenzen einer computergestützten Historischen Semantik am
Beispiel der DDR-Presse, in: Contemporary History 16,1. 2019, 177-196. Einen ähnlichen Ansatz verfolgte Ma-
riann Skog-Södersved bereits 1993. Vgl. Mariann Skog-Södersved, Wortschatz und Syntax des außenpolitischen
Leitartigels. Quantitative Analyse der Tageszeitungen „Neues Deutschland“, „Neue Zürcher Zeitung“. „Die
Presse“ und „Süddeutsche Zeitung“, Frankfurt am Main 1993.
2

Spiegel, Zeit und Abendblatt genannt). Dabei soll untersucht werden, inwiefern die Berichterstat-
tung über Afrika von der über andere Kontinente abweicht, welche Auffälligkeiten sich in der Dar-
stellung Afrikas ergeben und in welcher Art die Medien Afrikaner:innen darstellen und zu Wort
kommen lassen.
     Um sich diesen Fragen nähern zu können, soll nach der Korpus-Erstellung in einem ersten
Schritt ein Tool zur Schlüsselbegriffsanalyse erarbeitet werden, mit dessen Hilfe diejenigen
Schlüsselbegriffe erkannt werden können, die innerhalb der Artikel einen geographischen Bezug
zu Afrika aufbauen. Darüber hinaus sollen die Artikel auf ihr Sentiment, also ihre positive oder
negative Polarität, untersucht werden, um erkennen zu kennen, ob über Afrika negativer berichtet
wird als über andere Kontinente. Die Volltextsuche nach Ländernamen innerhalb des Korpus und
die Aufschlüsselung der Ergebnisse nach Jahreszahlen gibt Auskunft darüber, wann und in wel-
chem Kontext afrikanische Länder im Fokus der Medien standen. Des Weiteren soll ein Skript
entwickelt werden, das anhand statistischer Worthäufungen den Artikeln eine Nachrichtenrubrik
zuordnet, womit sich genauso der Frage nach den Themenschwerpunkten in der Afrikaberichter-
stattung angenähert werden kann wie mit der Analyse von markant häufig auftretenden Substanti-
ven in Artikeln mit Afrika-Bezug. Ein weiteres Tool, das wörtliche Zitate inklusive der zitierten
Personen erkennt, soll Auskunft darüber geben, ob nachweislich in Afrika geborene Personen sel-
tener zu Wort kommen als Menschen aus dem globalen Norden. Anhand dieser höchst verschie-
denen Analyseansätze und der Kontextualisierung anhand einzelner Beispiele wie dem Medien-
hype um den Biafra-Krieg soll ein möglichst umfangreiches Bild zur Darstellung Afrikas nach
dem Zweiten Weltkrieg entstehen.9

     1 V ORÜBERLEGUNGEN                UND     M ETHODE
     1.1 Q UELLENAUSWAHL

     Die digitalen Geisteswissenschaften mit ihrem Teilgebiet der digitalen Geschichtswissenschaft
haben sich zum Ziel gesetzt, mittels statistisch-algorithmischer Methoden sowohl neue Erkennt-
nisse als auch neue Fragestellungen zu generieren.10 Damit reagieren die Geisteswissenschaften
auf einen wissenschaftlichen Technisierungs- und Mathematisierungsprozess. Wissenschaftsge-
schichtlich wurden auf Quantifizierung beruhenden Forschungserkenntnissen in den vergangenen

9
     Die Ergebnisse der Datenauswertung finden sich aufgrund besserer Interaktivität der Grafiken finden auch unter
     https://journospective.de/.
10
     Vgl. Petra Missomelius, Medienbildung und Digital Humanities. Die Medienvergessenheit technisierter Geistes-
     wissenschaften, in: Heike Ortner/Daniel Pfurtscheller/Michaela Rizzolli/Andreas Wiesinger (Hrsg.), Datenflut
     und Informationskanäle. Innsbruck 2014, 101-112, hier 101.
                                                                                                                 3

Jahrzehnten mehr und mehr Bedeutung zugemessen. Die Mathematik avancierte dabei zum Leit-
modell objektiver und allgemeingültiger Erkenntnis.11 Dennoch gilt nach wie vor der historische
Leitsatz, dass es keine objektive Perspektive auf die Geschichte gebe, die für sich Allgemeingül-
tigkeit beanspruchen könnte. Reinhart Koselleck fasste dies unter der Denkfigur des „Vetorechts
der Quellen“ zusammen, dass nämlich alle geschichtswissenschaftlichen Deutungen historische
Wahrheiten abbilden, solange sie nicht durch Quellenkritik als unwahr falsifiziert werden.12
Als Quellengrundlage dieser digitalgeschichtlichen Arbeit werden Daten dienen. Dabei werden
nicht nur zur Auswertung mathematisch Methoden angewandt werden, sondern die aus binären
Zeichen bestehenden Quellen basieren an sich schon auf einer mathematischen Grundlage. Nichts-
destotrotz soll nicht der Trugschluss begangen werden, mittels Datenanalyse zu objektiver Er-
kenntnis hinsichtlich der Fragestellung gelangen zu können.13 Im Gegenteil: Aufgrund der Neuar-
tigkeit der Methodik sind die Ergebnisse umso kritischer zu hinterfragen. Dabei werden die digi-
talgeschichtlichen Ansätze im Folgenden als Erweiterung des ohnehin eklektischen Methodenka-
nons der Geschichtswissenschaften betrachtet.
Journalistische Erzeugnisse eignen sich besonders für datenhistorische Arbeiten – erst recht für
studentische Arbeiten mit begrenztem Umfang. Die Mehrzahl der Geschichtsarchive sind bisher
nicht in digitaler Form zugänglich, scheiden damit also aus, wenn nicht selbst aufwendig eine
Digitalisierung vorgenommen werden soll.14 Hingegen liegen Zeitungen und Magazine in zuneh-
mender Zahl auch digital vor.15 Erstens existieren groß angelegte wissenschaftliche Digitalisierun-
gen wie das von der Deutschen Forschungsgemeinschaft geförderten Projekte „Amtspresse Preu-
ßens“16 und „DDR-Presse“.17 Zweitens haben Nachrichtenverlage selbst ein Interesse daran, ihr
Archiv für Recherchearbeiten zu digitalisieren. Einige stellen diese sogar für Zahlende online,18

11
Vgl. Theo Hug/Josef Perger, Instantwissen, Bricolage, Tacit Knowledge. Ein Studienbuch über Wissensformen
in der westlichen Medienkultur. Innsbruck 2003, 7.
12
Vgl. Reinhart Koselleck, Standortbindung und Zeitlichkeit. Ein Beitrag zur historiographischen Erschließung der
geschichtlichen Welt, in: ders./Wolfgang Justin Mommsen/Jörn Rüsen (Hrsg.), Objektivität und Parteilichkeit
(Theorie der Geschichte, Beiträge zur Historik. Bd. 1.) München 1977, 17-46, hier 45-46.
13
Die Digitalhistoriker Shawn Graham, Ian Milligan und Scott Weingart schrieben in ihrem Standardwerk zu Big
Data in den Geschichtswissenschaften, dass die maschinelle Auswertung großer Datenmengen „does not offer
any change to the fundamental questions of historical knowing facing historians.“ Shawn Graham/Ian Milli-
gan/Scott Weingart, Exploring Big Historical Data. The Historian’s Macroscope. London 2016, 32. Egal, wie
groß die Datenmengen würden, es handle sich dabei immer noch nur um Ausschnitte der Vergangenheit. Aller-
dings sehen sie die Chance, mittels Datenauswertung den Blick auf die Vergangenheit zumindest zu schärfen.
14
Vgl. Peter Haber, Digital Past. Geschichtswissenschaften im digitalen Zeitalter. München 2011, 99-103.
15
Vgl. zum Stand der digitalen Mediengeschichte Huub Wijffjes, Digital Humanities and Media History, A Chal-
lenge for Historical Newspaper Research, in: Tijdschrift voor Mediageschiedenis 20,1. 2017, 4-24.
16
Vgl. Albrecht Hoppe/Rudolf Stöber, DFG-Projekt Digitalisierung der Amtspresse Preußens in der zweiten Hälfte
des 19. Jahrhunderts und Erstellung eines Sachkommentars, in: Holger Böning/Arnulf Kutsch/Rudolf Stöber
(Hrsg.), Jahrbuch für Kommunikationsgeschichte (Bd. 9.) Stuttgart 2006, 220-246 und die Projektbeschreibung
Staatsbibliothek zu Berlin, ZEFYS Zeitungsinformationssystem. Die Korrespondenzen. 2017, http://zefys.staats-
bibliothek-berlin.de/index.php?id=korrespondenzen (Zugriff: 06.01.2020).
17
Vgl. die Projektbeschreibung Staatsbibliothek zu Berlin, Informationen zum Projekt. Von der gedruckten Zeitung
zur Volltextrecherche auf Artikelebene. 2017, http://zefys.staatsbibliothek-berlin.de/index.php?id=153 (Zugriff:
06.01.2020).
18
Wie zum Beispiel die reichweitenstarken Tageszeitungen „Süddeutsche Zeitung“ und „Frankfurter Allgemeine
Zeitung“. Deren Archive sind zwar auch über Bibliothekskataloge abrufbar, allerdings wird der automatisierte
4

manche sogar frei abrufbar.
Dazu zählen alle Ausgabe des wöchentlich erscheinenden Nachrichtenmagazins Spiegel und
eingeschränkt19 die Ausgaben der Wochenzeitung Zeit. Beide gelten als Leitmedien in Deutsch-
land.20 Soweit dem Autor bekannt ist lediglich das Archiv einer deutschen Tageszeitung unbe-
schränkt zugänglich. Dabei handelt es sich um das Hamburger Abendblatt. Die 1948 gegründete
Zeitung erschien über 60 Jahre lang im Springer-Verlag und gehört seit 2014 zur Funke Medien-
gruppe.
Alle drei genannten Magazine beziehungsweise Zeitungen bilden die Basis der folgenden Da-
tenanalyse. Kriterien für die Auswahl waren eine gewisse journalistische Relevanz, das heißt eine
Reichweite von mehreren 100.000 Leser:innen über den Untersuchungszeitraum hinweg, Erschei-
nungsort in der Bundesrepublik Deutschland und allen voran Datenverfügbarkeit. Bewusst in Kauf
genommen wurde bei der Erstellung des Korpus, dass sich Spiegel und Zeit an ein deutschland-
weites Publikum und das Hamburger Abendblatt primär an eine lokale Zielgruppe richtet. Die
Prämisse für die verwendeten computergestützten Verfahren ist eine möglichst große Datengrund-
lage, wobei sich die Schwerpunktsetzung des Abendblattes auf Hamburg in den Ergebnissen deut-
lich zeigen wird. 21 Da allerdings keine innerdeutschen Vergleiche angestellt werden, sondern die
Afrikaberichterstattung im Fokus steht, lässt sich dieser Punkt vernachlässigen.
Eine möglichst große Datengrundlage verspricht aber auch deshalb fruchtbare Ergebnisse einer
Untersuchung möglicher stereotypisierter Berichterstattung, da Stereotype via Sozialisation „er-
lernt“ werden, den Massenmedien dabei eine entscheidende Rolle zukommt und die sozialisie-
rende Wirkung dieser in Einzelbeispielen kaum erkennbar ist.22 Mit anderen Worten: Die Makro-
perspektive bietet sich an in der historischen Stereotypenforschung.

1.2 E RSTELLUNG DES K ORPUS

Abruf von Artikeln ausgeschlossen, weshalb sie für diese Arbeit nicht infrage kamen.
19
Die Zeit stellte im Juni 2007 alle ihre seit 1995 publizierten Texte online. Im Dezember 2007 schließlich alle
weiteren Jahrgänge seit Bestehen, also ab 1946. Dies waren laut eigener Aussage zusätzliche 250 000 Artikel.
Vgl. Gero von Randow, Zeit-Archiv seit 1946 frei. 21.12.2007, https://blog.zeit.de/zeitansage/2007/12/21/zeit-
archiv-seit-1946-frei_110 (Zugriff: 06.01.2020). Leider wurde die Archivgröße nachträglich wieder reduziert. Für
den entsprechenden Zeitraum konnten im Dezember 2019 nur noch 112 869 Artikel aufgefunden werden. Das
entspricht durchschnittlich 2303 Artikel pro Jahr. Florian Müller konnte in einer vergleichbaren Bachelorarbeit
aus dem Jahr 2015 noch etwa 5800 bis 5900 Zeit-Artikel pro Jahrgang im Zeitraum 1969 bis 1989 finden. Vgl.
Florian Müller, Digitale Zeitungskorpora als Quellen für die historische Forschung. Anwendung digitaler Werk-
zeuge und Methoden zur Untersuchung der Ökonomisierung der Sprache der Wochenzeitung „DIE ZEIT“ zwi-
schen 1969 und 1989. 2015, https://github.com/ImdWf/Publications/blob/master/BA%20thesis.pdf (Zugriff:
06.01.2020).
20
Vgl. Maja Malik/Armin Scholl/Siegfried Weischenberg, Journalismus in Deutschland 2005. Zentrale Befunde der
aktuellen Repräsentativbefragung deutscher Journalisten, in: Media Perspektiven 7. 2006, 346-361, hier 359.
21
So ergibt sich beispielsweise eine deutliche Häufung der Ortsmarkierung „Hamburg“. Vgl. Kapitel 3.3.
22
Vgl. zum Ansatz und zur Definition des Stereotypenbegriffs als sozial konstruierte Gruppenzuschreibung Martina
Thiele, Medien und Stereotype. Konturen eines Forschungsfeldes. Bielefeld 2015, 50-52.
5

Einer der aufwendigsten Prozesse bei Datenauswertungen ist die Beschaffung der Daten, das
sogenannte Data Mining.23 Um die Nachrichtenartikel überhaupt erst auswerten zu können, muss-
ten diese zunächst von den Servern der Medienportale heruntergeladen werden. Es ist für kom-
merzielle Medien unüblich, wissenschaftlichen Projekten direkten Zugang zu den internen Daten-
banken zu bieten oder eine Datenschnittstelle zur Verfügung zu stellen, weshalb einzelne Artikel
über deren URL aufzurufen und die vom Server zurückgeschickte HTML-Seite auszuwerten wa-
ren. Dazu müssen aber die URLs zu allen jemals erschienen Artikeln bekannt sein. Die Zeit und
der Spiegel machen das Auffinden der URLs vergleichsweise einfach, da sie zu ihren Ausgaben
Übersichtsseiten bieten, die alle zugehörigen Artikel auflisten. Die Adressen der Übersichtsseiten
folgen einem simplen Schema, bei denen lediglich fortlaufend Jahres- und Wochenzahl der Aus-
gabe ersetzt werden mussten.24 Dies konnte mit einem Python-Skript automatisiert werden. Aus
dem HTML-Dokument der Übersichtsseiten konnten mithilfe der Python-Bibliothek Beautiful
Soup, die das Auslesen von HTML-Dateien unterstützt, alle Links gefiltert werden. Dabei wurde
darauf geachtet, dass die Links auf Archivartikel zeigen und nicht beispielsweise auf das Impres-
sum oder die Datenschutzerklärung.25
Schwieriger gestaltete sich das Auffinden der Artikellinks beim Hamburger Abendblatt. Deren
Webseite bietet keine Übersichtsseiten. Die Sitemap – eine Sammlung von XML-Dateien, die für
Suchmaschinen Unterseiten einer Webseite auflisten – des Abendblattes erwies sich als unvoll-
ständig. Stattdessen blieb nur der Umweg so an die Artikellinks zu gelangen, wie es auch Seiten-
besucher:innen tun würden: über die Suchmaske. Gesucht wurde nacheinander nach den drei häu-
figsten Wörtern der deutschen Sprache „der“, „die“ und „und“.26 Dies resultierte in etwa 228.000,
170.000 und 210.000 Ergebnisseiten (Stand Dezember 2019). Aufgabe des entsprechenden Skripts
war es, diese Ergebnisseiten nacheinander zu öffnen und wie oben beschrieben nach Artikellinks
zu durchsuchen.27 Die meisten Artikel beinhalteten mehr als eines der Suchwörter und wurden

23
Vgl. Missomelius, Medienbildung, 101-102.
24
So sind die Artikelauflistungen der Zeit unter https://www.zeit.de/{{ Jahr }/{{ Woche }}/index auffindbar und
die des Spiegels unter https://www.spiegel.de/spiegel/print/index-{{ Jahr }}-{{ Woche }}.html, wobei {{ Jahr }}
und {{ Woche }} jeweils durch die entsprechenden Zahlen zu ersetzen sind.
25
URLs zu Print-Artikel haben bei der Zeit die Form https://www.zeit.de/{{ Jahr }/{{ Woche }}//{{ Titel des Arti-
kels }} beim Spiegel die Form https://www.spiegel.de/spiegel/print/d-{{ 8-stellige Zahl }}.html. Die Einhaltung
dieser Form lasst sich durch die Nutzung von Regular Expressions prüfen.
26
Listen der häufigsten Wörter der deutschen Sprache lassen sich von der Webseite des Projekts „Leipzig Corpora
Collection“ herunterladen: https://wortschatz.uni-leipzig.de/de/download. Vgl. Thomas Eckart/Dirk Gold-
hahn/Uwe Quasthoff, Building Large Monolingual Dictionaries at the Leipzig Corpora Collection. From 100 to
200 Languages, in: Nicoletta Calzolari (Hrsg.), Proceedings of the 8th International Language Ressources and
Evaluation. Istanbul 2012, 759-765.
27
Auch die URLs zu Print-Artikel beim Hamburger Abendblatt haben eine bestimmte Form: https://www.abend-
blatt.de/archiv/{{ Jahr }}/article{{ neunstellige Nummer }}/{{ Titel des Artikels }}. Allerdings wird diese Form
nur bis zum Jahr 2002 eingehalten. Von da an sind Print-Artikel nicht mehr anhand ihrer URL von online publi-
zierten Inhalten zu unterscheiden. Um den Korpus möglichst über die Jahrzehnte hinweg homogen zu halten,
wurden die Optionen die auf 2002 folgenden Jahrgänge wegzulassen beziehungsweise ab 2002 vollständig auch
die in viel größerer Stückzahl erscheinenden Online-Artikel mit einzubeziehen verworfen. Stattdessen wählte das
Skript von da an pro Jahrgang aus der Masse an Online-Artikeln zufällige so viele Artikel aus, wie auch in den
Jahrgängen zuvor durchschnittlich im gedruckten Abendblatt erschienen (28.000).
6

dadurch mehrfach gefunden, weshalb vor weiteren Auswertungsschritten Duplikate entfernt wer-
den mussten. Nicht auszuschließen ist der unwahrscheinliche Fall, dass ein Artikel keines der drei
Wörter enthält, sodass sich eine Vollständigkeit des Korpus bei dieser Methode nicht garantieren
lässt.
Nachdem das Auffinden der URLs abgeschlossen war, konnten die einzelnen Artikel herunter-
geladen werden. Zur Archivierung solch großer Datenmengen bieten sich relationale Datenbanken
an. In dieser Arbeit kam MySQL zum Einsatz. Es ist weltweit eines der am verbreitetsten Daten-
bankverwaltungssysteme. Relationale Datenbanken wie MySQL ermöglichen das tabellenbasierte
Abspeichern von Daten und ermöglichen Operationen über mehrere Tabellen hinweg auf Grund-
lage der relationalen Algebra. Abfragen und Manipulieren der Daten erfolgt dabei über die Daten-
banksprache SQL.28
Ein Python-Skript öffnete also nacheinander die Artikellinks, machte im HTML-Dokument den
Titel, gegebenenfalls den Teaser, den Fließtext und das Erscheinungsdatum ausfindig und fügte
diese als je eine Zeile in die Tabelle „articles“ der MySQL-Datenbank ein. Bekanntlich finden sich
auf einer Webseite viele verschiedene Textelemente. Für menschliche Betrachter:innen ist auf-
grund der visuellen Gestaltung dieser Webseiten in der Regel klar erkennbar, was zum Fließtext
gehört und was zum Beispiel Werbung ist. Für Maschinen, die nur mit dem Quellcode arbeiten, ist
es das vielfach nicht. Unterstützend kam deshalb die Bibliothek Newspaper3k zum Einsatz, die
darauf ausgelegt ist, Nachrichtenartikel zu parsen, also dabei hilft, die relevanten HTML-Elemente
zu erkennen. Zusätzlich wurden nach mehreren Testdurchläufen vereinzelt auftretenden Fehler-
quellen manuell korrigiert, das heißt fälschlich erkannte Fließtextelemente oder Überschriften
wurden anhand ihrer HTML-IDs oder Klassen ausgeschlossen. Zusätzlich als problematisch er-
wies sich, dass die Zeit Artikel teilweise auf mehrere Seiten erstreckt.29 Glücklicherweise sind
weiterführende Seiten verlinkt und folgen einer leicht erkennbaren Struktur, sodass auch Artikel
mit weiterführenden Seiten vollständig miteinbezogen werden konnten.30
Durch das beschriebene Verfahren war es möglich, einen Korpus von 2.686.309 Artikeln zu
erstellen.31 Dafür sind die Artikel der letztgenannten im Schnitt deutlich länger und lassen auf-
grund einer weniger lokalen Ausrichtung auch mehr Afrikabezüge vermuten, womit sich dieser

28
Schon Ende der 80er Jahre erschienen erste Monografien zum Nutzen von Datenbanken in den Geschichtswis-
senschaften. Vgl. Manfred Thaller, Datenbanken und Datenverwaltungssysteme als Werkzeuge historischer For-
schung. St. Katharinen 1986. Zum aktuellen Stand, Nutzen und Anwendung von Datenbanken in den Geisteswis-
senschaften vgl. ausführlich Jon Bath/Harvey Quamen, Databases, in: Constance Crompton/Richard Lane/Ray
Siemens, Doing Digital Humanities. Practice, Training, Research. London/New York 2016, 145-162.
29
So verteilt sich beispielsweise der Artikel „Anbar Lulu“ auf insgesamt 65 Seiten. Vgl. Nagib Mahfuz, Anbar Lulu.
21.11.1969, https://www.zeit.de/1969/47/anbar-lulu (Zugriff: 06.01.2020).
30
Den Artikellinks wird lediglich ein „/seite-{{ Seitenzahl }}“ angehangen.
31
Den größten Anteil daran nehmen erwartungsgemäß Artikel des täglich erscheinenden Hamburger Abendblattes
mit 2.257.454 Artikeln ein. Spiegel und Zeit kommen auf je 288.810 und 140.045. Damit ergibt sich eine entspre-
chend gefüllte Datenbank, die fortgeschrittene Informatik-Kenntnisse zur Datenbankoptimierung erfordert, um
Abfragezeiten nicht ins unermessliche dteigen zu lassen.
7

existente Unterschied in der Quellengröße relativiert.32 Mit über 9,1 GB an reinen Textdaten – also
Titel, Teaser und Fließtext – ist der Korpus enorm groß. Zu beachten ist zusätzlich die Download-
zeit bei der Erstellung solch großer Korpusse. Selbst unter optimalen Bedingungen, wenn also
aufgrund schneller Internetanbindung eine Download- und Auswertungszeit von einer Sekunde
pro Artikel erreicht wird, müsste bei mehr als 2,5 Millionen Artikeln mit einer Gesamtlaufzeit von
über 31 Tagen kalkuliert werden. Mithilfe von Multiprocessing, also dem Abarbeiten mehrerer
Prozesse gleichzeitig, konnte die Laufzeit auf 10 Tage verkürzt werden.33

2 A USWERTUNGSMETHODEN
2.1 S CHLÜSSELBEGRIFFSANALYSE

Um Aussagen über die Afrikaberichterstattung treffen zu können, ist es notwendig, diejenigen
Artikel des Korpus zu identifizieren, die sich auf Afrika beziehen. Eine Stichwortsuche nach dem
Begriff „Afrika“ ist dazu nicht ausreichend, da ein geographischer Bezug in Artikeln auch durch
die Nennung Landes, einer Region, einer Stadt, eines Gewässers, einer Landmarke oder Ähnli-
chem hergestellt werden kann. Entscheidender Teilbereich dieser Auswertung war es also, ein Ver-
fahren zu entwickeln, das die Artikel automatisiert auf Schlüsselbegriffe hin untersucht, um so
unter ihnen diejenigen ausmachen zu können, die sich auf Afrika beziehen.
Das maschinelle, quantifizierte Auslesen von Texten nennt sich Distant Reading.34 Die Schlüs-
selbegriffsanalyse (englisch auch Keyword Analysis oder Keyword Extraction genannt) ist ein
wichtiger Teil davon. Das Ziel einer Schlüsselbegriffsanalyse ist generell gesprochen das Heraus-
filtern relevanter Begriffe aus einem Fließtext, um diesen mit weiteren vergleichen zu können.
Relevanz kann dabei unterschiedlich definiert sein. In der Regel wird diese aber als Bedeutung des
Begriffs für den Fließtext gesehen. Dazu existieren bewährte methodische Ansätze und auch nutz-
bare Umsetzungen in verschiedenen Programmiersprachen. Auch die zur Textextraktion verwen-
dete Bibliothek Newspaper3k beinhaltet bereits ein einfaches statistisches Verfahren zur Schlüs-
selbegriffserkennung. Dieses zählt die Häufigkeit einzelner Wörter – Stoppwörter ausgenommen
– im Text und gibt die häufigsten n Wörter als Schlüsselbegriffe aus. Für die angedachte Analyse
ist ein solches Verfahren aber gänzlich ungeeignet, da erstens n nicht sinnvoll definierbar ist, zwei-
tens nur Einzelwörter erkannt werden, drittens Synonyme ignoriert werden und viertens zusätzlich

32
Die durchschnittliche Artikellänge der Artikel von Zeit, Spiegel und Hamburger Abendblatt im Korpus beträgt
858, 686 und 268 Wörter.
33
Das Herunterladen und die folgende Textanalyse liefen auf einem dafür eingerichteten Linux-Server mit acht
CPU-Kernen und 32 GB RAM.
34
Vgl. Matt Erlin/Lynne Tatlock, „Distant Reading“ and the Historiography of Nineteenth-Century German Litera-
ture, in: dies. (Hrsg.), Distant Readings. Topologies of German Culture in the Long Nineteenth Century. Cam-
bridge 2014, 1-25, hier 2-4.
8

manuell Metainformationen wie die geographische Zugehörigkeit zu Ländern oder Kontinenten
manuell ergänzt werden müsste.35
Die Python-Erweiterung spaCy ist ein auch für die deutsche Sprache optimiertes computerlin-
guistisches Tool, das zumindest die ersten beiden Probleme ausmerzen kann. Die Open-Source-
Software nutzt statistische Modelle – mit anderen Worten maschinelles Lernen –, um zu einzelnen
Wörtern eines Textes die Wortart, die grammatikalische Abhängigkeit und das Lemma, also die
unreflektierte Form des Wortes, möglichst präzise vorherzusagen.36 Ebenfalls beinhaltet spaCy
eine sogenannte Entitätserkennung, das bedeutet, die Software erkennt Einzelwörter oder auch
zusammengehörige Wörter, die für das Programm mit hoher Wahrscheinlichkeit einen Eigennah-
men darstellen, wozu zum Beispiel Personen, Länder, Städte oder auch Buchtitel zählen. Obwohl
das eingesetzte deutsche Sprachmodell mit einem aus Nachrichtenartikel bestehenden Korpus er-
stellt wurde und damit dem in dieser Arbeit zu analysierendem Korpus ähneln dürfte, erwies sich
die Erkennung als sehr fehleranfällig.37
Deshalb war eine weitere Instanz von Nöten, die die Entitäten überprüft. Die größte frei zu-
gängliche Sammlung an Entitäten ist die Online-Enzyklopädie Wikipedia. Bedeutender Vorteil ist,
dass diese auch Metadaten zu den Entitäten zur Verfügung stellt, und zusätzlich die Möglichkeit
bietet, Synonyme aufzulösen. So leitet Wikipedia zum Beispiel die verschiedenen Schreibweisen
der mauretanischen Hauptstadt „Nuwakschut“, „Nouakchott“ oder „Nuakschott“ allesamt auf die
Seite „Nouakchott“ weiter. Um also auch die anderen beiden ausgemachten Probleme zu lösen,
wurde die deutsche Wikipedia heruntergeladen und in die zuvor angelegte Datenbank eingefügt.38
So stand eine Tabelle mit 1.751.840 Titeln von Wikipedia-Seiten39 zur Verfügung und zusätzlich
eine 1.328.404 Einträge umfassende mit Begriffen, die auf andere Artikel weiterleiten. Zusätzlich
finden sich in den Wikipedia-Daten auch eine Vielzahl an Aliase zu einzelnen Wikipedia-Artikeln,
die nicht zwangsläufig auch Weiterleitungen sein müssen.40 Auch diese 807.455 Aliase wurden in
einer Tabelle gespeichert.
Nun konnte jede von spaCy gefunde Entität mit der Titel-, der Weiterleitungs- und der Aliasliste

35
Vgl. die Liste der ersten zehn von Newspaper3K erkannten Schlüsselbegriffe im eingangs zitierten Spiegel-Arti-
kel „Ein schwarzer Holocaust“ im Anhang 1.1.
36
Vgl. zur Funktionsweise von spaCy Bhargav Srinivasa-Desikan, Natural Language Processing and Computa-
tional Linguistics. A Practical Guide to Text Analysis with Python, Gensim, spaCy and Keras. Birmingham/Mum-
bai 2018, 33-50.
37
Vgl. die Liste der von spaCy erkannten Entitäten im eingangs zitierten Spiegel-Artikel „Ein schwarzer Holo-
caust“ im Anhang 1.2.
38
Verfügbare Daten zu einzelnen Wikipedia-Artikeln können über eine Datenschnittstelle heruntergeladen werden:
https://www.mediawiki.org/wiki/API:Main_page. Gleichzeitig bietet Wikipedia aber auch sogenannte Daten-
bankdumps, also vollständige Kopien der eigenen Datenbank. Verfügbar sind diese für die deutsche Wikipedia
unter: https://dumps.wikimedia.org/dewiki/latest/.
39
Die tatsächliche Anzahl an Seiten in der deutschen Wikipedia liegt bei über 2 Millionen. Vgl. Wikipedia-Autoren,
Wikipedia:Statistik. Zuletzt bearbeitet 01.01.2020, https://de.wikipedia.org/w/index.php?title=Wikipedia:Statis-
tik&oldid=195383284 (Zugriff 08.01.2010). Der Unterschied rührt daher, dass interne Seiten wie Benutzer-, Dis-
kussions- und Kategorie-Seiten nicht abgespeichert wurden.
40
Der Unterschied zwischen Aliasen und Weiterleitungen ist, dass Weiterleitungen eindeutig sind und Aliase für
mehrere Wikipedia-Artikel stehen können.
9

abgeglichen werden. Gab es einen Treffer, galt die Entität als bestätigt und wurde als zum Nach-
richtenartikel zugehörig in die Datenbank aufgenommen. Erzielte die Suche mehrere Treffer – so
ist „Togo“ zum Beispiel nicht nur der Name eines westafrikanischen Landes, der Nachnahme eines
amerikanischen Schauspielers, sondern steht auch für eine Hunderasse, ein Schiff und eine Maß-
einheit –, musste abgewogen werden, welcher Wikipedia-Eintrag der im Artikel gefundenen Enti-
tät entspricht. Der geschriebene Schlüsselbegriffsscanner erreicht dies dadurch, dass er für jeden
in Frage kommenden Wikipedia-Eintrag die im Vergleich zu den anderen Einträgen markantesten
Wörter herausfiltert und diese im Artikeltext sucht. Somit können für die entsprechenden Einträge
Wahrscheinlichkeitswerte errechnet und der wahrscheinlichste ausgewählt werden. Damit die
nicht zu vermeidende Fehlerquote möglichst gering bleibt, wählte das Skript bei Uneindeutigkeit
keines der Einträge.41
Mit der oben beschriebenen Methode war es möglich, allen Artikeln als Wikipedia-Einträge
definierte und damit qualitativ hochwertige Schlüsselbegriffe zuzuordnen.42 Über einen Abgleich
mit dem Datensatz von OpenStreetMap, der in seinen Geodaten Referenzen zu Wikipedia-Einträ-
gen aufweist, konnten mögliche Zugehörigkeiten von Schlüsselbegriffen zu Ländern ergänzt wer-
den.43 Somit wurde die Bedingung für weitere Analysen, innerhalb des Korpus die Artikel heraus-
filtern zu können, die einen Bezug zu afrikanischen Ländern aufweisen erreicht.

2.2 Z ITATE -S CANNER

Zur Beantwortung der Frage, ob in Afrika geborene Menschen seltener zu Wort kommen, also
seltener direkt zitiert werden als solche von anderen Kontinenten, kam ein eigens entwickeltes
Skript zum Einsatz. Dieses suchte nach Zitaten, indem es im Artikeltext nach Anführungszeichen
Ausschau hielt und prüfte, ob das potenzielle Zitat durch ein auf direkte Rede hindeutendes Prä-
dikat im Begleitsatz eingeleitet wurde.44 Mithilfe der grammatikalischen Abhängigkeitsbestim-
mung, die spaCy bietet, konnten typische Konstruktionen – wie ein vorausgehender Begleitsatz

41
Vgl. die Ergebnisliste der der vom selbst entwickelten Schlüsselbegriffsscanner erkannten Schlüsselbegriffe im
eingangs zitierten Spiegel-Artikel „Ein schwarzer Holocaust“ im Anhang 1.3.
42
Der Programmcode für die Schlüsselbegriffsanalyse findet sich auf der beigefügten CD und unter
https://github.com/matthmeyer/keyword-scanner. Das Skript kann ohne Programmierkenntnisse hier ausprobiert
und auf seine Funktion getestet werden: https://journospective.de/tools/text/.
43
OpenStreetMap ist ein 2004 begründetes Projekt, das frei nutzbare Geodaten sammelt und für jedermann in einer
dem Open-Data-Prinzip folgenden Datenbank zur Verfügung stellt. Vgl. überblicksartig Frederik Ramm/Jochen
Topf, OpenStreetMap. Die freie Weltkarte nutzen und mitgestalten. (3. Aufl.) Berlin 2010. Damit beziehen sich
die im weiteren Verlauf genannten Länderzuordnungen leider undifferenziert auf heutige Ländergrenzen. Hier
ergäbe sich Verbesserungsbedarf.
44
Eine Auflistung der zur Analyse herangezogenen Verben ist in Anhang 1.4 aufgeführt. Insbesondere in journalis-
tischen Texten fehlt oft das Prädikat im Begleitsatz und stattdessen findet sich eine Konstruktion mit „so“ – bei-
spielsweise heißt es im eingangs dieser Arbeit zitierten Spiegel-Artikel: „‚Nur die Vereinigten Staaten‘, so Bush
stolz, ‚haben die globale Reichweite, eine so große Streitmacht an einem so weit entfernten Ort einzusetzen.‘“ Für
diesen Fall findet sich eine Ausnahmeregelung im Skript.
10

mit Doppelpunkt zwischen Begleitsatz und direkter Rede oder ein nachgestellter beziehungsweise
eingeschobener Begleitsatz mit Komma zwischen direkter Rede und Begleitsatz – erkannt und als
Validierung herangezogen.45
Entscheidend ist, dass es bei diesem Untersuchungsaufbau auch möglich war, das Subjekt des
Begleitsatzes ausfindig zu machen. Unter Zuhilfenahme der im vorangegangenen Kapitel vorge-
stellten Schlüsselbegriffserkennung konnten den Subjekten, wenn es sich um einen Namen han-
delte, der entsprechende Wikipedia-Eintrag zugeordnet werden. Dieser beinhaltete, sofern öffent-
lich bekannt, auch Informationen zum Geburtsort der Person.46 Durch dieses Verfahren war es
möglich 158.629 Zitate einer konkreten Person zuordenbare Zitate ausfindig zu machen.47

2.3 S ENTIMENT -A NALYSE

Ob bestimmte Texte eine positive oder negative Tendenz aufweisen, das heißt, ob im konkreten
Beispiel über afrikanische Länder in der deutschen Presse negativer berichtet wurde als über an-
dere, ist nicht leicht zu bestimmen – insbesondere wenn dies für einen großen Korpus geschehen
soll. Eine Annäherung bietet eine Sentimentanalyse.48 Sentimentanalysen beruhen auf sogenann-
ten Polaritätslexika. Ein solches Lexikon listet positive und negative Wörter auf und gibt zu jedem
Wort eine als Zahl ausgedrückte Polarität an, in der Regel normalisiert von -1 für negativ über 0
für neutral bis 1 für positiv. Anhand eines Übergewichts an negativen oder positiven Wörtern lässt
sich die Tendenz eines Artikels bestimmen.49 Entscheidend ist die Existenz eines guten Polaritäts-
lexikons in der entsprechenden Sprache, das im besten Fall auch für die entsprechende Textgattung
erstellt wurde.50
Große Vorarbeit für die deutsche Sprache haben dazu Gerhard Heyer, Uwe Quasthoff und Ro-
bert Remus geleistet. Unter dem Projekttitel „SentiWS“ veröffentlichten die Leipziger Computer-
linguisten ein Polaritätslexikon, das in der letzten am 19.10.2018 veröffentlichten Version 1.644
positive und 1.827 negative Wörter beinhaltet. Damit besteht das Lexikon nicht nur aus Adjektiven

45
Im Kern beruht das Skript damit auf Erkenntnissen der als „Dependency Parsing“ bezeichneten Methode. Diese
stammt aus der Computerlinguistik. Vgl. zu den Funktionsmechanismen Wenliang Chen/Min Zhang, Semi-Su-
pervised Dependency Parsing. Singapur 2015.
46
Der Geburtsort findet sich in den Wikipedia-Artikeln meist in Klammern hinter dem Namen im ersten Abschnitt
oder seltener erkennbar an einem „geboren in“ im Fließtext. Somit lässt sich der Ort mit Regular Expressions
aufspüren. Von 408.281 als Schlüsselbegriff erfassten Personen in der Datenbank, konnten so 281.779 Personen
Informationen zum Geburtsort ergänzt werden. Die entstandene Liste von Personen und Geburtsorten kann auf
der beigefügten CD und unter https://github.com/matthmeyer/Bekannte-Personen-und-deren-
Geburtsort/ eingesehen werden.
47
Das verwendete Skript zur Zitaterkennung findet sich auf der beigefügten CD.
48
Vgl. Alessandro Marchetti/Giovanni Moretti/Rachele Sprugnoli/Sara Tonelli, Towards Sentiment Analysis for
Historical Texts, in: Digital Scholarship in the Humanities 31,4. 2016, 762-772.
49
Vgl. ebd., 762-763.
50
Der Forschungsschwerpunkt liegt dabei bisher auf der englischen Sprache. Dabei fokussierten sich die Auswer-
tungen meist auf soziale Netzwerke, Rezensionen und politische Reden, die sich allesamt nur bedingt auf Nach-
richtenartikel übertragen lassen. Vgl. ebd., 763.
11

und Adverbien, die unmittelbar negativ wie „schädlich“ oder positiv wie „hervorragend“ sind,
sondern auch aus Substantiven und Verben, die implizit auf eine negative oder positive Tendenz
schließen lassen, da sie überproportional häufig in entsprechend tendenziösen Texten vorkom-
men.51 Die Initiatoren von „SentiWS“ entwickelten das Projekt ursprünglich zur Auswertung von
Finanznachrichten. Damit kommt die Textgattung des in dieser Arbeit verwendeten Korpus dem
des von den Initiatoren intendierten nahe, auch wenn die hier untersuchten Nachrichtenrubriken
über Finanznachrichten hinausgehen.
Die letztendliche Sentimentanalyse der Nachrichtenartikel fand folgendermaßen statt: Der
Fließtext wurde in Einzelwörter unterteilt. Die Einzelwörter wurden mithilfe von spaCy lemmati-
siert, also in ihre Grundform gebracht, und im Polaritätslexikon nachgeschlagen. Die aufaddierten
Polaritätswerte geteilt durch die Gesamtanzahl an Wörtern im Fließtext ergibt das Sentiment des
Artikels. Für eine bessere Lesbarkeit wurden die Ergebnisse mit dem Faktor 10.000 multipliziert.

2.4 R UBRIK -A NALYSE

Journalistische Zeitungen und Magazine teilen ihre Artikel in der Regel in Rubriken auf. Für
eine Datenanalyse sind diese als Merkmal höchst interessant. Probleme ergeben sich allerdings
aus der untereinander stark abweichenden Aufteilungspraxis. So existieren im Spiegel folgende
Rubriken: „Titel“, „Meinung“, „Deutschland“, „Gesellschaft“, „Wirtschaft“, „Ausland“, „Wissen-
schaft+Technik“, „Sport“ und „Kultur“. Die Zeit unterteilt in die Rubriken „Politik“, „Dossier“,
„Geschichte“, „Fußball“, „Wirtschaft“, „Wissen“, „Feuilleton“, „Glauben und Zweifel“, „Entde-
cken“ und „Chancen“.
Um dennoch eine konstante Einteilung in Rubriken zu ermöglichen, wurde ein Tool entwickelt,
das mittels statistischer Annäherung dem Artikeltext eine Rubrik zuordnet. Als Grundlage für die-
ses Tool dienten 400.000 Artikel von „SPIEGEL ONLINE“ aus den Rubriken „Politik“, „Pano-
rama“, „Sport“, „Wirtschaft“, „Kultur“, „Technik“, „Reise“, „Auto“, „Gesundheit“ und „Wis-
sen“.52 Zunächst wurde die Häufigkeit aller in diesem Korpus befindlichen Wörter aufsummiert,
anschließend die Häufigkeit des Wortes in den jeweiligen Rubriken. Je stärker die prozentuale
Häufigkeit eines Wortes innerhalb einer Rubrik im Vergleich zur Häufigkeit im gesamten Korpus
ist, desto markanter ist das Wort für Rubrik. Für jedes Wort in diesem Korpus konnte so für jede

51
Vgl. Gerhard Heyer/Uwe Quasthoff/Robert Remus, SentiWS. A Publicly Available German-language Resource
for Sentiment Analysis, in: Nicoletta Calzolari (Hrsg.), Proceedings of the Seventh International Language
Ressources and Evaluation. Valletta 2010, 1168-1171.
52
„SPIEGEL ONLINE“ bot sich als Grundlage an, da die dort verwendete Aufteilung in Rubriken schlüssig erschien
und zu dem Portal als reichweitenstärksten deutschsprachiges Online-Nachrichtenangebot eine ausreichend große
Artikelmenge leicht zum Herunterladen bereitstand. Die Rubriken der Artikel auf dem Portal lassen sich prob-
lemlos aus den Artikel-URLs auslesen.
12

Sie können auch lesen