Digitale Lageerkundung bei Großveranstaltungen: Erweiterung des Lagebildes durch Erkenntnisse aus sozialen Medien

Die Seite wird erstellt Stefan-Albert Bauer
 
WEITER LESEN
Digitale Lageerkundung bei Großveranstaltungen: Erweiterung des Lagebildes durch Erkenntnisse aus sozialen Medien
Digitale Lageerkundung bei Großveranstaltungen: Erweiterung
     des Lagebildes durch Erkenntnisse aus sozialen Medien
              Francesca Sonntag                                                Ramian Fathi                                Frank Fiedrich
      Bergische Universität Wuppertal                             Bergische Universität Wuppertal                 Bergische Universität Wuppertal
          Wuppertal, Deutschland                                      Wuppertal, Deutschland                          Wuppertal, Deutschland
        fsonntag@uni-wuppertal.de                                     fathi@uni-wuppertal.de                        fiedrich@uni-wuppertal.de

ABSTRACT                                                                                    Wesentlichen beeinflusst durch die zur Verfügung stehenden Infor-
Die zunehmende gesellschaftliche Nutzung sozialer Medien als                                mationen.
öffentliches Kommunikationsmedium erzeugt eine kontinuierlich                               Soziale Medien stellen einen großen, nutzergenerierten Datensatz
wachsende Datenmenge nutzergenerierter Inhalte. In Krisen und                               dar, welcher aufbereitet in Form eines Lagebildes zur Entschei-
Katastrophen, aber auch während Großveranstaltungen können                                  dungsfindung beitragen kann. Veranstalter von Großveranstaltun-
lagerelevante Informationen aus sozialen Medien gewonnen und in                             gen kommunizieren seit einigen Jahren aktiv über soziale Medien
ein Lagebild integriert und visualisiert werden. Jedoch erschweren                          und sind über eben diese dialogorientiert ansprechbar, aber auch
Volumen, Vielfalt, Erzeugungsgeschwindigkeit und Verifizierung                              die Menschen vor Ort kommunizieren über Eindrücke und Gescheh-
der Daten sozialer Medien eine Analyse und anwendergerechte Dar-                            nisse. Angehörige von Veranstaltungsteilnehmern erkundigen sich,
stellung in Echtzeit. In dieser Arbeit wurde anhand von keyword-,                           z.B. bei fehlender Erreichbarkeit aufgrund eines Unwetters, über
orts- und accountspezifisch selektierten Posts der Plattformen Twit-                        die interaktiven sozialen Medien nach dem aktuellen Stand und
ter und Instagram im Kontext von zwei Großveranstaltungen im                                Befinden ihrer Bekannten [10]. Entscheidungsträger verwenden
Jahr 2019 eine Kategorisierung der textuellen Nachrichten sowohl                            nutzergenerierte Echtzeitinformationen aus sozialen Medien nur
thematisch als auch technisch geprüft. Hierbei wurden insbesonde-                           selten (lediglich 23 % der Befragten einer Befragung von 761 Ein-
re die sicherheitsrelevanten Themenbereiche wie Gesundheitsge-                              satzkräften aus 32 europäischen Ländern im Jahr 2014), obwohl dies
fahren, Hygiene, Personenströme und allgemeine Sicherheitsaspek-                            von großen Teilen der Bevölkerung erwartet wird [45]. Darüber
te, allerdings auch spezifische Aspekte für Großveranstaltungen,                            hinaus fehlt es mitunter an technischen und organisatorischen
wie z.B. die Identifikation von Feedback und Stimmung, analysiert.                          Voraussetzungen, das Lagebild durch Erkenntnisse aus sozialen
Die gewonnenen Erkenntnisse können einerseits dazu beitragen,                               Medien zu erweitern [10]. Bisherige Arbeiten fokussierten sich
Informationen aus sozialen Medien in einem Lagebild abzubilden                              auf Szenarien der Gefahrenabwehr, eine Analyse von deutschen
und andererseits bestehende Analyseansätze zu erweitern.                                    Großveranstaltungen kann dazu beitragen, weitere Erkenntnisse
                                                                                            zu gewinnen. Um Daten aus sozialen Medien, wie z.B. Berichte
CCS CONCEPTS                                                                                von Augenzeugen im Text-, Bild- oder Videoformat von Situatio-
                                                                                            nen während einer Veranstaltung bzw. Gefahrenlage durch eine
• Human-centered computing → Usability testing; Social net-
                                                                                            digitale Lageerkundung auszuwerten und in ein konsistentes La-
working sites; • General and reference → Performance.
                                                                                            gebild zu integrieren, müssen die Daten zugänglich gemacht und
KEYWORDS                                                                                    aufbereitet werden [21]. Die zunehmende Verbreitung von digitalen
                                                                                            Kommunikationstechnologien verstärkt den Bedarf, die Massenda-
Soziale Medien, Digitale Lageerkundung, Großveranstaltungen,                                ten sozialer Medien zur Integration in ein konsistentes Lagebild und
Klassifizierung, Random Forest Algorithmus                                                  Verwendung durch Entscheidungsträger zu filtern und thematisch
                                                                                            zu strukturieren [54].
1     EINLEITUNG                                                                            Eine thematische Klassifizierung mit implizierter Priorisierung
Großveranstaltungen bergen aufgrund der hohen Personenanzahl                                kann durch personelle Strukturen, z.B. dem Virtual Operations Sup-
auf einem definierten Raum ein großes Gefahrenpotenzial, welches                            port Team der Bundesanstalt Technisches Hilfswerk (VOST THW),
durch gesetzliche Regelungen in der Planungsphase berücksichtigt                            sowie durch technische Lösungen in Form von automatisierten
wird [16]. So gelten z.B. Begrenzungen für die Besucheranzahl in                            und lernenden Algorithmen erfolgen [9]. Das VOST THW ist eine
Abhängigkeit von vorhandenen Ausgangsbreiten um erhöhte Per-                                digitale Einsatz-Unterstützungseinheit des THW, bestehend aus di-
sonendichten, wie z.B. beim Unglück bei der Loveparade 2010 in                              gital wirkenden Helfern, welche bei Krisen und Katastrophen, aber
Duisburg, zu vermeiden. Präventiv werden präskriptive Anforde-                              auch bei Großveranstaltungen mit neuartigen Methoden lagerele-
rungen an die Organisation und Planung einer Großveranstaltung                              vante Informationen aus sozialen Medien gewinnen, verarbeiten,
gestellt, reaktiv sind die zu treffenden Entscheidungen jedoch im                           visualisieren und Entscheidungsträgern übermitteln [9]. Durch die
Permission to make digital or hard copies of part or all of this work for personal or       zunehmende Digitalisierung der globalen Gesellschaft wird die
classroom use is granted without fee provided that copies are not made or distributed       Notwendigkeit zur Adaptation der Prozesse und der Ausbau von
for profit or commercial advantage and that copies bear this notice and the full citation   digitalen Kompetenzen bedeutsamer, um die Informationsquellen
on the first page. Copyrights for third-party components of this work must be honored.
For all other uses, contact the owner/author(s).                                            Soziale Medien nutzbar zu machen.
MuC’21 Workshops, Ingolstadt, Deutschland, 10.18420/muc2021-mci-ws08-262
© 2021 Copyright held by the owner/author(s).
https://doi.org/10.18420/muc2021-mci-ws08-262
MuC’21 Workshops, Ingolstadt, Deutschland, 10.18420/muc2021-mci-ws08-262                           Francesca Sonntag, Ramian Fathi, and Frank Fiedrich

Um die wesentliche Fragestellung nach der Möglichkeit einer passi-         2.1   Lagefeststellung und
ven Informationserhebung als Ergänzung zur allgemeinen Lageer-                   Entscheidungsfindung bei
kundung bei Großveranstaltung zu untersuchen, werden in dieser                   Großveranstaltungen
Arbeit zwei Forschungsfragen adressiert:
                                                                           Für abstimmungsbedürftige Ereignisse im Regelbetrieb, sowie für
                                                                           eine strukturierte und handlungsfähige Krisenorganisation, sollte,
    • RQ1: Welche Informationen bzw. thematischen Katego-                  speziell im Kontext von Großveranstaltungen, eine aus dem Alltags-
      rien lassen sich im Kontext einer Großveranstaltung aus              geschäft herausgelöste Organisationsform gegründet werden, ein
      den sozialen Medien ableiten?                                        sogenanntes Koordinierungsgremium [16]. Das Koordinierungs-
    • RQ2: Inwiefern können vorhandene Algorithmen für                     gremium stellt sich aus den notwendigen, qualifizierten und ent-
      die Analyse sozialer Medien auf eine Nutzung im Kon-                 scheidungsbefugten Personen aus unterschiedlichen Fachbereichen
      text von Großveranstaltungen übertragen werden?                      wie z.B. Veranstalter, Ordnungsdienst und Polizei zusammen [13].
                                                                           Neben den turnusmäßig stattfindenden Sicherheitsbesprechungen
                                                                           sind vor allem Prozesssteuerung, Leitentscheidungen, Kommunika-
Nachfolgend werden zur Darstellung der Ergebnisse zunächst die             tionssteuerung und zentrale Öffentlichkeitsarbeit als strategische
Grundlagen sowie die Methodik für die automatisierte Analyse               Aufgabenelemente durchzuführen [16]. Im Falle eines abstim-
sozialer Medien im Kontext der digitalen Lageerkundung bei Groß-           mungsbedürftigen Veranstaltungsereignisses erfolgt die operative
veranstaltungen erläutert und darauf aufbauend die inhaltlichen            Führung aller Maßnahmen, unter Beachtung der Zuständigkeiten
und methodischen Ergebnisse der Analyse sozialer Medien im Kon-            der polizeilichen und nichtpolizeilichen Gefahrenabwehr, durch
text zweier Großveranstaltungen (in Folgendem anonymisiert als             den Veranstalter. Dies impliziert die Koordination der internen
Großveranstaltung A und Großveranstaltung B bezeichnet) aus dem            und externen Maßnahmen unter Beratung durch das Koordinie-
Jahr 2019 beschrieben. In Kapitel 5 werden sowohl die angewandte           rungsgremium bis zur Übernahme durch die jeweilig zuständige
Methodik als auch die Ergebnisse dieser Arbeit umfassend disku-            Einsatzleitung von Feuerwehr, Rettungsdienst oder Polizei [13].
tiert. Im letzten und abschließendem Kapitel 6 werden in einem             Das Koordinierungsgremium arbeitet, analog zu einem Krisenstab
Fazit die Ergebnisse im Gesamtkontext zusammengefasst.                     der öffentlichen Gefahrenabwehr, in einem zur Veranstaltung räum-
                                                                           lich abgetrennten Bereich. Für die Detektion eines von der Norm
                                                                           abweichenden Zustandes ist deshalb eine fortlaufende Beurteilung
                                                                           des Veranstaltungsverlaufs sowie ein koordiniertes Informations-,
2     GRUNDLAGEN                                                           Entscheidungs- und Ressourcenmanagement notwendig, welches
Aufgrund der hohen Anzahl an Besuchern, der Zusammensetzung                auf einem konsistenten Lagebild beruhen kann [7].
und dem Konsumverhalten der Besuchergruppen sowie potenzieller             Die Arbeit des Koordinierungsgremiums sieht folglich, vergleichbar
Gefahren durch das allgemein für eine andere Nutzung ausgeleg-             der Feuerwehrdienstvorschrift 100, eine zyklische Durchführung
te Gelände weisen Entscheidungen bei Großveranstaltungen eine              von Lagefeststellung, Einsatzplanung bzw. Entscheidung und Be-
hohe Signifikanz auf [16]. Im Vergleich zu Notsituationen und Ka-          fehlsgebung vor. Inbesondere die Lagefeststellung beinhaltet die
tastrophenlagen besteht allerdings bei Großveranstaltungen keine           Informationserkundung in Form von Sammlung, Aufbereitung und
akute Gefahrensituation, jedoch werden vergleichbare Stabsstruk-           Kontrolle der verfügbaren Daten, um im Rahmen der Beurteilung
turen für ein schnelles Agieren vorgehalten. Der Veranstalter wird         Informationen und Wissen zu verknüpfen und zu einem Lagebild
durch eine Organisationsform, bestehend aus unterschiedlichen              zusammenzufassen [52]. Ein konsistentes Lagebild beinhaltet den
Fachbereichen, unterstützt, welche sich räumlich disloziert zur Ver-       aufbereiteten Wissensstand als einheitliches Lagebild und ist da-
anstaltung befindet und damit, vergleichend zu einem Krisenstab,           durch Grundlage für Einsatzplanung und Führung. Der hierauf
auf ein gezieltes Informationsmanagement angewiesen ist. Die La-           aufbauende Entscheidungsprozess verläuft zeitlich stringent von
geerkundung kann auf analoger sowie ergänzend auf digitale Weise           dem Erhalt der Daten bis zur Handlung. Die „isolierte[n], uninter-
erfolgen. In der analogen Form können z.B. durch Sichtungen von            pretierte[n] Fakten und Kennwerte der Realitätsbeschreibung“ [34]
Ordnungskräften potentielle oder gegebene Gefahren übermittelt             werden interpretiert, in Informationen überführt, mit der Expertise
werden, aber auch andere klassische Informationsquellen wie Be-            der Entscheidungsträger zu Wissen verknüpft und in Form einer
richte von Besuchern oder Rückmeldungen von Einsatzkräften                 Entscheidungsbefähigung kognitiv verarbeitet, um schließlich die
können zur Lageerkundung beitragen. Die digitale Darstellung der           Grundlage für die Entscheidung zu einer speziellen Handlung zu
Lage kann durch aufbereitete Informationen aus Daten sozialer Me-          bilden [34]. Folglich bildet die Datengenerierung sowie das Infor-
dien in Form von Text, Bildern oder Videos erfolgen. Im konkreten          mationsmanagement das „zentrale Nervensystem“ [42].
Kontext einer Großveranstaltung können die durch Veranstaltungs-
besucher generierten Daten zu sicherheitsrelevanten Themen und             In zahlreichen Arbeiten konnte bereits der Mehrwert von Auswer-
darüber hinaus zu wirtschaftlichen und reputativen Aspekten de-            tungen sozialer Medien in Notsituationen aufgezeigt werden. Neben
tektiert, analysiert und aufbereitet werden. Zur Aufbereitung der          dem Beitrag zu einer erfolgreichen kommunikativen Begleitung
unstrukturierten Daten als informelle Basis von Entscheidungen             einer Krise können soziale Medien zur Informationsgewinnung
bietet sich eine Filterung der relevanten Mitteilungen sowie de-           beitragen [18]. Soziale Medien werden bei Großveranstaltung über-
ren thematische Sortierung mittels Algorithmen des maschinellen            wiegend als Kommunikationsmedium genutzt, eine passive Infor-
Lernens für eine schnelle Lageerkundung an [43].                           mationserhebung mit dem Ziel der systematischen Erweiterung des
Digitale Lageerkundung bei Großveranstaltungen                                MuC’21 Workshops, Ingolstadt, Deutschland, 10.18420/muc2021-mci-ws08-262

Lagebildes durch Daten aus sozialen Medien konnte bisher nicht            werden, sodass eine Adaption und Nutzbarkeit für spezifische Zwe-
flächendeckend beobachtet werden [10]. Die Eigenschaften der              cke möglich ist. Tabelle 1 soll als Darstellung und Grundlage zur
Plattformen und der einzelnen Mitteilungen erschweren eine syste-         Bearbeitung der RQ2 einen Ausschnitt aus aktuellen Entwicklun-
matische Analyse und bedingen die Notwendigkeit einer Filterung           gen, mit Fokus auf die skriptbasierte Programmiersprache Python,
und Aufbereitung für eine Nutzbarkeit durch Entscheidungsträger.          aufzeigen. Die aufgeführten Algorithmen weisen jedoch im über-
                                                                          wiegenden Anteil keine aufbereitete Nutzeroberfläche (GUI) vor,
                                                                          sodass die operative Nutzung technische Kompetenzen voraus-
2.2    Analysemethoden sozialer Medien                                    setzt. Der Fokus auf Open Source und nicht etwa kommerzielle
Zu den Eigenschaften sozialer Medien zählen unter anderem eine            Tools erfolgte aufgrund der einfachen und freien Nutzbarkeit, der
kontinuierliche Datenerzeugung, der subjektive sowie soziale Cha-         Adaptierbarkeit sowie der hieraus resultierenden Möglichkeit für
rakter der Inhalte, die öffentliche Replizierbarkeit, die Multilinguis-   potentielle Verbesserungen.
tik und die unstrukturierte sowie semantisch diversitäre Form [53].
Basierend hierauf ist das wesentliche Ziel der automatisierten Ana-
lyse die Generierung von Zusammenhängen oder wesentlichen                 3     METHODIK
Inhalten aus un- oder schwachstrukturierten Textdaten [1]. Bei-           Die Identifikation thematischer Kategorien im Kontext einer Groß-
spielhafte Techniken für eine Datenanalyse sind die Informationsex-       veranstaltung (RQ1) erfolgte auf Basis von Literaturrecherchen.
traktion, Kategorisierung, Segmentierung und Visualisierung [17].         Darauf aufbauend wurden selektierte, textuelle Posts der Platt-
Die Kategorisierung bzw. thematische Gruppierung von Nachrich-            formen Twitter und Instagram zu zwei Großveranstaltungen im
ten wird bevorzugt als Informationsquelle integriert [43]. Zahlrei-       Jahr 2019 händisch den Kategorien zugeordnet und vorhandene
che Forschungsarbeiten haben dies bereits darstellen können und           Algorithmen des maschinellen Lernens verwendet, um eine auto-
dabei Ansätze von Kategorisierung-Methoden als Basis von Ent-             matisierte Klassifizierung zu testen (RQ2). Die Beschränkung auf
scheidungsfindungsprozessen erforscht [22, 38].                           die Plattformen Twitter und Instagram erfolgte hierbei auf Grund
Die Kategorisierung beinhaltet die Zuordnung von Daten zu einer           der Zugriffsmöglichkeit über die Schnittstelle API (Application Pro-
Klasse aufgrund von Entscheidungsregeln, sodass Teilmengen der            gramming Interface).
Klassen eine bessere thematische Homogenität als der Ausgangsda-
tenbestand aufweisen [47]. Eine Entscheidungsregel kann in Form
der Verknüpfung mehrerer Entscheidungsbäume, einem sogenann-              3.1    Datenerhebung und -vorbereitung
ten Random Forest Algorithmus, umgesetzt werden. Kombinatio-              Die Extraktion der relevanten Rohdaten sowie die Umwandlung
nen von Entscheidungsbäumen, Random Forests, sind im Vergleich            in ein weiterverwendbares csv-Datenformat erfolgte mithilfe des
zu weiteren Algorithmen schnell zu trainieren und können für un-          Programms ScatterBlogs [51]. Die Instagramdaten (Bildbeschrif-
strukturierte Daten aus sozialen Medien verwendet werden [25, 46].        tungen und Kommentare) wurden auf Basis der Lokalisierung der
Obwohl die Vorhersagen mithilfe eines trainierten Modells langsa-         Posts auf dem entsprechenden Gelände der Großveranstaltung und
mer zu vergleichbaren Algorithmen sind, wurde zur Beantwortung            dem Zeitpunkt der Veröffentlichung innerhalb der Zeitrahmen der
der Forschungsfrage RQ1 aufgrund der Anwendbarkeit der Fokus              Großveranstaltungen selektiert und in eine csv-Datei überführt.
auf den Random Forest gelegt. Hierbei stellt ein einfacher Entschei-      Die textuellen Twitterdaten wurden auf Basis von spezifischen Key-
dungsbaum einen mehrstufigen Entscheidungsprozess in Form von             words und relevanten Accounts erhoben. Beide Veranstaltungen
mehreren aufeinander folgenden Abzweigungen dar. Die einzelnen            weisen vergleichbare Eigenschaften in Bezug auf die Art (Musikfes-
Entscheidungen werden hierbei über die Pfade am Ende der Ab-              tivals), Größe (ca. 60.000 Besucher), Gelände (im Freien) und Dauer
zweigungen repräsentiert [48]. Die Aufteilung der Daten an den            (drei Veranstaltungstage) auf. Für die Darstellung der Ergebnisse
Abzweigungen innerhalb jedes Entscheidungsbaumes kann über                wurden Begriffe wie z.B. Ortsnamen, welche Rückschlüsse auf die
die Gini Impurity, ein numerischer Wert für die Unreinheit der            Veranstaltungen zulassen würden, anonymisiert.
potentiellen Möglichkeiten, optimiert werden [31].                        Alle Rohdaten wurden auf die Angaben ID, Account, Erstellungsda-
Darüber hinaus kann bei der Erstellung des Random Forest auf Ba-          tum und Text reduziert und händisch in definierte Themenbereiche,
sis eines Datensatzes die Bootstrap-Aggregation (Bagging) genutzt         respektive Klassen sortiert, siehe Kapitel 4.1. Entscheidungssitua-
werden, um eine Diversifikation zwischen den einzelnen Entschei-          tionen im Kontext einer Großveranstaltung sind losgelöst von einer
dungsbäumen zu erhalten. Diese sieht die Bildung der Entschei-            Katastrophe zu betrachten, sodass weitere und differenzierende
dungsbäume mit jeweils einer variierenden Teilmenge des Daten-            Themen an Relevanz gewinnen. Für die Kategorisierung der in-
satz vor. Die Teilmengen weisen dabei die gleiche Anzahl an Daten         tegrierten Daten wurde, angelehnt an den Aufgabenschwerpunk-
vor, wofür manche selektiert und andere mehrfach dargestellt wer-         ten von VOST bei der Auswertung sozialer Medien im Kontext
den. Jeder einzelne Entscheidungsbaum gibt im Anwendungsfall              von Großveranstaltungen von Fathi et al. [11] sowie auf Basis des
eine Vorhersage für die Klassenzuordnung an, sodass die mehr-             Kategorisierungsansatzes von Olteanu et al. [36], ein Klassifizie-
heitlich getroffene Vorhersage einer Klasse verwendet wird. Durch         rungsmodell für Großveranstaltungen entwickelt und verwendet.
die verschiedenen Teilmengen wird eine hohe Varianz zwischen              Dabei wurden 6.907 Posts im Kontext der Großveranstaltung A
den einzelnen Bäumen, durch die Kombination aber eine geringe             als Trainings-, sowie weitere 2.552 Posts der Großveranstaltung B
Varianz trotz geringer Verzerrung erzeugt [31]. Es existieren bereits     als Testdatensatz aufbereitet. Die Zuordnung jeder Textnachricht
diverse Algorithmen zur automatisierten Durchführung einer Ka-            erfolgte singulär und händisch durch eine Person, basierend auf
tegorisierung von Daten, welche öffentlich zur Verfügung gestellt         dem identifizierten Inhalt.
MuC’21 Workshops, Ingolstadt, Deutschland, 10.18420/muc2021-mci-ws08-262                            Francesca Sonntag, Ramian Fathi, and Frank Fiedrich

                      Tabelle 1: Auflistung unterschiedlicher Bibliotheken, Plattformen und ausgeprägte Tools

                            Bezeichnung                                      Beschreibung
                            Aesara [40]           Verarbeitung mathematischer Ausdrücke mit mehrdimensionalen Arrays
                             AIDR [12]               Filterung und Klassifizierung von Posts sozialer Medien (mit GUI)
                        Apache Spark [14]                                   Verarbeitung Big Data
                          Apphera [29]                     Umfassendes Analysetool für soziale Medien (mit GUI)
                             BERT [8]                                   Natural Language Processing
                             DLib [24]                               Bibliothek für maschinelles Lernen
                           FastText [20]                             Bibliothek für maschinelles Lernen
                          LightSide [30]                          Data Mining Methoden und Algorithmen
                             NLTK [4]                                   Natural Language Processing
                            NuPIC [49]                Bibliothek für maschinelles Lernen (Implementierung von HTM)
                            PyTorch [5]                              Bibliothek für maschinelles Lernen
                         RapidMiner [32]                    Umgebung für maschinelles Lernen und Data Mining
                         Scikit-learn [37]                           Bibliothek für maschinelles Lernen
                        Social Harvest [28]                Umfassendes Analysetool für soziale Medien (mit GUI)
                         Socioboard [27]                   Umfassendes Analysetool für soziale Medien (mit GUI)
                             TACIT [6]                            Textanalysen, Crawlen und Interpretation
                         TensorFlow [50]                             Bibliothek für maschinelles Lernen
                           TROVE [23]                                Bibliothek für maschinelles Lernen
                             Weka [15]                               Bibliothek für maschinelles Lernen

Weitere Bestandteile der Datenvorbereitung waren aufeinander-               4     DARSTELLUNG DER ERGEBNISSE
folgend (1) Noise Removal und (2) Kapitalisierung, (3) Tokenisie-           In diesem Kapitel werden zunächst ausgewählte inhaltliche Ergeb-
rung, (4) Entfernung der Stopwörter [33], (5) Stemming mithilfe             nisse, die identifizierten Kommunikationswege und prägnante, aus
des Porter-Stemmer-Algorithmus [39] sowie (6) eine Term Frequen-            den sozialen Medien ableitbare Informationen und Themenberei-
cy Inverse Document Frequency (TF-IDF) Transformation mit der               che beschrieben (RQ1). Im Anschluss erfolgt zur Beantwortung der
Scikit-learn-Bibliothek. Folglich wurden zunächst Symbole und               RQ2 die Auswertung der Verwendung von Algorithmen des ma-
Sonderzeichen aus den Textnachrichten entfernt (1), ausschließ-             schinellen Lernens zur Klassifizierung des Datensatzes von Großver-
lich Minuskel verwendet (2), die Sätze in Wörter segmentiert (3),           anstaltung B anhand eines mit den Daten der Großveranstaltung A
Füllwörter wie z.B. Artikel entfernt (4), die Wörter auf ihren Wort-        trainierten Modells.
stamm reduziert (5) und anschließend die Textnachricht mithilfe
einer Gewichtung der Vorkommenshäufigkeit der Wörter und der                4.1    Inhaltliche Ergebnisse im Kontext von
inversen Dokumenthäufigkeit in ein Zahlenformat überführt (6).
                                                                                   Großveranstaltungen
                                                                            Im Rahmen der händischen Zuordnung sowie thematischen Grup-
                                                                            pierung der Datensätze konnten drei wesentliche Kommunikatoren
                                                                            identifiziert werden. Eine adaptierte Version des Modells von Reuter
3.2    Analysemethoden der Kategorisierung                                  und Kaufhold [44] weist somit die Kombinatorik von (1) Veranstal-
Mithilfe der Bibliotheken Natural Language Toolkit (NLTK) und               ter, (2) Besucher sowie (3) Behörden und Organisationen mit Sicher-
Scikit-learn wurde der transformierte Trainingsdatensatz (Großver-          heitsaufgaben (BOS) und folglich sechs Kommunikationswege auf.
anstaltung A) genutzt, um einen Random Forest unter Verwendung              Bei den analysierten Daten der Großveranstaltungen zeigte sich
der Gini-Impurity und der Bootstrap-Aggregation zu erstellen. Die           eine frequentierte Interaktion zwischen dem Veranstalter oder den
Verwendbarkeit des Random Forest Algorithmus wurde bereits in               BOS und den Besuchern. Es ist davon auszugehen, dass die inter- so-
weiteren Publikationen dargestellt [21]. Die Bibliotheken der Pro-          wie intraorganisationale Kommunikation der BOS sowie der Kräfte
grammiersprache Python wurden aufgrund der nutzerfreundlichen               des Veranstalters überwiegend über nicht öffentliche Kanäle erfolg-
Anwendung und Zugänglichkeit verwendet [19].                                te und nicht über sozialen Medien. Für die automatisierte Extraktion
Um die Performance auf den transformierten Testdatensatz (Groß-             von Informationen ist dementsprechend besonders die Kommunika-
veranstaltung B) zu analysieren, wurden Genauigkeit, Makro-                 tion unter den Besuchern relevant, da hier keine direkte Einbindung
durchschnitt, gewichteter Durchschnitt und der mittlere absolute            von Organisationen des Koordinierungsgremiums oder Kräften der
Fehler (MAE) sowie auch die klassenspezifische Präzision, Recall,           BOS erfolgt. Aus diesen Dia- und Monologen lassen sich Informatio-
F1 score sowie Support erhoben [26]. Mithilfe einer Konfusionsma-           nen zum Geschehen ableiten, welche über den bekannten Rahmen
trix wurde darüber hinaus die Fehlerklassifikationsgüte visualisiert,       der Lageerkundung hinausgehen.
welche sich durch den Quotient aus falsch eingestuften und insge-           Neben den wesentlichen Kommunikationswegen konnte die Rele-
samt eingestuften Testdaten beziffern lässt.                                vanz der Filterung überprüft werden. Mit über 80 % des Datensatzes
Digitale Lageerkundung bei Großveranstaltungen                             MuC’21 Workshops, Ingolstadt, Deutschland, 10.18420/muc2021-mci-ws08-262

der Großveranstaltung A und über 90 % des Datensatzes Großveran-        in der Vor- und Nachbereitung der Großveranstaltung einen Mehr-
staltung B der Klasse Anderes, ist der größte Anteil der verwendeten    wert bieten. Für die Posts im Kontext der Großveranstaltungen A
Daten als irrelevant für die Mitglieder des Koordinierungsgremi-        und B konnte sowohl über eine Sentimentanalyse als auch über eine
ums einzustufen, da sie keine Sicherheitsrelevanz aufweisen. Die        Segmentierung mittels k-means Verfahren ein deutlicher Schwer-
weiteren Themenbereiche zur Klassifizierung von Informationen           punkt auf positiven Themen, wie z.B. Spaß, Musik und Stimmung
aus sozialen Medien wurden auf folgende Klassen begrenzt:               ermittelt werden. RQ1: Zusammenfassend bieten Daten sozialer
  • Anderes (Klasse 0)                                                  Medien das Potenzial zur Detektion von Abweichungen vom Norm-
  • Feedback (Klasse 1)                                                 zustand sowie die Extraktion von Informationen zu Nutzern mit
  • Gesundheitsgefahren (Klasse 2)                                      großer Reichweite, Feedback und Stimmung. Durch Integration die-
  • Hygiene (Klasse 3)                                                  ser Informationen in ein Lagebild kann ein informativer Mehrwert
  • Infrastruktur (Klasse 4)                                            für den Entscheidungsprozess generiert werden.
  • Künstler (Klasse 5)
  • Personenstrom (Klasse 6)
  • Programm (Klasse 7)                                                 4.2   Performance vorhandener Algorithmen am
  • Öffentlicher Personennahverkehr (ÖPNV) (Klasse 8)
  • Service (Klasse 9)
                                                                              Beispiel Großveranstaltung
  • Sicherheitsaspekte (Klasse 10)                                      Neben der Forschungsfrage RQ 1 bezüglich den relevanten the-
  • Wetter (Klasse 11)                                                  matischen Kategorien im Kontext der Analyse sozialer Medien
                                                                        als Ergänzung des Lagebildes eines Koordinierungsgremiums,
Die Nummerierung der Klassen impliziert keine Priorisierung, die
                                                                        wurden die vorhandenen Algorithmen der NLTK Bibliothek auf
Bezeichnung wurde vielmehr alphabetisch sortiert und die Numme-
                                                                        operative Nutzbarkeit getestet (RQ 2). Grundsätzlich zeigen die
rierung hieran angepasst. Innerhalb dieser Klassen wurden Wort-
                                                                        ermittelten Werte für die verwendeten Datensätze eine ausbaufähi-
wolken zur Identifikation der wesentlichen inhaltlichen Faktoren
                                                                        ge Performance auf, siehe hierfür Tabelle 2. Der Support stellt die
erstellt. Beispielhaft zeigt Abbildung 1 die Wortwolke für die Klasse
                                                                        ungleiche Verteilung der Klassenanteile des Testdatensatzes quan-
Gesundheitsgefahren. Die Schriftgröße symbolisiert die Frequenz
                                                                        titativ dar und verdeutlicht die Notwendigkeit eines Ausgleichs.
                                                                        Durch die unausgeglichenen Anteile der thematischen Klassen
                                                                        in den Datensätzen weist die Präzision der Klassen „Anderes“
                                                                        (Klasse 1) und "ÖPNV"(Klasse 8) einen hohen Wert und einen
                                                                        hohen F1 Score auf, während der Recall der weiteren Klassen unter
                                                                        oder gleich 0.5 beträgt, siehe Tabelle 2. Anhand dieser Werte, dem
                                                                        aufgeführten Support sowie dem direkten Vergleich der mittleren
                                                                        absoluten Fehler und Genauigkeiten beider Datensätze zeigt sich,
                                                                        dass das hier erstellte Modell überangepasst (overfitted) ist. Als
                                                                        Überanpassung (Overfitting) eines Entscheidungsbaumes gilt die
                                                                        perfekte Anpassung an den Trainingsdatensatz, sodass jeder Post
                                                                        einen Pfad und die zugeteilte Klasse das Ende des Pfades bildet.
                                                                        Hierdurch erfolgt eine Reduzierung der Varianz aber gleichzeitig
                                                                        eine Erhöhung der Verzerrung, wodurch die Genauigkeit auf den
Abbildung 1: Wortwolke der Klasse 2 (Gesundheitsgefahren)               Testdatensatz oder weitere Datensätze verringert wird [31]. Die
beider Großveranstaltungen                                              Genauigkeit der Vorhersagen auf den Testdatensatz weist einen
                                                                        Wert von 0.996 (Trainingsdatensatz: 0.95) sowie einen mittleren
der Wörter. Die Klasse 2 bei der Großveranstaltung B führt aus-         absoluten Fehler von 0.02 (Trainingsdatensatz: 0.32) auf. Eine
schließlich Aspekte außerhalb der Veranstaltung, jedoch mit einem       Verringerung der Anzahl an Abzweigungen im Entscheidungs-
Bezug und potenziellem Einfluss zu dieser auf, z.B.: "#Weg zum          baum führt zu keinen signifikanten Verbesserungen, weshalb die
#Festival B! #Zwei Leute fallen aus #VW-Bus, eine schwer verletzt!      wesentliche Ursache in dem fehlenden Umfang der Klassen 2-8,
#Tuttlingen https://t.co/... https://t.co/..."                          sowie 10 und 11 zu vermuten ist. Eine Zuordnung aller Posts in die
Ein Unfall von anreisenden Besuchern stellt ein von der Norm ab-        Klasse 0 würde aufgrund des Anteils an irrelevanten Posts in den
weichendes Ereignis dar, zumal die Anreise zur Veranstaltung von        Datensätzen bereits zu einer Genauigkeit von über 0.9 führen. Die
beiden Veranstaltern kommunikativ begleitet wird. Die 16 Posts          Konfusionsmatrix, Abbildung 2, visualisiert das Ergebnis der auf
der Klasse 3 sind deutlich übersichtlicher und erlauben dadurch         den Testdatensatz durchgeführten Klassifizierung. Diese zeigt die
einen zielgerichteteren Überblick über die Lage, als die 2.552 Posts,   absolute Anzahl an Posts der jeweilgen Verhältnisse von händisch
welche insgesamt für Großveranstaltung B selektiert wurden. Ne-         zugeordneten und automatisiert vorhergesagten Klassen. Abszisse
ben den sicherheitsrelevanten Aspekten lässt sich darüber hinaus        und Ordinate zeigen die nummerisch dargestellten Klassen von
Feedback zur Bewertung der bei Großveranstaltung auftretenden           0 bis 11 des Trainingsdatensatzes als Repräsentation der Klassen-
Künstler, eine Identifikation von Nutzern mit großer Reichweite         bezeichungen, die fallende Diagonale zeigt die absolute Anzahl
sowie allgemeines Feedback zur Großveranstaltung in Form von            der richtig zugeordneten Posts. Ergänzend zu der tabellarischen
Sentimentanalysen ableiten. Diese Ergebnisse können besonders           Darstellung der Werte wird der hohe Recall der Klasse 0, sowie
MuC’21 Workshops, Ingolstadt, Deutschland, 10.18420/muc2021-mci-ws08-262                                                                   Francesca Sonntag, Ramian Fathi, and Frank Fiedrich

                                                                  Tabelle 2: Klassifizierungsreport Random Forest Algorithmus

                                                                                    Klasse         precision   recall   f1-score   support
                                                                                     0               0.96      0.99       0.97      2404
                                                                                     1               0.50      0.37       0.43       27
                                                                                     2               0.00      0.00       0.00        6
                                                                                     3               0.00      0.00       0.00        3
                                                                                     4               0.00      0.00       0.00       17
                                                                                     5               0.14      0.50       0.22        2
                                                                                     6               0.00      0.00       0.00        1
                                                                                     7               0.50      0.25       0.33        4
                                                                                     8               0.86      0.78       0.82       41
                                                                                     9               0.50      0.20       0.29        5
                                                                                     10              0.00      0.00       0.00       10
                                                                                     11              0.00      0.00       0.00       32
                                                                                   accuracy                               0.95      2552
                                                                              macro avg              0.29      0.26       0.26      2552
                                                                            weighted avg             0.92      0.95       0.94      2552

der nicht vorhandene Recall der Klassen 2-4, 6, sowie 10-11 deut-                                                NLTK Bibliothek gerichtet wurde. Hierbei zeigte sich im Wesent-
lich, da kein Post der korrekten Klasse zugeteilt wurde. Um eine                                                 lichen, dass die Genauigkeit bei weiteren neun Algorithmen mit
                                                                                                                 denen des RF- und NB-Algorithmus identisch waren, jedoch die
                                                                                                                 Test- und Trainingszeit beim RF-Algorithmus mit einer Geschwin-
                                 2.380   1    0   0   11      0       1      0       6    1   1      3
                            0

                                                                                                                 digkeit von 5.430 Posts je Sekunde (Trainingszeit, Klassifizierung
                                  16     10   0   0    0      0       1      0       0    0   0      0           der 2.552 Posts des Testdatensatzes in 0.47 s) am zeitaufwendigsten
                            1

                                                                                                                 war. Eine detaillierte Analyse des Klassifizierungsreports zeigte,
                                  6      0    0   0    0      0       0      0       0    0   0      0
                                                                                                                 dass z.B. der multinomiale Naive Bayes Algorithmus insgesamt
                            2

                                  3      0    0   0    0      0       0      0       0    0   0      0           eine gleiche Genauigkeit von 0.95, jedoch eine Präzision von 0 für
                            3

                                                                                                                 alle Klassen, ausgenommen Klassen 0 und 8, für den verwendeten
                                  17     0    0   0    0      0       0      0       0    0   0      0
                                                                                                                 Datensatz aufweist.
                            4
    Händisch vorhergesagt

                                  1      0    0   0    0      1       0      0       0    0   0      0
                            5

                                  1      0    0   0    0      0       0      0       0    0   0      0
                                                                                                                 5      ZUSAMMENFASSENDE DISKUSSION DER
                            6

                                  3      0    0   0    0      0       0      1       0    0   0      0                  METHODIK UND ERGEBNISSE
                            7

                                  9      0    0   0    0      0       0      0       32   0   0      0           Für die Datenerhebung wurden steuerbare Filtermechanismen, z.B
                            8

                                                                                                                 eine Selektion der Querschnittsmenge durch die Plattformauswahl
                                  4      0    0   0    0      0       0      0       0    1   0      0
                                                                                                                 aufgrund der Zugriffsmöglichkeiten durch die API, verwendet. Wei-
                            9

                                  10     0    0   0    0      0       0      0       0    0   0      0           tere Filtermechanismen für eine präanalytische Selektion relevan-
                            10

                                                                                                                 ter Inhalte ermöglichen eine weitere Optimierung der Klassifizie-
                                  32     0    0   0    0      0       0      0       0    0   0      0
                                                                                                                 rungsalgorithmen durch einen ausgeglicheneren Support. Kaufhold
                            11

                                  0      1    2   3    4     5        6       7
                                                      Automatisiert vorhergesagt
                                                                                     8    9   10     11
                                                                                                                 et al. [21] beschreiben hierfür optimierte Algorithmen anhand ei-
                                                                                                                 ner mehrdimensionalen Definition von Relevanz. Darüber hinaus
                                                                                                                 wurden in einer Arbeit 19 Modelle in Bezug auf Zeit, Clusterqua-
                                         Abbildung 2: Konfusionsmatrix                                           lität und Sprachvarianz für Notsituationen evaluiert [3]. Neben
                                                                                                                 den bewusst gewählten Filtern erfolgten weitere, nicht steuerbare
Optimierung der Klassifizierung zu analysieren, wurden, neben                                                    Selektionen. Private Nachrichten können nicht abgegriffen werden,
dem ausführlichen Vergleich des NB- und RF-Algorithmus, weitere                                                  die Schnittstellen zu den Plattformen erzeugen eine teilweise un-
13 Algorithmen der NLTK Bibliothek zur Zuordnung der betrach-                                                    bekannte technische Auswahl [35] und durch die Verwendung der
teten Datensätze verwendet und auf Genauigkeit sowie Test- und                                                   TF-IDF Transformation werden die Textmitteilungen in ein Zahlen-
Trainingszeit untersucht. Die Forschungsfragen verfolgten das Ziel,                                              format überführt und sprachliche und stylistische Elemente durch
die Verwendbarkeit von bestehenden Open Source Bibliotheken                                                      Schrift, Zeichen oder Symbole nicht berücksichtigt. Darüber hinaus
im Kontext von Großveranstaltungen zu untersuchen und sollten                                                    verbreitet nur ein Teil der Veranstaltungsteilnehmer öffentliche In-
keinen Überblick über bestehende Algorithmen in dem Kontext                                                      formationen in den sozialen Medien, sodass ein davon abgeleitetes
zusammenstellen, weshalb bei der Anwendung der Fokus auf die                                                     Lagebild nur einen Ausschnitt darstellen kann.
Digitale Lageerkundung bei Großveranstaltungen                             MuC’21 Workshops, Ingolstadt, Deutschland, 10.18420/muc2021-mci-ws08-262

Die in dieser Arbeit ausgewählten thematischen Klassen wurden          6    FAZIT
ausschließlich auf Basis von Literaturrecherchen erarbeitet. Eine      Als Ergänzung des Lagebildes bieten Plattformen der sozialen Me-
strukturierte Befragung von unterschiedlichen Mitgliedern der Ko-      dien einen immens großen Datensatz. Große Teile der Bevölkerung
ordinierungsgremien kann hier zukünftig eine individuelle und          erwarten, dass in Notsituationen die sozialen Medien von BOS
bedarfsorientiertere Struktur fördern. Darüber hinaus wurde die        analysiert werden. Jedoch besteht hier bei Großveranstaltungen
automatisierte Aufbereitung der Daten in Form einer thematischen       nach wie vor eine Diskrepanz zur praktischen Umsetzung. Die
Kategorisierung ausschließlich auf Basis der NLTK Bibliothek und       durchgeführte Analyse im Kontext zweier Großveranstaltungen
textuellen Daten geprüft. Eine Integration von Bildanalysen könn-      im Jahr 2019 konnte im Wesentlichen zeigen, dass eine präanaly-
te die digitale Lageerkundung um wichtige Informationen ergän-         tische Relevanzfilterung notwendig ist und ein großer Datensatz
zen und dadurch zu einem umfassenderen Lagebild beitragen [2].         durch Verknüpfung von Posts zu diversen Großveranstaltungen
Wichtige Bildinformationen bei Großveranstaltung können z.B.           oder Data Augmentation als Trainingsgrundlage genutzt werden
Informationen über Personendichten, Personenströme, Verkehrs-          kann. Darüber hinaus wurde aufgezeigt, dass lagerelevante Infor-
situationen, Vandalismus und Veränderungen in der Infrastruktur        mationen generiert werden konnten.
sein [11]. Um darüber hinaus eine ausreichende Datenbasis zur Er-      RQ1: Welche Informationen bzw. thematischen Kategorien lassen
stellung des Random Forest als Entscheidungsgrundlage generieren       sich im Kontext einer Großveranstaltung aus den sozialen Medien
zu können, bietet sich die veranstaltungsübergreifende Sammlung        ableiten?
von Datensätzen an. Bei der händischen Klassifizierung sowie der       Neben einer möglichen Detektion von Abweichungen vom Normzu-
Klassenbildung konnten Übereinstimmungen in den Datensätzen,           stand durch eine Erhebung und Klassifizierung der Posts in Echtzeit
losgelöst von der spezifischen Großveranstaltung, identifiziert wer-   lassen sich Informationen zu Nutzern mit großer Reichweite, Feed-
den. Die Fehlerreplikation durch falsche Einteilung einer Textmit-     back und Stimmung ableiten. Im Wesentlichen bilden vor allem die
teilung im Trainingsdatensatz ist für die vorliegende Arbeit nicht     thematischen Bereiche Gesundheitsgefahren, Hygiene, Personen-
relevant, da in der Auswertung der Fokus auf eine allgemeine Ana-      strom sowie Sicherheitsaspekte einen informativen Mehrwert zur
lyse und nicht auf eine Erstellung einer Programmgrundlage gelegt      Ergänzung des Lagebildes.
wurde.                                                                 RQ2: Inwiefern können vorhandene Algorithmen für die Analyse
Die erarbeiteten Klassen konnten thematisch durch einzelne Posts       sozialer Medien auf eine Nutzung im Kontext von Großveranstal-
abgedeckt werden, sodass bei beiden Großveranstaltungen eine           tungen übertragen werden?
ähnliche thematische Repräsentanz identifiziert wurde. Anhand          Aufgrund des überwiegenden Anteils für ein Koordinierungsgre-
dieser Beobachtung lässt sich die These ableiten, dass eine Erwei-     mium irrelevanter Posts zeigten die verwendeten Algorithmen der
terung des Trainingsdatensatzes, z.B. durch die Kombination der        NLTK Bibliothek für die relevanten Themenbereiche einen schlech-
Daten mehrerer Großveranstaltungen oder Möglichkeiten der Data         ten Recall von unter 0.5 auf. Eine automatisierte Segmentierung
Augmentation, zu einer ausgeglicheneren Quantität der Klassen          mittels k-mean Algorithmus zeigte ebenfalls keine verwendbare
und einer verbesserten Performance des Algorithmus führt [41].         Aufteilung des Datensatzes. Eine Verbesserung des Modells kann
Bei einer Abweichung vom Normzustand können nutzergenerierte           durch eine Filterung der irrelevanten Nachrichten im Vorfeld der
Informationen der Veranstaltungsbesucher hilfreich sein, um z.B.       themenspezifischen Zuordnung erfolgen. Ein weiterer Lösungs-
die subjektive Wahrnehmung der Situation oder Einschränkun-            ansatz, besonders für außergewöhnliche Zustände, ist die Online-
gen von Infrastrukturen in ein Lagebild zu integrieren. Für eine       Modellgenerierung wie bei dem Open Source Programm Artificial
Nutzbarkeit eines solchen Lagebildes durch Beteiligte des Koordi-      Intelligence for Digital Response (AIDR). Wenn abweichende Zustän-
nierungsgremiums scheinen jedoch weitere Entwicklungen, z.B.           de durch den Ordnungsdienst oder weitere agierende Einsatzkräfte
in Form einer angepassten Lagedarstellung für die vereinfachte         detektiert werden, können Posts der spezifischen Thematik explizit
Zugänglichkeit und Anwendbarkeit des Modells oder die Intergra-        erfasst, händisch kategorisiert und zur Optimierung des Klassifi-
tion von digitalen Einsatz-Unterstützungseinheiten, wie z.B. dem       zierungsmodells verwendet werden, bis erneut eine ausreichende
VOST THW, als Anwender der Algorithmen notwendig. Darüber              Modellpräzision erreicht ist. Eine technische Relevanz- und The-
hinaus erschwert die vermehrte Nutzung von privaten und nicht          menfilterung ermöglicht es digitalen Unterstützungseinheiten, wie
öffentlichen Plattformen die Datengenerierung und -auswertung          dem VOST THW, die Daten in Echtzeit aufzubereiten und für Mit-
über automatisierte Algorithmen. Auch die Verbreitung von Des-         glieder der Koordinierungsgremien nutzbar zu machen.
informationen und Gerüchten kann bei Großveranstaltungen die
Analyse erschweren, sodass sich zahlreiche Forschungsfragen ab-        LITERATUR
leiten lassen. Hierzu gehören z.B.: Wie beeinflusst die Nutzung        [1] Charu C. Aggarwal and ChengXiang Zhai. 2012. An Introduction to Text Mining.
von privaten Messaging-Diensten die Analyse sozialer Medien?               In Mining Text Data. Springer US, 1–10. https://doi.org/10.1007/978-1-4614-3223-
Wie wirken sich Desinformationen und Gerüchte auf Besucher                 4_1
                                                                       [2] Firoj Alam, Ferda Ofli, and Muhammad Imran. 2019. Descriptive and visual
von Großveranstaltungen aus, wie auf Angehörige von Besuchern?             summaries of disaster events using artificial intelligence techniques: case studies
Wie kann die systematische digitale Lageerkundung organisato-              of Hurricanes Harvey, Irma, and Maria. Behaviour & Information Technology 39,
                                                                           3 (2019), 288–318. https://doi.org/10.1080/0144929X.2019.1610908
risch und strukturell im Koordinierungsgremium angebunden und          [3] Markus Bayer, Marc-André Kaufhold, and Christian Reuter. 2021. Information
integriert werden?                                                         Overload in Crisis Management: Bilingual Evaluation of Embedding Models for
                                                                           Clustering Social Media Posts in Emergencies. ECIS 2021 Research Papers (2021),
                                                                           1338. https://aisel.aisnet.org/ecis2021_rp/64
                                                                       [4] Steven Bird, Ewan Klein, and Edward Loper. 2019. Natural Language Processing
                                                                           with Python (1 ed.). O’Reilly. http://www.nltk.org/book/
MuC’21 Workshops, Ingolstadt, Deutschland, 10.18420/muc2021-mci-ws08-262                                                   Francesca Sonntag, Ramian Fathi, and Frank Fiedrich

 [5] Torch Contributors. 2019. PyTorch. https://pytorch.org/                                     selection and classification of spectral data. BMC Bioinformatics 10, 1 (2009), 213.
 [6] Morteza Dehghani, Kate M. Johnson, Justin Garten, Reihane Boghrati, Joe Hoo-                https://doi.org/10.1186/1471-2105-10-213
     ver, Vijayan Balasubramanian, Anurag Singh, Yuvarani Shankar, Linda Pulickal,        [32]   Ingo Mierswa. 2013. The core ot RapidMiner is open source. https://rapidminer.
     Aswin Rajkumar, and Niki Jitendra Parmar. 2016. TACIT: An open-source text                  com/blog/the-core-of-rapidminer-is-open-source/
     analysis, crawling, and interpretation tool. Behavior Research Methods 49, 2 (3      [33]   Andreas Mueller, Jean-Christophe Fillion-Robin, Raphael Boidol, Font Tian, Paul
     2016), 538–547. https://doi.org/10.3758/s13428-016-0722-4                                   Nechifor, yoonsubKim, Peter, Remi Rampin, Marianne Corvellec, Juan Medi-
 [7] Bundesministerium des Innern. 2014. Leitfaden Krisenkommunikation.                          na, Yuchao Dai, Baze Petrushev, Karol M. Langner, Hong, Alessio, Ian Ozsvald,
 [8] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2019. BERT:               vkolmakov, Terry Jones, Eric Bailey, Valentina Rho, IgorAPM, Divakar Roy,
     Pre-training of Deep Bidirectional Transformers for Language Understanding.                 Chandler May, foobuzz, Piyush, Low Kian Seong, Jeroen Van Goey, James Se-
     arXiv:1810.04805                                                                            den Smith, Gus, and Feng Mai. 2018. amueller/word_cloud: WordCloud 1.5.0.
 [9] Ramian Fathi and Frank Fiedrich. 2020. Digital Freiwillige in der Katastro-                 https://doi.org/10.5281/zenodo.1322068
     phenhilfe - Motivationsfaktoren und Herausforderungen der Partizipation. In          [34]   Hans-Gerrit Möws. 2012. IT - basierte Entscheidungsunterstützung im Bevöl-
     Mensch und Computer 2020 - Workshopband, Christian Hansen, Andreas Nürn-                    kerungsschutz. https://www.bbk.bund.de/SharedDocs/Downloads/Kritis/DE/
     berger, and Bernhard Preim (Eds.). Gesellschaft für Informatik e.V., Bonn. https:           Praxis_BS_Band1.pdf;jsessionid=D956B645539B1C54EABB90A54DB11FF7.1_
     //doi.org/10.18420/muc2020-ws117-406                                                        cid355?__blob=publicationFile
[10] Ramian Fathi, Stefan Martini, and Frank Fiedrich. 2019. Eine veränderte Kommu-       [35]   Michael Nentwich. 2003. cyberscience. Wien. http://austriaca.at/cyberscience
     nikationskultur: Risiko- und Krisenkommunikation und Monitoring mittels sozialer     [36]   Alexandra Olteanu, Sarah Vieweg, and Carlos Castillo. 2015. What to Expect
     Medien bei Großveranstaltungen. Springer Fachmedien Wiesbaden, Wiesbaden,                   When the Unexpected Happens. (2 2015). https://doi.org/10.1145/2675133.
     193–210. https://doi.org/10.1007/978-3-658-11725-2_7                                        2675242
[11] Ramian Fathi, Dennis Thom, Steffen Koch, Thomas Ertl, and Frank Fiedrich.            [37]   F. Pedregosa, G. Varoquaux, A. Gramfort, V. Michel, B. Thirion, O. Grisel, M.
     2020. VOST: A case study in voluntary digital participation for collaborative               Blondel, P. Prettenhofer, R. Weiss, V. Dubourg, J. Vanderplas, A. Passos, D. Cour-
     emergency management. Information Processing Management 57, 4 (2020), 102174.               napeau, M. Brucher, M. Perrot, and E. Duchesnay. 2011. Scikit-learn: Machine
     https://doi.org/10.1016/j.ipm.2019.102174                                                   Learning in Python. Journal of Machine Learning Research 12 (2011), 2825–2830.
[12] Luis Fernandez-Luque and Muhammad Imran. 2018. Humanitarian health                   [38]   Daniela Pohl, Abdelhamid Bouchachia, and Hermann Hellwagner. 2013. Social
     computing using artificial intelligence and social media: A narrative litera-               media for crisis management: clustering approaches for sub-event detection.
     ture review. International Journal of Medical Informatics 114 (6 2018), 136–142.            Multimedia Tools and Applications 74, 11 (12 2013), 3901–3932. https://doi.org/10.
     https://doi.org/10.1016/j.ijmedinf.2018.01.015                                              1007/s11042-013-1804-2
[13] Frank Fiedrich, Sabine Funk, Simon Runkel, Dennis Vosteen, Johannes Thomann,         [39]   M. F. Porter. 2006. An algoritm for suffix stripping. Program 14 (7 2006), 130–137.
     Tim Eikelberg, Gebhard Rusch, Frank Altenbrunn, and Others. 2016. Bausteine                 https://doi.org/10.1108/00330330610681286
     für die Sicherheit von Großveranstaltungen. Vol. 17. Bundesamt für Bevölkerungs-     [40]   PyMC. [n.d.]. Aseara. https://github.com/pymc-devs/aesara
     schutz und Katastrophenhilfe.                                                        [41]   Siyuan Qiu, Binxia Xu, Jie Zhang, Yafang Wang, Xiaoyu Shen, Gerard de Melo,
[14] The Apache Software Foundation. 2020. Apache Spark: Lightning-fast unified                  Chong Long, and Xiaolong Li. 2020. EasyAug: An Automatic Textual Data
     analytics engine. https://spark.apache.org/                                                 Augmentation Platform for Classification Tasks. (4 2020). https://doi.org/10.
[15] Eibe Frank, Mark A. Hall, and Ian H. Witten. 2016. The WEKA Workbench (4 ed.).              1145/3366424.3383552
[16] Ministerium für Inneres und Kommunales des Landes Nordrhein-                         [42]   Andreas Queck and Harald Gonner. 2016. Informationsmanagement im Kri-
     Westfalen (MIK). 2012.               Sicherheit von Großveranstaltungen im                  senstab. In Handbuch Stabsarbeit. Springer Berlin Heidelberg, 183–190. https:
     Freien.                 https://www.im.nrw/sites/default/files/documents/2017-              //doi.org/10.1007/978-3-662-48187-5_30
     11/grossveranstaltungen_orientierungsrahmen_druckversion.pdf                         [43]   Runqing Rao, Linda Plotnick, and Starr Roxanne Hiltz. 2017. Supporting the
[17] Sonali Vijay Gaikwad, Archana Chaugule, and Pramod Patil. 2014. Text Mining                 Use of Social Media by Emergency Managers: Software Tools to Overcome
     Methods and Techniques. International Journal of Computer Applications (0975 –              Information Overload. In Proceedings of the 50th Hawaii International Conference
     8887) 85, 17 (1 2014), 42–45.                                                               on System Sciences (2017). Hawaii International Conference on System Sciences.
[18] Muhammad Imran, Carlos Castillo, Fernando Diaz, and Sarah Vieweg. 2015.                     https://doi.org/10.24251/hicss.2017.036
     Processing Social Media Messages in Mass Emergency. Comput. Surveys 47, 4 (6         [44]   Christian Reuter and Marc-André Kaufhold. 2017. Fifteen years of social media in
     2015), 1–38. https://doi.org/10.1145/2771588                                                emergencies: A retrospective review and future directions for crisis Informatics.
[19] Peter Kaiser Johannes Ernesti. 2017. Python 3. Rheinwerk Verlag GmbH.                       Journal of Contingencies and Crisis Management 26, 1 (9 2017), 41–57. https:
[20] Armand Joulin, Edouard Grave, Piotr Bojanowski, and Tomas Mikolov. 2016. Bag                //doi.org/10.1111/1468-5973.12196
     of Tricks for Efficient Text Classification.                                         [45]   Christian Reuter and Thomas Spielhofer. 2017. Towards social resilience: A
[21] Marc-André Kaufhold, Markus Bayer, and Christian Reuter. 2020. Rapid relevance              quantitative and qualitative survey on citizens’ perception of social media in
     classification of social media posts in disasters and emergencies: A system and             emergencies in Europe. Technological Forecasting and Social Change 121 (2017),
     evaluation featuring active, incremental and online learning. Information Proces-           168–180. https://doi.org/10.1016/j.techfore.2016.07.038
     sing & Management 57, 1 (1 2020). https://doi.org/10.1016/j.ipm.2019.102132          [46]   Marko Robnik-Sikonja. 2004. Improving Random Forests. Lect. Notes Comput.
[22] Marc-André Kaufhold, Nicola Rupp, Christian Reuter, and Matthias Habdank.                   Sc., 359–370. https://doi.org/10.1007/978-3-540-30115-8_34
     2020. Mitigating information overload in social media during conflicts and           [47]   Hemlata Sahu, Shalini Shrma, and Seema Gondhalakar. 2011. A Brief Overview on
     crises: design and evaluation of a cross-platform alerting system. Behaviour &              Data Mining Survey. International Journal of Computer Technology and Electronics
     Information Technology 39, 3 (2020), 319–342. https://doi.org/10.1080/0144929X.             Engineering (IJCTEE) 1 (2011), 114–121. Issue 3.
     2019.1620334 arXiv:https://doi.org/10.1080/0144929X.2019.1620334                     [48]   C. Schawel and F. Billing. 2012. Entscheidungsbaum. In Top 100 Management
[23] Arvinder Kaur and Inderpreet Kaur. 2018. An empirical evaluation of classification          Tools. Gabler Verlag | Springer Fachmedien Wiesbaden.
     algorithms for fault prediction in open source projects. Journal of King Saud        [49]   Matthew Taylor, Scott Purdy, breznak, Chetan Surpur, Austin Marshall, David
     University - Computer and Information Sciences 30, 1 (2018), 2–17. https://doi.             Ragazzi, Subutai Ahmad, numenta ci, Andrew Malta, Pascal C. Weinberger, Ak-
     org/10.1016/j.jksuci.2016.04.002                                                            hila, Marcus Lewis, Richard Crowder, Marion Le Borgne, Yuwei, Christopher
[24] Davis E. King. 2009. Dlib-Ml: A Machine Learning Toolkit. J. Mach. Learn. Res.              Simons, Ryan J. McCall, Luiz Scheinkman, Mihail Eric, Utensil Song, keithcom,
     10 (Dec. 2009), 1755–1758.                                                                  Nathanael Romano, Sagan Bolliger, vitaly krugl, James Bridgewater, Ian Danforth,
[25] Kamran Kowsari, Kiana Jafari Meimandi, Mojtaba Heidarysafa, Sanjana Mendu,                  Jared Weiss, Tom Silver, David Ray, and zuhaagha. 2018. numenta/nupic: 1.0.5.
     Laura E. Barnes, and Donald E. Brown. 2019. Text Classification Algorithms: A               https://doi.org/10.5281/zenodo.1257382
     Survey. CoRR (2019). arXiv:1904.08067 http://arxiv.org/abs/1904.08067                [50]   TensorFlow. 2015. TensorFlow: Large-Scale Machine Learning on Heterogeneous
[26] Muthu Krishnan. 2018. Understanding the Classification report through sklearn.              Systems. Software available from tensorflow.org.
     https://muthu.co/understanding-the-classification-report-in-sklearn/                 [51]   Dennis Thom, Harald Bosch, Steffen Koch, Michael Worner, and Thomas Ertl.
[27] Socioboard Technologies Pvt Ltd. 2019. Socioboard-4.0. https://github.com/                  2012. Spatiotemporal anomaly detection through visual analysis of geolocated
     socioboard/Socioboard-4.0 GitHub.                                                           Twitter messages. In 2012 IEEE Pacific Visualization Symposium. IEEE. https:
[28] Tom Maiaroto. 2016. Social Harvest. https://github.com/SocialHarvest GitHub.                //doi.org/10.1109/pacificvis.2012.6183572
[29] Nikolai Manek. 2019. Apphera-core. https://github.com/nikoma/apphera-core            [52]   Ausschuss Feuerwehrangelegenheiten, Katastrophenschutz und zivile Verteidi-
     GitHub.                                                                                     gung. 1999. Führung und Leitung im Einsatz: Führungssystem.
[30] Elijah Mayfield, David Adamson, and Carolyn P. Rosé. 2014. LightSide: Rese-          [53]   Martin Welker and Andrea Kloß. 2014. Soziale Medien als Gegenstand und
     arch Workbench User’s Manual. http://ankara.lti.cs.cmu.edu/side/LightSide_                  Instrument sozialwissenschaftlicher Forschung. In Soziale Medien. Springer
     Researchers_Manual.pdf                                                                      Fachmedien Wiesbaden, 29–51. https://doi.org/10.1007/978-3-658-05327-7_2
[31] Bjoern H. Menze, B. Michael Kelm, Ralf Masuch, Uwe Himmelreich, Peter Bachert,       [54]   Frauke Zeller. 2016. Soziale Medien in der empirischen Forschung. In Handbuch
     Wolfgang Petrich, and Fred A. Hamprecht. 2009. A comparison of random forest                Soziale Medien. Springer Fachmedien Wiesbaden, 389–408.
     and its Gini importance with standard chemometric methods for the feature
Sie können auch lesen