Digitale Lageerkundung bei Großveranstaltungen: Erweiterung des Lagebildes durch Erkenntnisse aus sozialen Medien
←
→
Transkription von Seiteninhalten
Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten
Digitale Lageerkundung bei Großveranstaltungen: Erweiterung des Lagebildes durch Erkenntnisse aus sozialen Medien Francesca Sonntag Ramian Fathi Frank Fiedrich Bergische Universität Wuppertal Bergische Universität Wuppertal Bergische Universität Wuppertal Wuppertal, Deutschland Wuppertal, Deutschland Wuppertal, Deutschland fsonntag@uni-wuppertal.de fathi@uni-wuppertal.de fiedrich@uni-wuppertal.de ABSTRACT Wesentlichen beeinflusst durch die zur Verfügung stehenden Infor- Die zunehmende gesellschaftliche Nutzung sozialer Medien als mationen. öffentliches Kommunikationsmedium erzeugt eine kontinuierlich Soziale Medien stellen einen großen, nutzergenerierten Datensatz wachsende Datenmenge nutzergenerierter Inhalte. In Krisen und dar, welcher aufbereitet in Form eines Lagebildes zur Entschei- Katastrophen, aber auch während Großveranstaltungen können dungsfindung beitragen kann. Veranstalter von Großveranstaltun- lagerelevante Informationen aus sozialen Medien gewonnen und in gen kommunizieren seit einigen Jahren aktiv über soziale Medien ein Lagebild integriert und visualisiert werden. Jedoch erschweren und sind über eben diese dialogorientiert ansprechbar, aber auch Volumen, Vielfalt, Erzeugungsgeschwindigkeit und Verifizierung die Menschen vor Ort kommunizieren über Eindrücke und Gescheh- der Daten sozialer Medien eine Analyse und anwendergerechte Dar- nisse. Angehörige von Veranstaltungsteilnehmern erkundigen sich, stellung in Echtzeit. In dieser Arbeit wurde anhand von keyword-, z.B. bei fehlender Erreichbarkeit aufgrund eines Unwetters, über orts- und accountspezifisch selektierten Posts der Plattformen Twit- die interaktiven sozialen Medien nach dem aktuellen Stand und ter und Instagram im Kontext von zwei Großveranstaltungen im Befinden ihrer Bekannten [10]. Entscheidungsträger verwenden Jahr 2019 eine Kategorisierung der textuellen Nachrichten sowohl nutzergenerierte Echtzeitinformationen aus sozialen Medien nur thematisch als auch technisch geprüft. Hierbei wurden insbesonde- selten (lediglich 23 % der Befragten einer Befragung von 761 Ein- re die sicherheitsrelevanten Themenbereiche wie Gesundheitsge- satzkräften aus 32 europäischen Ländern im Jahr 2014), obwohl dies fahren, Hygiene, Personenströme und allgemeine Sicherheitsaspek- von großen Teilen der Bevölkerung erwartet wird [45]. Darüber te, allerdings auch spezifische Aspekte für Großveranstaltungen, hinaus fehlt es mitunter an technischen und organisatorischen wie z.B. die Identifikation von Feedback und Stimmung, analysiert. Voraussetzungen, das Lagebild durch Erkenntnisse aus sozialen Die gewonnenen Erkenntnisse können einerseits dazu beitragen, Medien zu erweitern [10]. Bisherige Arbeiten fokussierten sich Informationen aus sozialen Medien in einem Lagebild abzubilden auf Szenarien der Gefahrenabwehr, eine Analyse von deutschen und andererseits bestehende Analyseansätze zu erweitern. Großveranstaltungen kann dazu beitragen, weitere Erkenntnisse zu gewinnen. Um Daten aus sozialen Medien, wie z.B. Berichte CCS CONCEPTS von Augenzeugen im Text-, Bild- oder Videoformat von Situatio- nen während einer Veranstaltung bzw. Gefahrenlage durch eine • Human-centered computing → Usability testing; Social net- digitale Lageerkundung auszuwerten und in ein konsistentes La- working sites; • General and reference → Performance. gebild zu integrieren, müssen die Daten zugänglich gemacht und KEYWORDS aufbereitet werden [21]. Die zunehmende Verbreitung von digitalen Kommunikationstechnologien verstärkt den Bedarf, die Massenda- Soziale Medien, Digitale Lageerkundung, Großveranstaltungen, ten sozialer Medien zur Integration in ein konsistentes Lagebild und Klassifizierung, Random Forest Algorithmus Verwendung durch Entscheidungsträger zu filtern und thematisch zu strukturieren [54]. 1 EINLEITUNG Eine thematische Klassifizierung mit implizierter Priorisierung Großveranstaltungen bergen aufgrund der hohen Personenanzahl kann durch personelle Strukturen, z.B. dem Virtual Operations Sup- auf einem definierten Raum ein großes Gefahrenpotenzial, welches port Team der Bundesanstalt Technisches Hilfswerk (VOST THW), durch gesetzliche Regelungen in der Planungsphase berücksichtigt sowie durch technische Lösungen in Form von automatisierten wird [16]. So gelten z.B. Begrenzungen für die Besucheranzahl in und lernenden Algorithmen erfolgen [9]. Das VOST THW ist eine Abhängigkeit von vorhandenen Ausgangsbreiten um erhöhte Per- digitale Einsatz-Unterstützungseinheit des THW, bestehend aus di- sonendichten, wie z.B. beim Unglück bei der Loveparade 2010 in gital wirkenden Helfern, welche bei Krisen und Katastrophen, aber Duisburg, zu vermeiden. Präventiv werden präskriptive Anforde- auch bei Großveranstaltungen mit neuartigen Methoden lagerele- rungen an die Organisation und Planung einer Großveranstaltung vante Informationen aus sozialen Medien gewinnen, verarbeiten, gestellt, reaktiv sind die zu treffenden Entscheidungen jedoch im visualisieren und Entscheidungsträgern übermitteln [9]. Durch die Permission to make digital or hard copies of part or all of this work for personal or zunehmende Digitalisierung der globalen Gesellschaft wird die classroom use is granted without fee provided that copies are not made or distributed Notwendigkeit zur Adaptation der Prozesse und der Ausbau von for profit or commercial advantage and that copies bear this notice and the full citation digitalen Kompetenzen bedeutsamer, um die Informationsquellen on the first page. Copyrights for third-party components of this work must be honored. For all other uses, contact the owner/author(s). Soziale Medien nutzbar zu machen. MuC’21 Workshops, Ingolstadt, Deutschland, 10.18420/muc2021-mci-ws08-262 © 2021 Copyright held by the owner/author(s). https://doi.org/10.18420/muc2021-mci-ws08-262
MuC’21 Workshops, Ingolstadt, Deutschland, 10.18420/muc2021-mci-ws08-262 Francesca Sonntag, Ramian Fathi, and Frank Fiedrich Um die wesentliche Fragestellung nach der Möglichkeit einer passi- 2.1 Lagefeststellung und ven Informationserhebung als Ergänzung zur allgemeinen Lageer- Entscheidungsfindung bei kundung bei Großveranstaltung zu untersuchen, werden in dieser Großveranstaltungen Arbeit zwei Forschungsfragen adressiert: Für abstimmungsbedürftige Ereignisse im Regelbetrieb, sowie für eine strukturierte und handlungsfähige Krisenorganisation, sollte, • RQ1: Welche Informationen bzw. thematischen Katego- speziell im Kontext von Großveranstaltungen, eine aus dem Alltags- rien lassen sich im Kontext einer Großveranstaltung aus geschäft herausgelöste Organisationsform gegründet werden, ein den sozialen Medien ableiten? sogenanntes Koordinierungsgremium [16]. Das Koordinierungs- • RQ2: Inwiefern können vorhandene Algorithmen für gremium stellt sich aus den notwendigen, qualifizierten und ent- die Analyse sozialer Medien auf eine Nutzung im Kon- scheidungsbefugten Personen aus unterschiedlichen Fachbereichen text von Großveranstaltungen übertragen werden? wie z.B. Veranstalter, Ordnungsdienst und Polizei zusammen [13]. Neben den turnusmäßig stattfindenden Sicherheitsbesprechungen sind vor allem Prozesssteuerung, Leitentscheidungen, Kommunika- Nachfolgend werden zur Darstellung der Ergebnisse zunächst die tionssteuerung und zentrale Öffentlichkeitsarbeit als strategische Grundlagen sowie die Methodik für die automatisierte Analyse Aufgabenelemente durchzuführen [16]. Im Falle eines abstim- sozialer Medien im Kontext der digitalen Lageerkundung bei Groß- mungsbedürftigen Veranstaltungsereignisses erfolgt die operative veranstaltungen erläutert und darauf aufbauend die inhaltlichen Führung aller Maßnahmen, unter Beachtung der Zuständigkeiten und methodischen Ergebnisse der Analyse sozialer Medien im Kon- der polizeilichen und nichtpolizeilichen Gefahrenabwehr, durch text zweier Großveranstaltungen (in Folgendem anonymisiert als den Veranstalter. Dies impliziert die Koordination der internen Großveranstaltung A und Großveranstaltung B bezeichnet) aus dem und externen Maßnahmen unter Beratung durch das Koordinie- Jahr 2019 beschrieben. In Kapitel 5 werden sowohl die angewandte rungsgremium bis zur Übernahme durch die jeweilig zuständige Methodik als auch die Ergebnisse dieser Arbeit umfassend disku- Einsatzleitung von Feuerwehr, Rettungsdienst oder Polizei [13]. tiert. Im letzten und abschließendem Kapitel 6 werden in einem Das Koordinierungsgremium arbeitet, analog zu einem Krisenstab Fazit die Ergebnisse im Gesamtkontext zusammengefasst. der öffentlichen Gefahrenabwehr, in einem zur Veranstaltung räum- lich abgetrennten Bereich. Für die Detektion eines von der Norm abweichenden Zustandes ist deshalb eine fortlaufende Beurteilung des Veranstaltungsverlaufs sowie ein koordiniertes Informations-, 2 GRUNDLAGEN Entscheidungs- und Ressourcenmanagement notwendig, welches Aufgrund der hohen Anzahl an Besuchern, der Zusammensetzung auf einem konsistenten Lagebild beruhen kann [7]. und dem Konsumverhalten der Besuchergruppen sowie potenzieller Die Arbeit des Koordinierungsgremiums sieht folglich, vergleichbar Gefahren durch das allgemein für eine andere Nutzung ausgeleg- der Feuerwehrdienstvorschrift 100, eine zyklische Durchführung te Gelände weisen Entscheidungen bei Großveranstaltungen eine von Lagefeststellung, Einsatzplanung bzw. Entscheidung und Be- hohe Signifikanz auf [16]. Im Vergleich zu Notsituationen und Ka- fehlsgebung vor. Inbesondere die Lagefeststellung beinhaltet die tastrophenlagen besteht allerdings bei Großveranstaltungen keine Informationserkundung in Form von Sammlung, Aufbereitung und akute Gefahrensituation, jedoch werden vergleichbare Stabsstruk- Kontrolle der verfügbaren Daten, um im Rahmen der Beurteilung turen für ein schnelles Agieren vorgehalten. Der Veranstalter wird Informationen und Wissen zu verknüpfen und zu einem Lagebild durch eine Organisationsform, bestehend aus unterschiedlichen zusammenzufassen [52]. Ein konsistentes Lagebild beinhaltet den Fachbereichen, unterstützt, welche sich räumlich disloziert zur Ver- aufbereiteten Wissensstand als einheitliches Lagebild und ist da- anstaltung befindet und damit, vergleichend zu einem Krisenstab, durch Grundlage für Einsatzplanung und Führung. Der hierauf auf ein gezieltes Informationsmanagement angewiesen ist. Die La- aufbauende Entscheidungsprozess verläuft zeitlich stringent von geerkundung kann auf analoger sowie ergänzend auf digitale Weise dem Erhalt der Daten bis zur Handlung. Die „isolierte[n], uninter- erfolgen. In der analogen Form können z.B. durch Sichtungen von pretierte[n] Fakten und Kennwerte der Realitätsbeschreibung“ [34] Ordnungskräften potentielle oder gegebene Gefahren übermittelt werden interpretiert, in Informationen überführt, mit der Expertise werden, aber auch andere klassische Informationsquellen wie Be- der Entscheidungsträger zu Wissen verknüpft und in Form einer richte von Besuchern oder Rückmeldungen von Einsatzkräften Entscheidungsbefähigung kognitiv verarbeitet, um schließlich die können zur Lageerkundung beitragen. Die digitale Darstellung der Grundlage für die Entscheidung zu einer speziellen Handlung zu Lage kann durch aufbereitete Informationen aus Daten sozialer Me- bilden [34]. Folglich bildet die Datengenerierung sowie das Infor- dien in Form von Text, Bildern oder Videos erfolgen. Im konkreten mationsmanagement das „zentrale Nervensystem“ [42]. Kontext einer Großveranstaltung können die durch Veranstaltungs- besucher generierten Daten zu sicherheitsrelevanten Themen und In zahlreichen Arbeiten konnte bereits der Mehrwert von Auswer- darüber hinaus zu wirtschaftlichen und reputativen Aspekten de- tungen sozialer Medien in Notsituationen aufgezeigt werden. Neben tektiert, analysiert und aufbereitet werden. Zur Aufbereitung der dem Beitrag zu einer erfolgreichen kommunikativen Begleitung unstrukturierten Daten als informelle Basis von Entscheidungen einer Krise können soziale Medien zur Informationsgewinnung bietet sich eine Filterung der relevanten Mitteilungen sowie de- beitragen [18]. Soziale Medien werden bei Großveranstaltung über- ren thematische Sortierung mittels Algorithmen des maschinellen wiegend als Kommunikationsmedium genutzt, eine passive Infor- Lernens für eine schnelle Lageerkundung an [43]. mationserhebung mit dem Ziel der systematischen Erweiterung des
Digitale Lageerkundung bei Großveranstaltungen MuC’21 Workshops, Ingolstadt, Deutschland, 10.18420/muc2021-mci-ws08-262 Lagebildes durch Daten aus sozialen Medien konnte bisher nicht werden, sodass eine Adaption und Nutzbarkeit für spezifische Zwe- flächendeckend beobachtet werden [10]. Die Eigenschaften der cke möglich ist. Tabelle 1 soll als Darstellung und Grundlage zur Plattformen und der einzelnen Mitteilungen erschweren eine syste- Bearbeitung der RQ2 einen Ausschnitt aus aktuellen Entwicklun- matische Analyse und bedingen die Notwendigkeit einer Filterung gen, mit Fokus auf die skriptbasierte Programmiersprache Python, und Aufbereitung für eine Nutzbarkeit durch Entscheidungsträger. aufzeigen. Die aufgeführten Algorithmen weisen jedoch im über- wiegenden Anteil keine aufbereitete Nutzeroberfläche (GUI) vor, sodass die operative Nutzung technische Kompetenzen voraus- 2.2 Analysemethoden sozialer Medien setzt. Der Fokus auf Open Source und nicht etwa kommerzielle Zu den Eigenschaften sozialer Medien zählen unter anderem eine Tools erfolgte aufgrund der einfachen und freien Nutzbarkeit, der kontinuierliche Datenerzeugung, der subjektive sowie soziale Cha- Adaptierbarkeit sowie der hieraus resultierenden Möglichkeit für rakter der Inhalte, die öffentliche Replizierbarkeit, die Multilinguis- potentielle Verbesserungen. tik und die unstrukturierte sowie semantisch diversitäre Form [53]. Basierend hierauf ist das wesentliche Ziel der automatisierten Ana- lyse die Generierung von Zusammenhängen oder wesentlichen 3 METHODIK Inhalten aus un- oder schwachstrukturierten Textdaten [1]. Bei- Die Identifikation thematischer Kategorien im Kontext einer Groß- spielhafte Techniken für eine Datenanalyse sind die Informationsex- veranstaltung (RQ1) erfolgte auf Basis von Literaturrecherchen. traktion, Kategorisierung, Segmentierung und Visualisierung [17]. Darauf aufbauend wurden selektierte, textuelle Posts der Platt- Die Kategorisierung bzw. thematische Gruppierung von Nachrich- formen Twitter und Instagram zu zwei Großveranstaltungen im ten wird bevorzugt als Informationsquelle integriert [43]. Zahlrei- Jahr 2019 händisch den Kategorien zugeordnet und vorhandene che Forschungsarbeiten haben dies bereits darstellen können und Algorithmen des maschinellen Lernens verwendet, um eine auto- dabei Ansätze von Kategorisierung-Methoden als Basis von Ent- matisierte Klassifizierung zu testen (RQ2). Die Beschränkung auf scheidungsfindungsprozessen erforscht [22, 38]. die Plattformen Twitter und Instagram erfolgte hierbei auf Grund Die Kategorisierung beinhaltet die Zuordnung von Daten zu einer der Zugriffsmöglichkeit über die Schnittstelle API (Application Pro- Klasse aufgrund von Entscheidungsregeln, sodass Teilmengen der gramming Interface). Klassen eine bessere thematische Homogenität als der Ausgangsda- tenbestand aufweisen [47]. Eine Entscheidungsregel kann in Form der Verknüpfung mehrerer Entscheidungsbäume, einem sogenann- 3.1 Datenerhebung und -vorbereitung ten Random Forest Algorithmus, umgesetzt werden. Kombinatio- Die Extraktion der relevanten Rohdaten sowie die Umwandlung nen von Entscheidungsbäumen, Random Forests, sind im Vergleich in ein weiterverwendbares csv-Datenformat erfolgte mithilfe des zu weiteren Algorithmen schnell zu trainieren und können für un- Programms ScatterBlogs [51]. Die Instagramdaten (Bildbeschrif- strukturierte Daten aus sozialen Medien verwendet werden [25, 46]. tungen und Kommentare) wurden auf Basis der Lokalisierung der Obwohl die Vorhersagen mithilfe eines trainierten Modells langsa- Posts auf dem entsprechenden Gelände der Großveranstaltung und mer zu vergleichbaren Algorithmen sind, wurde zur Beantwortung dem Zeitpunkt der Veröffentlichung innerhalb der Zeitrahmen der der Forschungsfrage RQ1 aufgrund der Anwendbarkeit der Fokus Großveranstaltungen selektiert und in eine csv-Datei überführt. auf den Random Forest gelegt. Hierbei stellt ein einfacher Entschei- Die textuellen Twitterdaten wurden auf Basis von spezifischen Key- dungsbaum einen mehrstufigen Entscheidungsprozess in Form von words und relevanten Accounts erhoben. Beide Veranstaltungen mehreren aufeinander folgenden Abzweigungen dar. Die einzelnen weisen vergleichbare Eigenschaften in Bezug auf die Art (Musikfes- Entscheidungen werden hierbei über die Pfade am Ende der Ab- tivals), Größe (ca. 60.000 Besucher), Gelände (im Freien) und Dauer zweigungen repräsentiert [48]. Die Aufteilung der Daten an den (drei Veranstaltungstage) auf. Für die Darstellung der Ergebnisse Abzweigungen innerhalb jedes Entscheidungsbaumes kann über wurden Begriffe wie z.B. Ortsnamen, welche Rückschlüsse auf die die Gini Impurity, ein numerischer Wert für die Unreinheit der Veranstaltungen zulassen würden, anonymisiert. potentiellen Möglichkeiten, optimiert werden [31]. Alle Rohdaten wurden auf die Angaben ID, Account, Erstellungsda- Darüber hinaus kann bei der Erstellung des Random Forest auf Ba- tum und Text reduziert und händisch in definierte Themenbereiche, sis eines Datensatzes die Bootstrap-Aggregation (Bagging) genutzt respektive Klassen sortiert, siehe Kapitel 4.1. Entscheidungssitua- werden, um eine Diversifikation zwischen den einzelnen Entschei- tionen im Kontext einer Großveranstaltung sind losgelöst von einer dungsbäumen zu erhalten. Diese sieht die Bildung der Entschei- Katastrophe zu betrachten, sodass weitere und differenzierende dungsbäume mit jeweils einer variierenden Teilmenge des Daten- Themen an Relevanz gewinnen. Für die Kategorisierung der in- satz vor. Die Teilmengen weisen dabei die gleiche Anzahl an Daten tegrierten Daten wurde, angelehnt an den Aufgabenschwerpunk- vor, wofür manche selektiert und andere mehrfach dargestellt wer- ten von VOST bei der Auswertung sozialer Medien im Kontext den. Jeder einzelne Entscheidungsbaum gibt im Anwendungsfall von Großveranstaltungen von Fathi et al. [11] sowie auf Basis des eine Vorhersage für die Klassenzuordnung an, sodass die mehr- Kategorisierungsansatzes von Olteanu et al. [36], ein Klassifizie- heitlich getroffene Vorhersage einer Klasse verwendet wird. Durch rungsmodell für Großveranstaltungen entwickelt und verwendet. die verschiedenen Teilmengen wird eine hohe Varianz zwischen Dabei wurden 6.907 Posts im Kontext der Großveranstaltung A den einzelnen Bäumen, durch die Kombination aber eine geringe als Trainings-, sowie weitere 2.552 Posts der Großveranstaltung B Varianz trotz geringer Verzerrung erzeugt [31]. Es existieren bereits als Testdatensatz aufbereitet. Die Zuordnung jeder Textnachricht diverse Algorithmen zur automatisierten Durchführung einer Ka- erfolgte singulär und händisch durch eine Person, basierend auf tegorisierung von Daten, welche öffentlich zur Verfügung gestellt dem identifizierten Inhalt.
MuC’21 Workshops, Ingolstadt, Deutschland, 10.18420/muc2021-mci-ws08-262 Francesca Sonntag, Ramian Fathi, and Frank Fiedrich Tabelle 1: Auflistung unterschiedlicher Bibliotheken, Plattformen und ausgeprägte Tools Bezeichnung Beschreibung Aesara [40] Verarbeitung mathematischer Ausdrücke mit mehrdimensionalen Arrays AIDR [12] Filterung und Klassifizierung von Posts sozialer Medien (mit GUI) Apache Spark [14] Verarbeitung Big Data Apphera [29] Umfassendes Analysetool für soziale Medien (mit GUI) BERT [8] Natural Language Processing DLib [24] Bibliothek für maschinelles Lernen FastText [20] Bibliothek für maschinelles Lernen LightSide [30] Data Mining Methoden und Algorithmen NLTK [4] Natural Language Processing NuPIC [49] Bibliothek für maschinelles Lernen (Implementierung von HTM) PyTorch [5] Bibliothek für maschinelles Lernen RapidMiner [32] Umgebung für maschinelles Lernen und Data Mining Scikit-learn [37] Bibliothek für maschinelles Lernen Social Harvest [28] Umfassendes Analysetool für soziale Medien (mit GUI) Socioboard [27] Umfassendes Analysetool für soziale Medien (mit GUI) TACIT [6] Textanalysen, Crawlen und Interpretation TensorFlow [50] Bibliothek für maschinelles Lernen TROVE [23] Bibliothek für maschinelles Lernen Weka [15] Bibliothek für maschinelles Lernen Weitere Bestandteile der Datenvorbereitung waren aufeinander- 4 DARSTELLUNG DER ERGEBNISSE folgend (1) Noise Removal und (2) Kapitalisierung, (3) Tokenisie- In diesem Kapitel werden zunächst ausgewählte inhaltliche Ergeb- rung, (4) Entfernung der Stopwörter [33], (5) Stemming mithilfe nisse, die identifizierten Kommunikationswege und prägnante, aus des Porter-Stemmer-Algorithmus [39] sowie (6) eine Term Frequen- den sozialen Medien ableitbare Informationen und Themenberei- cy Inverse Document Frequency (TF-IDF) Transformation mit der che beschrieben (RQ1). Im Anschluss erfolgt zur Beantwortung der Scikit-learn-Bibliothek. Folglich wurden zunächst Symbole und RQ2 die Auswertung der Verwendung von Algorithmen des ma- Sonderzeichen aus den Textnachrichten entfernt (1), ausschließ- schinellen Lernens zur Klassifizierung des Datensatzes von Großver- lich Minuskel verwendet (2), die Sätze in Wörter segmentiert (3), anstaltung B anhand eines mit den Daten der Großveranstaltung A Füllwörter wie z.B. Artikel entfernt (4), die Wörter auf ihren Wort- trainierten Modells. stamm reduziert (5) und anschließend die Textnachricht mithilfe einer Gewichtung der Vorkommenshäufigkeit der Wörter und der 4.1 Inhaltliche Ergebnisse im Kontext von inversen Dokumenthäufigkeit in ein Zahlenformat überführt (6). Großveranstaltungen Im Rahmen der händischen Zuordnung sowie thematischen Grup- pierung der Datensätze konnten drei wesentliche Kommunikatoren identifiziert werden. Eine adaptierte Version des Modells von Reuter 3.2 Analysemethoden der Kategorisierung und Kaufhold [44] weist somit die Kombinatorik von (1) Veranstal- Mithilfe der Bibliotheken Natural Language Toolkit (NLTK) und ter, (2) Besucher sowie (3) Behörden und Organisationen mit Sicher- Scikit-learn wurde der transformierte Trainingsdatensatz (Großver- heitsaufgaben (BOS) und folglich sechs Kommunikationswege auf. anstaltung A) genutzt, um einen Random Forest unter Verwendung Bei den analysierten Daten der Großveranstaltungen zeigte sich der Gini-Impurity und der Bootstrap-Aggregation zu erstellen. Die eine frequentierte Interaktion zwischen dem Veranstalter oder den Verwendbarkeit des Random Forest Algorithmus wurde bereits in BOS und den Besuchern. Es ist davon auszugehen, dass die inter- so- weiteren Publikationen dargestellt [21]. Die Bibliotheken der Pro- wie intraorganisationale Kommunikation der BOS sowie der Kräfte grammiersprache Python wurden aufgrund der nutzerfreundlichen des Veranstalters überwiegend über nicht öffentliche Kanäle erfolg- Anwendung und Zugänglichkeit verwendet [19]. te und nicht über sozialen Medien. Für die automatisierte Extraktion Um die Performance auf den transformierten Testdatensatz (Groß- von Informationen ist dementsprechend besonders die Kommunika- veranstaltung B) zu analysieren, wurden Genauigkeit, Makro- tion unter den Besuchern relevant, da hier keine direkte Einbindung durchschnitt, gewichteter Durchschnitt und der mittlere absolute von Organisationen des Koordinierungsgremiums oder Kräften der Fehler (MAE) sowie auch die klassenspezifische Präzision, Recall, BOS erfolgt. Aus diesen Dia- und Monologen lassen sich Informatio- F1 score sowie Support erhoben [26]. Mithilfe einer Konfusionsma- nen zum Geschehen ableiten, welche über den bekannten Rahmen trix wurde darüber hinaus die Fehlerklassifikationsgüte visualisiert, der Lageerkundung hinausgehen. welche sich durch den Quotient aus falsch eingestuften und insge- Neben den wesentlichen Kommunikationswegen konnte die Rele- samt eingestuften Testdaten beziffern lässt. vanz der Filterung überprüft werden. Mit über 80 % des Datensatzes
Digitale Lageerkundung bei Großveranstaltungen MuC’21 Workshops, Ingolstadt, Deutschland, 10.18420/muc2021-mci-ws08-262 der Großveranstaltung A und über 90 % des Datensatzes Großveran- in der Vor- und Nachbereitung der Großveranstaltung einen Mehr- staltung B der Klasse Anderes, ist der größte Anteil der verwendeten wert bieten. Für die Posts im Kontext der Großveranstaltungen A Daten als irrelevant für die Mitglieder des Koordinierungsgremi- und B konnte sowohl über eine Sentimentanalyse als auch über eine ums einzustufen, da sie keine Sicherheitsrelevanz aufweisen. Die Segmentierung mittels k-means Verfahren ein deutlicher Schwer- weiteren Themenbereiche zur Klassifizierung von Informationen punkt auf positiven Themen, wie z.B. Spaß, Musik und Stimmung aus sozialen Medien wurden auf folgende Klassen begrenzt: ermittelt werden. RQ1: Zusammenfassend bieten Daten sozialer • Anderes (Klasse 0) Medien das Potenzial zur Detektion von Abweichungen vom Norm- • Feedback (Klasse 1) zustand sowie die Extraktion von Informationen zu Nutzern mit • Gesundheitsgefahren (Klasse 2) großer Reichweite, Feedback und Stimmung. Durch Integration die- • Hygiene (Klasse 3) ser Informationen in ein Lagebild kann ein informativer Mehrwert • Infrastruktur (Klasse 4) für den Entscheidungsprozess generiert werden. • Künstler (Klasse 5) • Personenstrom (Klasse 6) • Programm (Klasse 7) 4.2 Performance vorhandener Algorithmen am • Öffentlicher Personennahverkehr (ÖPNV) (Klasse 8) • Service (Klasse 9) Beispiel Großveranstaltung • Sicherheitsaspekte (Klasse 10) Neben der Forschungsfrage RQ 1 bezüglich den relevanten the- • Wetter (Klasse 11) matischen Kategorien im Kontext der Analyse sozialer Medien als Ergänzung des Lagebildes eines Koordinierungsgremiums, Die Nummerierung der Klassen impliziert keine Priorisierung, die wurden die vorhandenen Algorithmen der NLTK Bibliothek auf Bezeichnung wurde vielmehr alphabetisch sortiert und die Numme- operative Nutzbarkeit getestet (RQ 2). Grundsätzlich zeigen die rierung hieran angepasst. Innerhalb dieser Klassen wurden Wort- ermittelten Werte für die verwendeten Datensätze eine ausbaufähi- wolken zur Identifikation der wesentlichen inhaltlichen Faktoren ge Performance auf, siehe hierfür Tabelle 2. Der Support stellt die erstellt. Beispielhaft zeigt Abbildung 1 die Wortwolke für die Klasse ungleiche Verteilung der Klassenanteile des Testdatensatzes quan- Gesundheitsgefahren. Die Schriftgröße symbolisiert die Frequenz titativ dar und verdeutlicht die Notwendigkeit eines Ausgleichs. Durch die unausgeglichenen Anteile der thematischen Klassen in den Datensätzen weist die Präzision der Klassen „Anderes“ (Klasse 1) und "ÖPNV"(Klasse 8) einen hohen Wert und einen hohen F1 Score auf, während der Recall der weiteren Klassen unter oder gleich 0.5 beträgt, siehe Tabelle 2. Anhand dieser Werte, dem aufgeführten Support sowie dem direkten Vergleich der mittleren absoluten Fehler und Genauigkeiten beider Datensätze zeigt sich, dass das hier erstellte Modell überangepasst (overfitted) ist. Als Überanpassung (Overfitting) eines Entscheidungsbaumes gilt die perfekte Anpassung an den Trainingsdatensatz, sodass jeder Post einen Pfad und die zugeteilte Klasse das Ende des Pfades bildet. Hierdurch erfolgt eine Reduzierung der Varianz aber gleichzeitig eine Erhöhung der Verzerrung, wodurch die Genauigkeit auf den Abbildung 1: Wortwolke der Klasse 2 (Gesundheitsgefahren) Testdatensatz oder weitere Datensätze verringert wird [31]. Die beider Großveranstaltungen Genauigkeit der Vorhersagen auf den Testdatensatz weist einen Wert von 0.996 (Trainingsdatensatz: 0.95) sowie einen mittleren der Wörter. Die Klasse 2 bei der Großveranstaltung B führt aus- absoluten Fehler von 0.02 (Trainingsdatensatz: 0.32) auf. Eine schließlich Aspekte außerhalb der Veranstaltung, jedoch mit einem Verringerung der Anzahl an Abzweigungen im Entscheidungs- Bezug und potenziellem Einfluss zu dieser auf, z.B.: "#Weg zum baum führt zu keinen signifikanten Verbesserungen, weshalb die #Festival B! #Zwei Leute fallen aus #VW-Bus, eine schwer verletzt! wesentliche Ursache in dem fehlenden Umfang der Klassen 2-8, #Tuttlingen https://t.co/... https://t.co/..." sowie 10 und 11 zu vermuten ist. Eine Zuordnung aller Posts in die Ein Unfall von anreisenden Besuchern stellt ein von der Norm ab- Klasse 0 würde aufgrund des Anteils an irrelevanten Posts in den weichendes Ereignis dar, zumal die Anreise zur Veranstaltung von Datensätzen bereits zu einer Genauigkeit von über 0.9 führen. Die beiden Veranstaltern kommunikativ begleitet wird. Die 16 Posts Konfusionsmatrix, Abbildung 2, visualisiert das Ergebnis der auf der Klasse 3 sind deutlich übersichtlicher und erlauben dadurch den Testdatensatz durchgeführten Klassifizierung. Diese zeigt die einen zielgerichteteren Überblick über die Lage, als die 2.552 Posts, absolute Anzahl an Posts der jeweilgen Verhältnisse von händisch welche insgesamt für Großveranstaltung B selektiert wurden. Ne- zugeordneten und automatisiert vorhergesagten Klassen. Abszisse ben den sicherheitsrelevanten Aspekten lässt sich darüber hinaus und Ordinate zeigen die nummerisch dargestellten Klassen von Feedback zur Bewertung der bei Großveranstaltung auftretenden 0 bis 11 des Trainingsdatensatzes als Repräsentation der Klassen- Künstler, eine Identifikation von Nutzern mit großer Reichweite bezeichungen, die fallende Diagonale zeigt die absolute Anzahl sowie allgemeines Feedback zur Großveranstaltung in Form von der richtig zugeordneten Posts. Ergänzend zu der tabellarischen Sentimentanalysen ableiten. Diese Ergebnisse können besonders Darstellung der Werte wird der hohe Recall der Klasse 0, sowie
MuC’21 Workshops, Ingolstadt, Deutschland, 10.18420/muc2021-mci-ws08-262 Francesca Sonntag, Ramian Fathi, and Frank Fiedrich Tabelle 2: Klassifizierungsreport Random Forest Algorithmus Klasse precision recall f1-score support 0 0.96 0.99 0.97 2404 1 0.50 0.37 0.43 27 2 0.00 0.00 0.00 6 3 0.00 0.00 0.00 3 4 0.00 0.00 0.00 17 5 0.14 0.50 0.22 2 6 0.00 0.00 0.00 1 7 0.50 0.25 0.33 4 8 0.86 0.78 0.82 41 9 0.50 0.20 0.29 5 10 0.00 0.00 0.00 10 11 0.00 0.00 0.00 32 accuracy 0.95 2552 macro avg 0.29 0.26 0.26 2552 weighted avg 0.92 0.95 0.94 2552 der nicht vorhandene Recall der Klassen 2-4, 6, sowie 10-11 deut- NLTK Bibliothek gerichtet wurde. Hierbei zeigte sich im Wesent- lich, da kein Post der korrekten Klasse zugeteilt wurde. Um eine lichen, dass die Genauigkeit bei weiteren neun Algorithmen mit denen des RF- und NB-Algorithmus identisch waren, jedoch die Test- und Trainingszeit beim RF-Algorithmus mit einer Geschwin- 2.380 1 0 0 11 0 1 0 6 1 1 3 0 digkeit von 5.430 Posts je Sekunde (Trainingszeit, Klassifizierung 16 10 0 0 0 0 1 0 0 0 0 0 der 2.552 Posts des Testdatensatzes in 0.47 s) am zeitaufwendigsten 1 war. Eine detaillierte Analyse des Klassifizierungsreports zeigte, 6 0 0 0 0 0 0 0 0 0 0 0 dass z.B. der multinomiale Naive Bayes Algorithmus insgesamt 2 3 0 0 0 0 0 0 0 0 0 0 0 eine gleiche Genauigkeit von 0.95, jedoch eine Präzision von 0 für 3 alle Klassen, ausgenommen Klassen 0 und 8, für den verwendeten 17 0 0 0 0 0 0 0 0 0 0 0 Datensatz aufweist. 4 Händisch vorhergesagt 1 0 0 0 0 1 0 0 0 0 0 0 5 1 0 0 0 0 0 0 0 0 0 0 0 5 ZUSAMMENFASSENDE DISKUSSION DER 6 3 0 0 0 0 0 0 1 0 0 0 0 METHODIK UND ERGEBNISSE 7 9 0 0 0 0 0 0 0 32 0 0 0 Für die Datenerhebung wurden steuerbare Filtermechanismen, z.B 8 eine Selektion der Querschnittsmenge durch die Plattformauswahl 4 0 0 0 0 0 0 0 0 1 0 0 aufgrund der Zugriffsmöglichkeiten durch die API, verwendet. Wei- 9 10 0 0 0 0 0 0 0 0 0 0 0 tere Filtermechanismen für eine präanalytische Selektion relevan- 10 ter Inhalte ermöglichen eine weitere Optimierung der Klassifizie- 32 0 0 0 0 0 0 0 0 0 0 0 rungsalgorithmen durch einen ausgeglicheneren Support. Kaufhold 11 0 1 2 3 4 5 6 7 Automatisiert vorhergesagt 8 9 10 11 et al. [21] beschreiben hierfür optimierte Algorithmen anhand ei- ner mehrdimensionalen Definition von Relevanz. Darüber hinaus wurden in einer Arbeit 19 Modelle in Bezug auf Zeit, Clusterqua- Abbildung 2: Konfusionsmatrix lität und Sprachvarianz für Notsituationen evaluiert [3]. Neben den bewusst gewählten Filtern erfolgten weitere, nicht steuerbare Optimierung der Klassifizierung zu analysieren, wurden, neben Selektionen. Private Nachrichten können nicht abgegriffen werden, dem ausführlichen Vergleich des NB- und RF-Algorithmus, weitere die Schnittstellen zu den Plattformen erzeugen eine teilweise un- 13 Algorithmen der NLTK Bibliothek zur Zuordnung der betrach- bekannte technische Auswahl [35] und durch die Verwendung der teten Datensätze verwendet und auf Genauigkeit sowie Test- und TF-IDF Transformation werden die Textmitteilungen in ein Zahlen- Trainingszeit untersucht. Die Forschungsfragen verfolgten das Ziel, format überführt und sprachliche und stylistische Elemente durch die Verwendbarkeit von bestehenden Open Source Bibliotheken Schrift, Zeichen oder Symbole nicht berücksichtigt. Darüber hinaus im Kontext von Großveranstaltungen zu untersuchen und sollten verbreitet nur ein Teil der Veranstaltungsteilnehmer öffentliche In- keinen Überblick über bestehende Algorithmen in dem Kontext formationen in den sozialen Medien, sodass ein davon abgeleitetes zusammenstellen, weshalb bei der Anwendung der Fokus auf die Lagebild nur einen Ausschnitt darstellen kann.
Digitale Lageerkundung bei Großveranstaltungen MuC’21 Workshops, Ingolstadt, Deutschland, 10.18420/muc2021-mci-ws08-262 Die in dieser Arbeit ausgewählten thematischen Klassen wurden 6 FAZIT ausschließlich auf Basis von Literaturrecherchen erarbeitet. Eine Als Ergänzung des Lagebildes bieten Plattformen der sozialen Me- strukturierte Befragung von unterschiedlichen Mitgliedern der Ko- dien einen immens großen Datensatz. Große Teile der Bevölkerung ordinierungsgremien kann hier zukünftig eine individuelle und erwarten, dass in Notsituationen die sozialen Medien von BOS bedarfsorientiertere Struktur fördern. Darüber hinaus wurde die analysiert werden. Jedoch besteht hier bei Großveranstaltungen automatisierte Aufbereitung der Daten in Form einer thematischen nach wie vor eine Diskrepanz zur praktischen Umsetzung. Die Kategorisierung ausschließlich auf Basis der NLTK Bibliothek und durchgeführte Analyse im Kontext zweier Großveranstaltungen textuellen Daten geprüft. Eine Integration von Bildanalysen könn- im Jahr 2019 konnte im Wesentlichen zeigen, dass eine präanaly- te die digitale Lageerkundung um wichtige Informationen ergän- tische Relevanzfilterung notwendig ist und ein großer Datensatz zen und dadurch zu einem umfassenderen Lagebild beitragen [2]. durch Verknüpfung von Posts zu diversen Großveranstaltungen Wichtige Bildinformationen bei Großveranstaltung können z.B. oder Data Augmentation als Trainingsgrundlage genutzt werden Informationen über Personendichten, Personenströme, Verkehrs- kann. Darüber hinaus wurde aufgezeigt, dass lagerelevante Infor- situationen, Vandalismus und Veränderungen in der Infrastruktur mationen generiert werden konnten. sein [11]. Um darüber hinaus eine ausreichende Datenbasis zur Er- RQ1: Welche Informationen bzw. thematischen Kategorien lassen stellung des Random Forest als Entscheidungsgrundlage generieren sich im Kontext einer Großveranstaltung aus den sozialen Medien zu können, bietet sich die veranstaltungsübergreifende Sammlung ableiten? von Datensätzen an. Bei der händischen Klassifizierung sowie der Neben einer möglichen Detektion von Abweichungen vom Normzu- Klassenbildung konnten Übereinstimmungen in den Datensätzen, stand durch eine Erhebung und Klassifizierung der Posts in Echtzeit losgelöst von der spezifischen Großveranstaltung, identifiziert wer- lassen sich Informationen zu Nutzern mit großer Reichweite, Feed- den. Die Fehlerreplikation durch falsche Einteilung einer Textmit- back und Stimmung ableiten. Im Wesentlichen bilden vor allem die teilung im Trainingsdatensatz ist für die vorliegende Arbeit nicht thematischen Bereiche Gesundheitsgefahren, Hygiene, Personen- relevant, da in der Auswertung der Fokus auf eine allgemeine Ana- strom sowie Sicherheitsaspekte einen informativen Mehrwert zur lyse und nicht auf eine Erstellung einer Programmgrundlage gelegt Ergänzung des Lagebildes. wurde. RQ2: Inwiefern können vorhandene Algorithmen für die Analyse Die erarbeiteten Klassen konnten thematisch durch einzelne Posts sozialer Medien auf eine Nutzung im Kontext von Großveranstal- abgedeckt werden, sodass bei beiden Großveranstaltungen eine tungen übertragen werden? ähnliche thematische Repräsentanz identifiziert wurde. Anhand Aufgrund des überwiegenden Anteils für ein Koordinierungsgre- dieser Beobachtung lässt sich die These ableiten, dass eine Erwei- mium irrelevanter Posts zeigten die verwendeten Algorithmen der terung des Trainingsdatensatzes, z.B. durch die Kombination der NLTK Bibliothek für die relevanten Themenbereiche einen schlech- Daten mehrerer Großveranstaltungen oder Möglichkeiten der Data ten Recall von unter 0.5 auf. Eine automatisierte Segmentierung Augmentation, zu einer ausgeglicheneren Quantität der Klassen mittels k-mean Algorithmus zeigte ebenfalls keine verwendbare und einer verbesserten Performance des Algorithmus führt [41]. Aufteilung des Datensatzes. Eine Verbesserung des Modells kann Bei einer Abweichung vom Normzustand können nutzergenerierte durch eine Filterung der irrelevanten Nachrichten im Vorfeld der Informationen der Veranstaltungsbesucher hilfreich sein, um z.B. themenspezifischen Zuordnung erfolgen. Ein weiterer Lösungs- die subjektive Wahrnehmung der Situation oder Einschränkun- ansatz, besonders für außergewöhnliche Zustände, ist die Online- gen von Infrastrukturen in ein Lagebild zu integrieren. Für eine Modellgenerierung wie bei dem Open Source Programm Artificial Nutzbarkeit eines solchen Lagebildes durch Beteiligte des Koordi- Intelligence for Digital Response (AIDR). Wenn abweichende Zustän- nierungsgremiums scheinen jedoch weitere Entwicklungen, z.B. de durch den Ordnungsdienst oder weitere agierende Einsatzkräfte in Form einer angepassten Lagedarstellung für die vereinfachte detektiert werden, können Posts der spezifischen Thematik explizit Zugänglichkeit und Anwendbarkeit des Modells oder die Intergra- erfasst, händisch kategorisiert und zur Optimierung des Klassifi- tion von digitalen Einsatz-Unterstützungseinheiten, wie z.B. dem zierungsmodells verwendet werden, bis erneut eine ausreichende VOST THW, als Anwender der Algorithmen notwendig. Darüber Modellpräzision erreicht ist. Eine technische Relevanz- und The- hinaus erschwert die vermehrte Nutzung von privaten und nicht menfilterung ermöglicht es digitalen Unterstützungseinheiten, wie öffentlichen Plattformen die Datengenerierung und -auswertung dem VOST THW, die Daten in Echtzeit aufzubereiten und für Mit- über automatisierte Algorithmen. Auch die Verbreitung von Des- glieder der Koordinierungsgremien nutzbar zu machen. informationen und Gerüchten kann bei Großveranstaltungen die Analyse erschweren, sodass sich zahlreiche Forschungsfragen ab- LITERATUR leiten lassen. Hierzu gehören z.B.: Wie beeinflusst die Nutzung [1] Charu C. Aggarwal and ChengXiang Zhai. 2012. An Introduction to Text Mining. von privaten Messaging-Diensten die Analyse sozialer Medien? In Mining Text Data. Springer US, 1–10. https://doi.org/10.1007/978-1-4614-3223- Wie wirken sich Desinformationen und Gerüchte auf Besucher 4_1 [2] Firoj Alam, Ferda Ofli, and Muhammad Imran. 2019. Descriptive and visual von Großveranstaltungen aus, wie auf Angehörige von Besuchern? summaries of disaster events using artificial intelligence techniques: case studies Wie kann die systematische digitale Lageerkundung organisato- of Hurricanes Harvey, Irma, and Maria. Behaviour & Information Technology 39, 3 (2019), 288–318. https://doi.org/10.1080/0144929X.2019.1610908 risch und strukturell im Koordinierungsgremium angebunden und [3] Markus Bayer, Marc-André Kaufhold, and Christian Reuter. 2021. Information integriert werden? Overload in Crisis Management: Bilingual Evaluation of Embedding Models for Clustering Social Media Posts in Emergencies. ECIS 2021 Research Papers (2021), 1338. https://aisel.aisnet.org/ecis2021_rp/64 [4] Steven Bird, Ewan Klein, and Edward Loper. 2019. Natural Language Processing with Python (1 ed.). O’Reilly. http://www.nltk.org/book/
MuC’21 Workshops, Ingolstadt, Deutschland, 10.18420/muc2021-mci-ws08-262 Francesca Sonntag, Ramian Fathi, and Frank Fiedrich [5] Torch Contributors. 2019. PyTorch. https://pytorch.org/ selection and classification of spectral data. BMC Bioinformatics 10, 1 (2009), 213. [6] Morteza Dehghani, Kate M. Johnson, Justin Garten, Reihane Boghrati, Joe Hoo- https://doi.org/10.1186/1471-2105-10-213 ver, Vijayan Balasubramanian, Anurag Singh, Yuvarani Shankar, Linda Pulickal, [32] Ingo Mierswa. 2013. The core ot RapidMiner is open source. https://rapidminer. Aswin Rajkumar, and Niki Jitendra Parmar. 2016. TACIT: An open-source text com/blog/the-core-of-rapidminer-is-open-source/ analysis, crawling, and interpretation tool. Behavior Research Methods 49, 2 (3 [33] Andreas Mueller, Jean-Christophe Fillion-Robin, Raphael Boidol, Font Tian, Paul 2016), 538–547. https://doi.org/10.3758/s13428-016-0722-4 Nechifor, yoonsubKim, Peter, Remi Rampin, Marianne Corvellec, Juan Medi- [7] Bundesministerium des Innern. 2014. Leitfaden Krisenkommunikation. na, Yuchao Dai, Baze Petrushev, Karol M. Langner, Hong, Alessio, Ian Ozsvald, [8] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2019. BERT: vkolmakov, Terry Jones, Eric Bailey, Valentina Rho, IgorAPM, Divakar Roy, Pre-training of Deep Bidirectional Transformers for Language Understanding. Chandler May, foobuzz, Piyush, Low Kian Seong, Jeroen Van Goey, James Se- arXiv:1810.04805 den Smith, Gus, and Feng Mai. 2018. amueller/word_cloud: WordCloud 1.5.0. [9] Ramian Fathi and Frank Fiedrich. 2020. Digital Freiwillige in der Katastro- https://doi.org/10.5281/zenodo.1322068 phenhilfe - Motivationsfaktoren und Herausforderungen der Partizipation. In [34] Hans-Gerrit Möws. 2012. IT - basierte Entscheidungsunterstützung im Bevöl- Mensch und Computer 2020 - Workshopband, Christian Hansen, Andreas Nürn- kerungsschutz. https://www.bbk.bund.de/SharedDocs/Downloads/Kritis/DE/ berger, and Bernhard Preim (Eds.). Gesellschaft für Informatik e.V., Bonn. https: Praxis_BS_Band1.pdf;jsessionid=D956B645539B1C54EABB90A54DB11FF7.1_ //doi.org/10.18420/muc2020-ws117-406 cid355?__blob=publicationFile [10] Ramian Fathi, Stefan Martini, and Frank Fiedrich. 2019. Eine veränderte Kommu- [35] Michael Nentwich. 2003. cyberscience. Wien. http://austriaca.at/cyberscience nikationskultur: Risiko- und Krisenkommunikation und Monitoring mittels sozialer [36] Alexandra Olteanu, Sarah Vieweg, and Carlos Castillo. 2015. What to Expect Medien bei Großveranstaltungen. Springer Fachmedien Wiesbaden, Wiesbaden, When the Unexpected Happens. (2 2015). https://doi.org/10.1145/2675133. 193–210. https://doi.org/10.1007/978-3-658-11725-2_7 2675242 [11] Ramian Fathi, Dennis Thom, Steffen Koch, Thomas Ertl, and Frank Fiedrich. [37] F. Pedregosa, G. Varoquaux, A. Gramfort, V. Michel, B. Thirion, O. Grisel, M. 2020. VOST: A case study in voluntary digital participation for collaborative Blondel, P. Prettenhofer, R. Weiss, V. Dubourg, J. Vanderplas, A. Passos, D. Cour- emergency management. Information Processing Management 57, 4 (2020), 102174. napeau, M. Brucher, M. Perrot, and E. Duchesnay. 2011. Scikit-learn: Machine https://doi.org/10.1016/j.ipm.2019.102174 Learning in Python. Journal of Machine Learning Research 12 (2011), 2825–2830. [12] Luis Fernandez-Luque and Muhammad Imran. 2018. Humanitarian health [38] Daniela Pohl, Abdelhamid Bouchachia, and Hermann Hellwagner. 2013. Social computing using artificial intelligence and social media: A narrative litera- media for crisis management: clustering approaches for sub-event detection. ture review. International Journal of Medical Informatics 114 (6 2018), 136–142. Multimedia Tools and Applications 74, 11 (12 2013), 3901–3932. https://doi.org/10. https://doi.org/10.1016/j.ijmedinf.2018.01.015 1007/s11042-013-1804-2 [13] Frank Fiedrich, Sabine Funk, Simon Runkel, Dennis Vosteen, Johannes Thomann, [39] M. F. Porter. 2006. An algoritm for suffix stripping. Program 14 (7 2006), 130–137. Tim Eikelberg, Gebhard Rusch, Frank Altenbrunn, and Others. 2016. Bausteine https://doi.org/10.1108/00330330610681286 für die Sicherheit von Großveranstaltungen. Vol. 17. Bundesamt für Bevölkerungs- [40] PyMC. [n.d.]. Aseara. https://github.com/pymc-devs/aesara schutz und Katastrophenhilfe. [41] Siyuan Qiu, Binxia Xu, Jie Zhang, Yafang Wang, Xiaoyu Shen, Gerard de Melo, [14] The Apache Software Foundation. 2020. Apache Spark: Lightning-fast unified Chong Long, and Xiaolong Li. 2020. EasyAug: An Automatic Textual Data analytics engine. https://spark.apache.org/ Augmentation Platform for Classification Tasks. (4 2020). https://doi.org/10. [15] Eibe Frank, Mark A. Hall, and Ian H. Witten. 2016. The WEKA Workbench (4 ed.). 1145/3366424.3383552 [16] Ministerium für Inneres und Kommunales des Landes Nordrhein- [42] Andreas Queck and Harald Gonner. 2016. Informationsmanagement im Kri- Westfalen (MIK). 2012. Sicherheit von Großveranstaltungen im senstab. In Handbuch Stabsarbeit. Springer Berlin Heidelberg, 183–190. https: Freien. https://www.im.nrw/sites/default/files/documents/2017- //doi.org/10.1007/978-3-662-48187-5_30 11/grossveranstaltungen_orientierungsrahmen_druckversion.pdf [43] Runqing Rao, Linda Plotnick, and Starr Roxanne Hiltz. 2017. Supporting the [17] Sonali Vijay Gaikwad, Archana Chaugule, and Pramod Patil. 2014. Text Mining Use of Social Media by Emergency Managers: Software Tools to Overcome Methods and Techniques. International Journal of Computer Applications (0975 – Information Overload. In Proceedings of the 50th Hawaii International Conference 8887) 85, 17 (1 2014), 42–45. on System Sciences (2017). Hawaii International Conference on System Sciences. [18] Muhammad Imran, Carlos Castillo, Fernando Diaz, and Sarah Vieweg. 2015. https://doi.org/10.24251/hicss.2017.036 Processing Social Media Messages in Mass Emergency. Comput. Surveys 47, 4 (6 [44] Christian Reuter and Marc-André Kaufhold. 2017. Fifteen years of social media in 2015), 1–38. https://doi.org/10.1145/2771588 emergencies: A retrospective review and future directions for crisis Informatics. [19] Peter Kaiser Johannes Ernesti. 2017. Python 3. Rheinwerk Verlag GmbH. Journal of Contingencies and Crisis Management 26, 1 (9 2017), 41–57. https: [20] Armand Joulin, Edouard Grave, Piotr Bojanowski, and Tomas Mikolov. 2016. Bag //doi.org/10.1111/1468-5973.12196 of Tricks for Efficient Text Classification. [45] Christian Reuter and Thomas Spielhofer. 2017. Towards social resilience: A [21] Marc-André Kaufhold, Markus Bayer, and Christian Reuter. 2020. Rapid relevance quantitative and qualitative survey on citizens’ perception of social media in classification of social media posts in disasters and emergencies: A system and emergencies in Europe. Technological Forecasting and Social Change 121 (2017), evaluation featuring active, incremental and online learning. Information Proces- 168–180. https://doi.org/10.1016/j.techfore.2016.07.038 sing & Management 57, 1 (1 2020). https://doi.org/10.1016/j.ipm.2019.102132 [46] Marko Robnik-Sikonja. 2004. Improving Random Forests. Lect. Notes Comput. [22] Marc-André Kaufhold, Nicola Rupp, Christian Reuter, and Matthias Habdank. Sc., 359–370. https://doi.org/10.1007/978-3-540-30115-8_34 2020. Mitigating information overload in social media during conflicts and [47] Hemlata Sahu, Shalini Shrma, and Seema Gondhalakar. 2011. A Brief Overview on crises: design and evaluation of a cross-platform alerting system. Behaviour & Data Mining Survey. International Journal of Computer Technology and Electronics Information Technology 39, 3 (2020), 319–342. https://doi.org/10.1080/0144929X. Engineering (IJCTEE) 1 (2011), 114–121. Issue 3. 2019.1620334 arXiv:https://doi.org/10.1080/0144929X.2019.1620334 [48] C. Schawel and F. Billing. 2012. Entscheidungsbaum. In Top 100 Management [23] Arvinder Kaur and Inderpreet Kaur. 2018. An empirical evaluation of classification Tools. Gabler Verlag | Springer Fachmedien Wiesbaden. algorithms for fault prediction in open source projects. Journal of King Saud [49] Matthew Taylor, Scott Purdy, breznak, Chetan Surpur, Austin Marshall, David University - Computer and Information Sciences 30, 1 (2018), 2–17. https://doi. Ragazzi, Subutai Ahmad, numenta ci, Andrew Malta, Pascal C. Weinberger, Ak- org/10.1016/j.jksuci.2016.04.002 hila, Marcus Lewis, Richard Crowder, Marion Le Borgne, Yuwei, Christopher [24] Davis E. King. 2009. Dlib-Ml: A Machine Learning Toolkit. J. Mach. Learn. Res. Simons, Ryan J. McCall, Luiz Scheinkman, Mihail Eric, Utensil Song, keithcom, 10 (Dec. 2009), 1755–1758. Nathanael Romano, Sagan Bolliger, vitaly krugl, James Bridgewater, Ian Danforth, [25] Kamran Kowsari, Kiana Jafari Meimandi, Mojtaba Heidarysafa, Sanjana Mendu, Jared Weiss, Tom Silver, David Ray, and zuhaagha. 2018. numenta/nupic: 1.0.5. Laura E. Barnes, and Donald E. Brown. 2019. Text Classification Algorithms: A https://doi.org/10.5281/zenodo.1257382 Survey. CoRR (2019). arXiv:1904.08067 http://arxiv.org/abs/1904.08067 [50] TensorFlow. 2015. TensorFlow: Large-Scale Machine Learning on Heterogeneous [26] Muthu Krishnan. 2018. Understanding the Classification report through sklearn. Systems. Software available from tensorflow.org. https://muthu.co/understanding-the-classification-report-in-sklearn/ [51] Dennis Thom, Harald Bosch, Steffen Koch, Michael Worner, and Thomas Ertl. [27] Socioboard Technologies Pvt Ltd. 2019. Socioboard-4.0. https://github.com/ 2012. Spatiotemporal anomaly detection through visual analysis of geolocated socioboard/Socioboard-4.0 GitHub. Twitter messages. In 2012 IEEE Pacific Visualization Symposium. IEEE. https: [28] Tom Maiaroto. 2016. Social Harvest. https://github.com/SocialHarvest GitHub. //doi.org/10.1109/pacificvis.2012.6183572 [29] Nikolai Manek. 2019. Apphera-core. https://github.com/nikoma/apphera-core [52] Ausschuss Feuerwehrangelegenheiten, Katastrophenschutz und zivile Verteidi- GitHub. gung. 1999. Führung und Leitung im Einsatz: Führungssystem. [30] Elijah Mayfield, David Adamson, and Carolyn P. Rosé. 2014. LightSide: Rese- [53] Martin Welker and Andrea Kloß. 2014. Soziale Medien als Gegenstand und arch Workbench User’s Manual. http://ankara.lti.cs.cmu.edu/side/LightSide_ Instrument sozialwissenschaftlicher Forschung. In Soziale Medien. Springer Researchers_Manual.pdf Fachmedien Wiesbaden, 29–51. https://doi.org/10.1007/978-3-658-05327-7_2 [31] Bjoern H. Menze, B. Michael Kelm, Ralf Masuch, Uwe Himmelreich, Peter Bachert, [54] Frauke Zeller. 2016. Soziale Medien in der empirischen Forschung. In Handbuch Wolfgang Petrich, and Fred A. Hamprecht. 2009. A comparison of random forest Soziale Medien. Springer Fachmedien Wiesbaden, 389–408. and its Gini importance with standard chemometric methods for the feature
Sie können auch lesen