Korpusbasierte Online-Dialoganalyse am Beispiel Twitter
←
→
Transkription von Seiteninhalten
Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten
Korpusbasierte Online-Dialoganalyse am Beispiel Twitter Agnes Mainka Heinrich-Heine-Universität Düsseldorf Institut für Sprache und Information, Abteilung für Informationswissenschaft Universitätsstr. 1, 40225 Düsseldorf agnes.mainka@hhu.de Abstract Dieser Artikel diskutiert das Vorgehen und die Ergebnisse einer Dialoganalyse auf der Microbloggingplattform Twitter. Dialoge werden zum einen durch Metadaten aus der Twitter API und zum andern durch korpuslinguistische Annotation des Machinese Phrase Taggers von Connexor eruiert. Die Ergebnisse der Untersuchungen zeigen, dass die Metainformationen von Twitter Konversationen auffindbar machen können, jedoch sind zusätzliche Informationen nötig, um einen thematischen Dialog aus diesen Konversationen zu filtern. Für diese Problematik wird hier der Vergleich von Nominalphrasen als ein möglicher Lösungsansatz untersucht. Einleitung Die Dialogforschung hat schon in der Antike ihre Wurzeln geschlagen. In der Arbeit „Die Kunst des Gesprächs“ dokumentiert Schmölders (1986) dieses frühe Interesse an dieser Thematik, die sich vornehmlich auf orale Konversation bezogen hat. Heutige Dialogforscher haben es mit weitaus komplexeren Dialogen zu tun, die sich im Onlinebereich quer über verschiedene Medien, wie beispielsweise Chats, Foren oder soziale Netzwerke, verbreiten. Aufgrund dessen hat sich ein unterschiedliches Zusammenwirken von verschiedenen Zeichenmodalitäten entwickelt (Kress, & van Leeuwen, 2001), welche die visuellen, auditiven und audiovisuellen Eigenschaften als zusätzliche Charakteristika der Dialoge als Multimodalität in die Dialogforschung miteinbezieht (Kress, 2009). Die weite Verbreitung von Computern, ob in Form von Smartphones, Tablet PCs, Notebooks oder herkömmlicher Rechner, und die starke Vernetzung über das Internet haben zu einer unendlich großen unstrukturierten Ansammlung von Texten geführt. Mit dem Aufkommen des Web 2.0 wurde es jedem Internetnutzer möglich gemacht, Texte oder andere Medienarten online zu publizieren sowie sich an Online-Dialogen zu beteiligen.
Web 2.0- Angebote wie Facebook 1, Youtube 2 und Twitter erfreuen sich stetig steigender Popularität (Finin, 2010) und sind häufig Untersuchungsgegenstand aktueller Diskursanalysen (Galanova & Sommer, 2011). Im englischsprachigen Raum wurden bereits Versuche unternommen durch manuelle Annotation von Tweets syntaktische und semantische Metainformation zu erschließen (Finin, 2010). In dieser Arbeit wird jedoch untersucht, ob durch bereits vorhandene Parser und den Einsatz regulärer Ausdrücke, Dialoge analysiert werden können. Insbesondere welche Muster solche Online-Dialoge auf der Microbloggingplattform Twitter 3 aufweisen, wenn sie denn welche haben. Dialoge auf Twitter haben die Eigenheit, dass jede Nachricht auf 140 Zeichen beschränkt ist. Vergangene Untersuchungen haben ergeben, dass Twitter am häufigsten für tägliches Geplauder, Konversationen, Informationsaustausch und den Austausch aktueller Nachrichten genutzt wird (Java et al., 2007). Profile auf Twitter werden nicht nur von Privatpersonen angelegt, sondern u. a. auch als Firmenprofile, Nachrichtenticker oder Promiprofile genutzt (Mainka, 2010). Jedoch ist nicht bekannt, wie Konversationen, die über Twitter geführt werden, von Dritten verfolgt werden können, so wie es beispielsweise bei Online-Foren möglich ist. Kann man hier Besonderheiten des Dienstes Twitter erkennen? Ist es möglich, einzelne Dialoge wiederaufzufinden, da sie ein interessantes Thema, ein Produkt oder eine Marke diskutieren? Die Suche nach konkreten Themen oder Produkten kann über die einfache Twittersuche 4 sowie über Drittanbieter wie der Suchmaschine Bing 5 oder Archivierungsdiensten wie YourTwapperKeeper 6 erfolgen. Es ist aber nicht möglich, ein Gespräch darüber hinaus zu verfolgen. In dieser Arbeit wird ein erster Versuch unternommen, Gespräche auf Twitter aus Sicht der Dialogforschung mittels korpuslinguistischer Methoden zu untersuchen. Dabei wird durch Informationsextraktion untersucht, ob Tweets als Teil eines Dialogs aufgrund ihrer sprachlichen, insbesondere syntaktischen Muster (Franke, 2007) identifiziert werden können. Als Schwierigkeit stellt sich hier die oft umgangssprachliche Ausdrucksweise sowie Tippfehler, Abkürzungen, die Verwendung von Emoticons und die Missachtung von Klein- und Großschreibung dar. 1 http://www.facebook.com/ [überprüft am 17.09.2011] 2 http://www.youtube.com/ [überprüft am 17.09.2011] 3 http://twitter.com/ [überprüft am 17.09.2011] 4 http://twitter.com/#!/search-home [überprüft am 17.09.2011] 5 http://www.bing.com/social [überprüft am 17.09.2011] 6 http://your.twapperkeeper.com/ [überprüft am 17.09.2011] 1
Hintergrund der Untersuchung Methodologie In dieser Untersuchung wird auf die Methoden der Korpuslinguistik und die vorausgegangene Forschung der Dialoganalyse aufgebaut. Als Untersuchungsgrundlage wurde ein Korpus mithilfe der Programmiersprache Python erstellt. Python bietet u. a. die Möglichkeiten, sowohl automatisierte Programme zu schreiben, die Daten aus dem Internet lokal in einem beliebigen Dateiformat speichern, als auch die Verarbeitung von Texten mittels regulärer Ausdrücke durchzuführen. Für die Untersuchung wurden über die Twitter API 7 Json-Dateien heruntergeladen, in welchen der Inhalt von Twitterprofilen inklusive der 200 zuletzt geposteten Tweets gespeichert ist. Die weitere Analyse der Tweets wurde mittels automatischer Informationsextraktion selbst geschriebener Pythonprogramme und mit dem Machinese Phrase Tagger von Connexor durchgeführt. Ein für diese Arbeit wichtiges Werkzeug der Korpuslinguistik ist die automatische Annotation von Korpora. Bei der Korpusannotation werden natürlichsprachliche Texte mit verschiedenen Arten von linguistischen Informationen angereichert (McEnery & Wilson, 1996, 24). Darunter versteht man z. B. die Kennzeichnung von Wortarten (Part-of-Speech-Tags), Lemmatisierung oder Stemming zur Bestimmung der Wortstämme, aber auch syntaktische, semantische oder diskursive Informationen. Die Anreicherung von Korpora durch Annotationen basiert auf der Interpretation von Daten und macht implizite Informationen explizit und maschinenlesbar (McEnery 2003). Online-Dialoganalyse Die Dialogforschung im Bereich der Online-Medien ist im Gegensatz zur traditionellen Dialogforschung noch ein sehr junges Terrain. Bisher gibt es nur sehr wenige Forscher, die sich mit den linguistischen Aspekten von Twitter beschäftigen (Jansen, Zhang, Sobel, & Chowdury, 2009; Cheng, Chandramouli, & Subbalakshmi, 2011; Crystal, 2011; Thimm, Dang-Anh, & Einspänner, 2011; Zappavigna, 2011). Online-Medien erweisen sich insbesondere im Web 2.0 als schwierige Datengrundlage für linguistische Analysen, da sie häufig mit Syntax-, Grammatik- und Rechtschreibfehlern übersät sowie durch den Einsatz von Umgangssprache und Neologismen verfälscht werden. Bei der Online-Diskursanalyse nehmen neben dem reinen Text weitere Bestandteile von Nachrichten wie Verlinkungen, Bilder, Audiostücke und Videos eine wichtige Rolle ein (Kress, 2009). Auch beim Microbloggingdienst Twitter werden innerhalb der Textnachrichten Links zu anderen Webseiten oder über Hashtags, Retweet-Markierungen sowie @Mentions Verlinkungen innerhalb von Twitter verwendet, die Einfluss auf die Dialoge nehmen. Kress (2009, 147 f.) bezeichnet dies als 7 https://dev.twitter.com/ [überprüft am 17.09.2011] 2
Zusammenspiel unterschiedlicher semiotischer Ressourcen, die als Ganzes in einem sozialen Kontext verstanden werden. Nach dieser Definition muss ein Text oder in unserem Fall die Nachricht bei Twitter kohärent sein, also einen Sinn ergeben. Ein Dialog zwischen zwei Nutzern auf Twitter kann auch Emoticons oder Kürzel beinhalten, die für außenstehende Nutzer nicht kohärent sind, für Twitternutzer jedoch einen Sinn ergeben. Die Interaktion der Twitternutzer entsteht wie in anderen Internetgemeinschaften durch soziale Bindungen, die durch Freundschaft, Arbeitsgemeinschaft oder Informationsaustausch entstehen (Garton, Haythornthwaite, & Wellman, 1999) und somit zu einer Gemeinschaft führen, die sich untereinander „versteht“. Der Microbloggingdienst Twitter Internetnutzer können auf Twitter einen Micbroblog mit Nutzerprofil anlegen, das minimale Angaben zur Person wie Name, Herkunft, Vorlieben oder Absichten, enthält. Die meisten Microblogs auf Twitter sind öffentlich (Stringhini, Kruegel, & Vigna, 2010). Die Vernetzung mit anderen Nutzern findet über die „Follow“-Funktion statt. Als Twitternutzer kann man den Nachrichten anderer Nutzer folgen und einem kann selbst gefolgt werden. Dem muss der Nutzer, dem gefolgt wird, nicht explizit zustimmen. Die eigentliche Funktion, die Twitter bietet, ist das Verschicken von Kurznachrichten. Die ursprüngliche Intention hinter diesen Kurznachrichten war es, Statusnachrichten zu verfassen, um mit seinen Freunden in Kontakt zu bleiben und sich über aktuelle Ereignisse oder Events zu informieren (Mainka, 2010). Die Nutzung von Twitter hat sich bis heute in sehr vielfältiger Weise ausgeprägt. Es wird weiterhin über private Ereignisse geschrieben oder lokale Nachrichten verkündet. Aber auch politische und gesellschaftliche Diskussionen, Katastrophenmeldungen (Bruns, 2011) oder Veranstaltungen, wie z. B. Konferenzen (Weller, Dröge, & Puschmann, 2011), werden durch ständige Tweets begleitet. Jede Nachricht ist dabei auf maximal 140 Zeichen begrenzt. Das liegt daran, dass die Twitterentwickler die Nutzung von Twitter auch für Handys ermöglichen wollten und eine SMS auf 160 Zeichen begrenzt ist. Die übrigen 20 Zeichen werden für den Nutzernamen freigehalten (O’Reilly, Milstein, & Lang, 2009). Innerhalb der Twittergemeinschaft haben sich einige Konventionen etabliert, die sich zu einer eigenen Syntax entwickelt haben, die mittlerweile von nahezu allen Twitternutzern eingehalten wird. So werden z. B. andere Twitternutzer durch ein vorangeschriebenes „@“ direkt angesprochen, auch @-Mention oder @-Message genannt. Das Thema des Tweets kann durch die Verwendung von Hashtags (#[Thema]) angegeben werden, um so auch besser von anderen Nutzern gefunden werden zu können, die sich zu einem bestimmten Thema austauschen wollen. Hashtags können frei und mehrfach pro Tweet vergeben werden. Es gibt auch eine Art Zitierfunktion, die bei Twitter als „Retweet“ bezeichnet wird und durch ein „RT @[Benutzername]“ zu Beginn des Tweets oder ein via [Benutzername] zum Ende des Tweets markiert wird (Abbildung 1). 3
In dieser Arbeit werden insbesondere die Tweets untersucht, die als Dialog zwischen einem und mehr Twitternutzern definiert werden können. Hier kann man sich auf die Tweets konzentrieren, die durch eine @Mention kenntlich machen, dass diese Nachricht an einen anderen Nutzer gerichtet wird (Abbildung 2). Jedoch gibt es auch Fälle in denen ein „@“ für die Markierung von anderen Nutzern in einem Tweet verwendet wird, um diesen beispielweise mit diesem Tweet zu verlinken, ohne dadurch einen initiativen Dialogakt auslösen zu wollen (Abbildung 3). Twitternutzer 1 Abbildung 1: Tweet eines Nutzers, der einen anderen Nutzer zitiert (retweetet), vom 13.06.2011. Twitternutzer 2 Abbildung 2: Tweet eines Nutzers, der eine Nachricht an „@_konna“ richtet, vom 31.08.2011. Twitternutzer 3 Abbildung 3: Tweet eines Nutzers, der über einen anderen Nutzer (@TomArnold) spricht, vom 15.09.2011. Dialoganalyse bei Twitter Um die Gespräche bei Twitter zu analysieren, muss zunächst betrachtet werden, wie ein „normales“ Gespräch bei Twitter aussieht, wenn es so etwas überhaupt gibt. Twitter ist nicht auf die Nutzung als Gesprächsraum ausgelegt, wird von seinen Nutzern dennoch immer wieder als solcher genutzt. Nachrichten, auch Posts genannt, die auf Twitter veröffentlicht werden, können verschiedener Art sein. Nicht jede Nachricht auf Twitter bedingt eine Reaktion oder eine Antwort anderer Nutzer. Jedoch kann jeder auf einen gelesenen Tweet reagieren, was wiederum zu einem Dialog führen kann. Ein Problem der Dialoganalyse bei Twitter ist, dass ein Dialog nicht immer mit einer @Mention beginnt. Dies gestaltet das Aufspüren solcher Dialoge natürlich schwieriger. Da diese Arbeit die Absicht verfolgt, eine Einschätzung der Dauer von Gesprächen, die Anzahl der Turns sowie die Anzahl der Gesprächsteilnehmer zu eruieren und aus diesen Dialogen sprachliche Muster zu erkennen, wird hier darauf hingewiesen, dass Nachrichten ohne eine @Mention zunächst nicht berücksichtigt werden. 4
Korpuserstellung Bei der Erstellung eines Korpus, der Daten aus dem Bereich der Online-Medien beinhaltet, ist das Archivieren der Texte auf lokalen Datenträgern nötig (Fraas & Pentzold, 2008). Online-Texte sind im Web nicht dauerhaft archiviert oder im Nachhinein gut auffindbar. Daher sollte sobald die zu untersuchende Thematik ausgewählt ist, eine lokale Speicherung der Daten begleitend zum Diskurs vorgenommen werden (Meier, 2008, 229). Als Schwierigkeit bei der Erstellung von Korpora aus Online-Medien ergeben sich einige Probleme gegenüber der reinen Textanalyse. Fraas und Pentzold (2008) betonen, dass Texte in Online- Diskursen von Verlinkungen, visuellen und akustischen Elemente ergänzt werden. Sie sind daher dynamischer Natur und lassen sich nicht durch eine einfache Speicherung der Texte wiederspiegeln. Erst ihre Gesamtheit bildet den Kontext, den es zu erfassen gilt. Ein weiteres Problem ist, dass Online-Dialoge sich nicht auf eine Plattform beschränken, sondern durch Verlinkungen auf weitere Webseiten verweisen können, wo die Gespräche fortgesetzt oder durch weitere Dialogteilnehmer erweitert werden (Fraas & Pentzold, 2008). So kann ein Gespräch z. B. auf Twitter beginnen. Der erste Sprecher (Textverfasser) hat eine Nachricht öffentlich an eine zweite Person gerichtet. Zudem hat die erste Person ein Facebookprofil, das mit seinem Twitterprofil verknüpft ist. Somit können alle, die mit dieser ersten Person auf Facebook befreundet sind oder ihm bei Twitter folgen, diese Nachricht an die zweite Person mitlesen. Person zwei kann auf die Nachricht an Person eins nun sowohl über Twitter als auch über Facebook antworten, vorausgesetzt er liest diese Nachricht und besitzt ebenfalls ein Twitter- und Facebookprofil. Die Analyse in dieser Arbeit wird diese Probleme jedoch nicht weiter diskutieren, da hier das Ziel ist, die reinen textbasierten Dialoge auf Twitter zu untersuchen. Bei Twitter besteht die Möglichkeit über die API, Tweets abzurufen. In dieser Analyse wurden die Tweets über die Timelines der Nutzer gespeichert. Die Timelines enthalten neben der Textnachricht u. a. Informationen zum Nutzer und zum Zeitpunkt, wann ein Tweet geschrieben wurde. Die API beschränkt das Herunterladen der Tweets aus einer Timeline auf maximal 200 Nachrichten und erlaubt nur maximal 100 Anfragen in einer Stunde. Für die Erstellung des Korpus wurden 20 deutschsprachigeTwitternutzer als „Startnutzer“ festgelegt (zufällige Auswahl). Ausgehend von diesen 20 Nutzern wurde ein erster Teil des Korpus erstellt, der die Timelines der Twitternutzer im Zeitraum vom 29. bis 31. August 2011 enthält. Die darin enthaltenen Tweets wurden nach Gesprächspartnern durchsucht. Dies kann in Twitter relativ leicht erfolgen, da hier die gängige Syntax den Nutzern vorgibt, ein „@“ als Adressangabe an andere Nutzer zu verwenden. Somit wurden alle Nutzernamen, die mit einem vorausgehenden „@“ markiert sind, separat gespeichert. Hieraus entstand eine Auflistung aller Nutzer, die von den 20 Startnutzern direkt angesprochen wurden. In 5
einem weiteren Schritt wurden die Timelines dieser „direkt angesprochenen Nutzer“ ebenfalls heruntergeladen, um das Gespräch zwischen ihnen und den Startnutzern verfolgen zu können. Im Folgenden soll ein Überblick über das genaue Vorgehen der Korpuserstellung gegeben werden: 1. 31.08.2011: Download der Timelines der ersten 20 Nutzer. 2. 31.08.2011: Speicherung der Tweets vom 29.8. bis 31.8. 3. 31.08.2011: Herausfiltern aller @Mentions aus dem Tweetbestand. 4. 31.08.2011: Download aller Timelines der @Mentions. 5. 31.08.2011: Wiederholung der Schritte 3 und 4 (viermal). 6. 02.09.2011: Aktualisierung der vorhandenen Timelines. 7. 05.09.2011: Aktualisierung der vorhandenen Timelines. Tabelle 1: Vorgehen bei der Korpuserstellung. Nach diesem Durchlauf standen 241 Timelines zur Verfügung. Aus den gespeicherten Timelines sollen die Gespräche der Nutzer untersucht werden. Es werden dabei nur die Tweets berücksichtigt, die zwischen Montag dem 29. August 2011 und Sonntag dem 4. September 2011 öffentlich gepostet worden sind und sich an einen anderen Nutzer richten, dessen Timeline ebenfalls gespeichert wurde. Zum Untersuchungsgegenstand zählen hier alle Tweets, die mindestens eine @Mention an einen anderen Nutzer enthalten. Ausgenommen werden hier Retweets. Somit können die Timelines um alle Nachrichten ohne @Mention oder mit „RT @[Benutzername]“ gekürzt werden: Anzahl aller gespeicherten Tweets 28.937 100% ─ Ohne @Mention (aber mit „RT @...“) 10.722 37% = Tweets mit @Mention (ohne RT) 18.215 63% ─ Tweets, die an User gerichtet wurden, dessen Timelines nicht gespeichert wurden 12.645 44% = Tweets mit @Mention, die sich min. an einen der 241 gespeicherten Nutzer richteten 5.570 19% Tabelle 2: Vorgehen zur Bereinigung des Korpus von nicht relevanten Tweets. Maschinelle Extraktion von Dialogen Es gibt verschiedene Möglichkeiten, Dialoge in Twitter zu extrahieren. Zum Erstellen der Korpora wurden die Timelines der Twitternutzer, die miteinander kommuniziert haben (wie zuvor erläutert), als Json-Datei gespeichert. Die Json-Datei enthält neben den geposteten Tweets ebenfalls die 6
Information, auf welchen Tweet sich eine @Mention bezieht. Diese Information wird in „in_reply_to_status_id“ gespeichert. Um erste Muster und Regelmäßigkeiten von Dialogen auf Twitter zu analysieren, werden die Dialoge untersucht, die durch „in_reply_to_status_id“ als Antwort auf einen vorherigen Tweet markiert sind und nur eine @Mention enthalten. Alle Nachrichten, die genau eine @Mention enthalten: 4.915 Alle Nachrichten, die einen Wert in „in_reply_to_status_id“ enthalten: 4.557 Tabelle 3: Anzahl der Nachrichten mit genaue einer @Mention und Anzahl der Nachrichten mit Angaben zu „in_reply_to_status_id“. Für die maschinelle Auswertung von Dialogen aus den gespeicherten Twitter-Timelines wurden folgende Werte aus der Json Datei berücksichtigt: Bezeichnung in der Json Bedeutung Datei (Twitter-Timeline) „screen_name“ Enthält den Benutzernamen des Nutzers, der den Tweet verfasst hat. (Jeder Benutzername ist eindeutig, da er nur einmal an einen Benutzer vergeben wird) „id“ Enthält eine eindeutige ID, die jedem Tweet zugeordnet wird. „text“ Enthält den Text des Tweets. „created_at“ Enthält das Datum, an dem der Tweet gepostet wurde. „in_reply_to_status_id“ Enthält die ID des Tweets auf den der Text Bezug nimmt. „in_reply_to_screen_name“ Enthält den Benutzernamen des Nutzers, auf den der Text Bezug nimmt. Tabelle 4: Bezeichnung und Bedeutung der genutzten Daten aus der Json-Timeline-Datei. Im Nächsten Schritt wurden alle Tweets, die genau eine @Mention im Text haben in einer Datei aufsteigend nach der „id“ gespeichert. In dieser Datei wurden dann Dialogketten nach folgendem Schema gesucht: Abbildung 4: Schema zur Identifizierung von Dialogketten. Insgesamt wurden so 896 Dialogketten gefunden. 1887 der Tweets konnten nicht über „in_reply_to_status_id“ als Teildialog zu einem anderen Tweet zugeordnet werden. Die Zuordnung der Tweets zu einem Dialog über die „in_reply_to_status_id“ hat in einer stichprobenartigen 7
Untersuchung von 50 Dialogketten eine 100-prozentige Treffsicherheit bewiesen. Problem der Angaben unter „in_reply_to_status_id“ ist, dass diese nur funktionieren, wenn sich der Tweet genau an einen Nutzer richtet (also nur eine @Mention enthalten ist). Sobald zwei Nutzer in einem Tweet über eine @Mention angesprochen werden, wird kein Wert gespeichert. Ein weiteres Problem entsteht dadurch, dass sich eine Nachricht, in der eine @Mention verwendet wird, auf eine zuvor geschriebene Nachricht beziehen kann, die keine @Mention enthält und somit hier nicht berücksichtigt wurde. Zeitlicher Abstand zwischen den Tweets in einem Dialog Anzahl der Anzahl der Zeitlicher Abstand Zeitlicher Abstand zwischen dem Dialogketten Turns im zwischen den Tweets im ersten und letzten Tweet aus einer Mittel Mittel (in Minuten) Dialogkette (in Minuten) 896 3,4 18 50 Anzahl der Gegliedert Zeitlicher Abstand Zeitlicher Abstand zwischen dem Dialogketten nach zwischen den Tweets im ersten und letzten Tweet aus einer Turnanzahl Mittel (in Minuten) Dialogkette (in Minuten) 1 24 7 160 1 23 7 158 1 16 3 41 2 13 5 63 1 12 2 27 7 11 3 29 5 10 3 31 6 9 2 16 15 8 2 17 30 7 6 33 37 6 3 16 60 5 4 16 107 4 4 11 220 3 6 11 403 2 6 6 Tabelle 5: Auswertung der Dialogketten in Bezug auf den zeitlichen Abstand der einzelnen Turns und des Dialogs insgesamt. Die Auswertung hat ergeben, dass die längste gefundene Dialogkette 24 Turns hat, wobei hier jeweils ein Tweet mit einem Turn gleichgestellt wird. Die durchschnittliche Anzahl der Turns einer Dialogkette beträgt 3,4 (Tabelle 5). In 14 der 896 Dialogketten haben sich drei Twitternutzer an einem Dialog beteiligt. In allen anderen haben sich jeweils zwei beteiligt. Wie Tabelle 5 zeigt, kann kein direkter Zusammenhang zwischen der Anzahl der Turns in einem Dialog und des zeitlichen Abstandes dieser gefunden werden. Jedoch zeigt sich, dass viele der Dialoge innerhalb weniger Minuten ablaufen, so dass ein Turnwechsel durchschnittlich zwischen zwei und sieben Minuten benötigt. Die schnellste Antwort auf einen Tweet wurde innerhalb von 8 Sekunden verfasst. Die späteste Antwort wurde erst nach einer Woche geschrieben. Tweets, die mit 8
einer @Mention beginnen, können von den genannten Nutzern in einer separaten Ansicht aufgerufen werden. So kann ein Nutzer auch nach längerer Zeit auf eine @-Nachricht antworten. Durchschnittlich betrachtet werden Dialoge innerhalb von 50 Minuten geführt. Betrachtet man die zeitlichen Abstände von antwortenden Tweets in verschiedenen Zeitintervallen, wie in Diagramm 1, so ist zu erkennen, dass die meisten Antworten in kurzer Zeit geschrieben werden. Die Verteilung zeigt, dass nur in sehr wenigen Fällen (0,5 %) auf einen Tweet geantwortet wird, der älter als 12 Stunden ist. 91,7 % der Antworten werden innerhalb von 30 Minuten geschrieben. 74,5 % der hier untersuchten Twitternutzer antworteten sogar in weniger als fünf Minuten. Diagramm 1: Zeitlicher Abstand von Antwort-Tweets. Phrasenanalyse In einem nächsten Schritt sollen die 896 gefundenen Dialoge aus Tabelle 5 als Grundlage für die sprachliche Untersuchung des Korpus dienen. Mittels des Machinese Phrase Taggers werden die Tweets mit syntaktischen und morphologischen Informationen annotiert. Der annotierte Korpus wird entweder als Mpt- oder Xml-Datei zurückgegeben. Im Weiteren wurde mit der Mpt-Datei gearbeitet. Die Analyse von Phrasen bietet sich bei der Untersuchung von Tweets besonders an, weil die geschriebenen Texte eher mündlichen Dialogen entsprechen und nicht immer wohlgeformte Sätze bilden. Darüber hinaus wird weniger Wert auf die Verwendung von Satzzeichen gelegt und, wie bereits erwähnt, kann jede Nachricht nur aus 140 Zeichen bestehen. 9
Bevor jedoch die Tweets durch den Machinese Phrase Tagger annotiert werden konnten, mussten Sonderzeichen oder Zeichenketten, die oft für die Erstellung von Emoticons verwendet werden, gelöscht werden. Dies erlaubt eine genauere Annotation der Phrasen, führt aber dazu, dass Tweets, die nur aus Emoticons bestehen, nicht erfasst werden können. Die Phrasenanlyse wurde auf Grundlage der deutschen Sprache durchgeführt. Das kann dazu führen, dass Tweets, die nicht auf Deutsch verfasst worden sind, falsch interpretiert werden. Der größte Teil des Korpus besteht jedoch aus deutschsprachigen Tweets. Beispiel für eine solche Annotation: Twitternutzer 1 Abbildung 5: Tweet als Textstring. Tweet mit Annotation: token len text lemma syntax morpho form time noun phrase 1462216 7 grenzen grenzen @MAIN V INF 1462224 3 los los @ADVL ADV 1462228 3 ich ich @NH PRON 1462232 4 frag fragen @MAIN V IMP 1462237 4 mich ich @NH PRON 1462242 3 bis bis @PREMARK CS 1462246 5 heute heute @ADVL ADV 1462252 3 wie wie @PREMARK PREP 1462256 2 du du @NH PRON 1462259 4 dein dein @PREMOD PRON 1462264 3 Abi Abi @NH N Prop NP-Single 1462268 9 geschafft schaffen @MAIN V PCP PERF 1462278 4 hast haben @MAIN V IND PRES Tabelle 6: Ausgabe des Machinese Phrase Taggers von Connexor. Wie Tabelle 6 zeigt, werden nicht alle Zeichenfolgen richtig annotiert. So wurde der angesprochene Benutzername „@grenzen_los“ nicht als Name erkannt, sondern in zwei Teilen analysiert. Um in der folgenden Analyse die Phrasen auch manuell kontrollieren zu können, werden nur die 804 Tweets untersucht, die in den Ketten mit zwei Turns enthalten waren. Zwei Tweets wurden entfernt, da sie nur aus Emoticons bestanden. 10
Um herauszustellen, ob sich Dialoge zu einem beliebigen Thema aus diesem Untersuchungskorpus eruieren lassen, werden im Folgenden die Nominalphrasen (NP) und die darin enthaltenen Nominalköpfe (NH, Nominal Head) näher betrachtet. Diagramm 2: Anzahl der Nominalphrasen in einem Tweet. Diagramm 3: Anzahl der Nominalköpfe in einem Tweet. Die Untersuchung hat ergeben, dass nur in 64 % der 804 Tweets mindestens eine NP gefunden wurde. Die Verteilung aus Diagramm 2 zeigt, dass 48 % zwischen ein bis zwei NPs und zu 78 % zwischen ein und fünf NPs haben. Tweets mit mehr als fünf NPs kommen in weniger als 3 % der Tweets vor. In Diagramm 3 wird die Anzahl der Nominalköpfe in einem Tweet dargestellt. Hier ist deutlich zu erkennen, dass in über 320 Tweets (40,8 %) 16 NHs annotiert wurden. In 33 Fällen der untersuchten Tweets konnte kein NH gefunden werden. 11
Für die weitere Untersuchung werden nur die Nominalköpfe betrachtet, die innerhalb des Tweets auch als Teil einer Nominalphrase durch den Machinese Phrase Tagger annotiert wurden. Dies soll vermeiden, dass zu allgemeine NHs in die Analyse einfließen. Des Weiteren wurden NHs ausgeschlossen, die keinen thematischen Bezug liefern, da sie entweder falsch interpretiert worden sind oder durch die Twittersyntax, wie die Nennung des Nutzernamens oder die Verwendung von Hashtags, ebenfalls vom Phrase Tagger nicht richtig erkannt werden. Für die Suche nach Dialogen wurden die 402 Dialogketten, die genau zwei Turns enthalten, unter Berücksichtigung ihrer Nominalphrasen und der darin enthaltenen Nominalköpfe gegenübergestellt. Für jeden initialen Tweet wurden die so gefilterten Nominalköpfe (in lemmatisierter Form) mit den Nominalköpfen des antwortenden Tweets verglichen. Von der Nominalkopfuntersuchung wurden folgende Nominalköpfe ausgeschlossen: @Mention 415 #Hashtag 12 Urls (http://...) 21 + 2 % 2 Tabelle 7: Annotierte Nominalköpfe, die von der Untersuchung ausgeschlossen werden. Abbildung 6: Auswertung des Vergleichs von Nominalköpfen. 12
Das Ergebnis dieser Untersuchung zeigt, dass in 10,7 % der 402 Dialogketten eine Übereinstimmung von Nominalköpfen gefunden wurde (Abbildung 6). Somit kann der größte Teil des untersuchten Korpus nicht durch diese Methode als Dialog definiert werden. Diese niedrige Trefferquote könnte damit zusammenhängen, dass viele Tweets „Geplauder“ sind (Java et al., 2007). Initiale Tweets, die kein „Thema“ haben, können demnach auch nicht thematisch passend beantwortet werden. Ein anderer Grund könnte sein, dass die @-Funktion auf Twitter nicht ausschließlich für @-Nachrichten genutzt wird und ein Dialog auch nicht immer der Intention des Tweet-Verfassers entspricht. Die meisten Tweets in diesem Korpus sind jedoch klar als Konversation zu verstehen, da sie zu über 90 % innerhalb von 30 Minuten eine Reaktion durch eine „antwortende“ @-Nachricht erhalten. Fazit In dieser Arbeit wurde eine korpusbasierte Dialoganalyse für die Microbloggingplattform Twitter durchgeführt. Twitternutzer nutzen den Microblog in vielfältiger Weise und u. a. auch um mit anderen Nutzern in einen Dialog zu treten (Java et al., 2007). Dialoge können dabei jegliche Themen behandeln. Für die Dialogforschung ist es interessant, Muster und Strukturen in diesen Dialogen zu erkennen, die zur Erschließung von Dialoggrammatiken führen (Franke, 2000). In dieser Arbeit wurde eine Dialoganalyse mittels Informationsextraktion durchgeführt. Da hier ein Tweet mit einem Turn gleichgesetzt wurde, kam die Besonderheit hinzu, dass jeder Turn eine maximale Länge von 140 Zeichen haben kann. Der erste Teil der Analyse hat Dialoge anhand der Metainformationen, die über die Twitter API abgerufen werden können, gefiltert. Hier konnten die Tweets untersucht werden, die genau eine @Mention enthalten. Ausgehend hiervon wurde gezeigt, dass es möglich ist, Dialogketten über den „reply_to_status_id“-Wert zu eruieren. Die weitere Betrachtung der Nominalköpfe innerhalb der Dialog-Tweets hat gezeigt, dass nur 10 % der Twitternachrichten, die mit dem „reply_to_status_id“-Wert deklariert werden, einen gleichen Nominalkopf besitzen. Auch wenn hier lemmatisierte Formen miteinander verglichen werden, könnte durch eine semantische oder ontologiebasierte Methode ein besseres Ergebnis erzielt werden. Da die Untersuchung von Online-Daten die im Web 2.0 durch die Verwendung von Umgangssprache, Anglizismen, Neologismen und insbesondere durch Schreibfehler viele Schwierigkeiten mit sich bringt, können durch die hier durchgeführte computergestützte Analyse nur erste Erkenntnisse und Einschätzungen gegeben werden. In der weiteren Verwendung des hier erstellten Korpus könnte eine semantische Untersuchung unternommen werden, die sich mit den inhaltlichen Strukturen der jeweiligen Dialoge befasst. 13
Literaturverzeichnis Bruns, A. (2011). Towards Distributed Citizen Participation. Lessons from WikiLeaks and the Queensland Floods. In P. Parycek, M. J. Kripp, & N. Edelmann (Hrsg.), CeDEM11, Proceedings of the International Conference for E-Democracy and Open Government, Krems, Austria, 5-6 Mai, 2011, 35- 52. Krems: Edition Donau-Universität. Cheng, N., Chandramouli, R., & Subbalakshmi, K. P. (2011). Author gender identification from text. Digital Investigation, 8(1), 78-88. Crystal, D. (2011). Internet Linguistics. New York, NY: Routledge. Finin, T., Murnane, W., Karandikar, A., Keller, N., Martineau, J., & Dredze, M. (2010). Annotating named entities in Twitter data with crowdsourcing. In Association for Computational Linguistics (Hrsg.), Proceedings of the NAACL Workshop on Creating Speech and Text Language Data With Amazon's Mechanical Turk, Stroudsburg, USA, 80-88. Fraas, C., & Pentzold, C. (2008). Online-Diskurse – Theoretische Prämissen, methodische Anforderungen und analytische Befunde. In I. H. Warnke & J. Spitzmüller (Hrsg.), Methoden der Diskurslinguistik. Sprachwissenschaftliche Zugänge zur transtextuellen Ebene (S. 291-326). Franke, W. (2000). Konzepte linguistischer Dialogforschung. In K. Brinker (Hrsg.), Text- und Gesprächslinguistik. Ein internationales Handbuch zeitgenössischer Forschung (S. 346-362). Berlin, DE: Walter de Gruyter. Galanova, O., & Sommer, V. (2011). Neue Forschungsfelder im Netz. Erhebung, Archivierung und Analyse von Online-Diskursen als digitale Daten. In S. Schomburg, C. Leggewie, H. Lobin & C. Puschmann (Hrsg.), Digitale Wissenschaft: Stand und Entwicklung digital vernetzter Forschung in Deutschland (S. 89-97). Köln, DE: HBZ. Garton, L., Haythornthwaite, C., & Wellman, B. (1999). Studying On-Line Social Networks. In S. Jones (Hrsg.), Doing Internet Research: Critical Issues and Methods for Examining the Net (S. 75-105). Thousand Oaks, CA: SAGE Publications, Inc. Jansen, B. J., Zhang, M., Sobel, K., & Chowdury, A. (2009). Twitter power: Tweets as electronic word of mouth. Journal of the American Society for Information Science and Technology, 60(11), 2169- 2188. Java, A., Song, X., Finin, T., & Tseng, B. (2007). Why we twitter: Understanding microblogging usage and communities. In Proceedings of the 9th WebKDD and 1st SNA-KDD 2007 Workshop on Web Mining and Social Network Analysis at ACM SIGKDD, San Jose, California (S. 56-65). New York, NY: ACM. Kress, G. R. (2009). Multimodality: a social semiotic approach to contemporary communication. London, GB: Taylor & Francis. Kress, G. R., & van Leeuwen, T. (2001). Multimodal discourse. The modes and media of 14
contemporary communication. London, GB: Arnold. Mainka, A. (2010). Twitter: „Gezwitscher“ oder gezielte Informationsvermittlung? Information, Wissenschaft & Praxis, 61(2), 77-82. McEnery, T. (2003). Corpus Linguistics. In R. Mitkov (Hrsg.), The Oxford Handbook of Computational Linguistics. Oxford Handbooks in Linguistics (S. 448–463). Oxford: Oxford University Press. McEnery, T., & Wilson, A. (1996). Corpus Linguistics. Edinburgh: Edinburgh University Press. Meier, S. (2008). (Bild-)Diskurs im Netz. Konzept und Methode für eine semiotische Diskursanalyse im World Wide Web. Köln, DE: Halem. O’Reilly, T., Milstein, S., & Lang, J. W. (2009). Das Twitter-Buch. Köln, DE: O’Reilly Verlag. Schmölders, C. (1986). Die Kunst des Gesprächs. München, DE: Deutscher Taschenbuchverlag. Stringhini, G., Kruegel, C., & Vigna, G. (2010). Detecting spammers on social networks. In Proceedings of the 26th Annual Computer Security Applications Conference on - ACSAC ’10 . Thimm, C., Dang-Anh, M., & Einspänner, J. (2011). Diskurssystem Twitter: Semiotische und handlungstheoretische Perspektiven. In M. Anastasiadis & C. Thimm (Hrsg.), Social Media – Theorie und Praxis digitaler Sozialität (S. 265-286). Frankfurt/New York: Peter Lang (i.Dr.). Weller, K., Dröge, E., & Puschmann, C. (2011). Citation Analysis in Twitter: Approaches for Defining and Measuring Information Flows within Tweets during Scientific Conferences. In M. Rowe, M. Stankovic, A. Dadzie, & M. Hardey (Hrsg.), CEUR Workshop Proceedings Vol. 718. (S. 1-12). Crete, Greece. Zappavigna, M. (2011). Ambient affiliation: A linguistic perspective on Twitter. New Media & Society, 13(5), 788 -806. 15
Sie können auch lesen