Korpusbasierte Online-Dialoganalyse am Beispiel Twitter

Die Seite wird erstellt Niko-Veit Hiller
 
WEITER LESEN
Korpusbasierte Online-Dialoganalyse am
Beispiel Twitter
                                           Agnes Mainka
                                Heinrich-Heine-Universität Düsseldorf
            Institut für Sprache und Information, Abteilung für Informationswissenschaft
                                 Universitätsstr. 1, 40225 Düsseldorf
                                       agnes.mainka@hhu.de

Abstract
Dieser Artikel diskutiert das Vorgehen und die Ergebnisse einer Dialoganalyse auf der
Microbloggingplattform Twitter. Dialoge werden zum einen durch Metadaten aus der Twitter API
und zum andern durch korpuslinguistische Annotation des Machinese Phrase Taggers von Connexor
eruiert. Die Ergebnisse der Untersuchungen zeigen, dass die Metainformationen von Twitter
Konversationen auffindbar machen können, jedoch sind zusätzliche Informationen nötig, um einen
thematischen Dialog aus diesen Konversationen zu filtern. Für diese Problematik wird hier der
Vergleich von Nominalphrasen als ein möglicher Lösungsansatz untersucht.

Einleitung
Die Dialogforschung hat schon in der Antike ihre Wurzeln geschlagen. In der Arbeit „Die Kunst des
Gesprächs“ dokumentiert Schmölders (1986) dieses frühe Interesse an dieser Thematik, die sich
vornehmlich auf orale Konversation bezogen hat. Heutige Dialogforscher haben es mit weitaus
komplexeren Dialogen zu tun, die sich im Onlinebereich quer über verschiedene Medien, wie
beispielsweise Chats, Foren oder soziale Netzwerke, verbreiten. Aufgrund dessen hat sich ein
unterschiedliches Zusammenwirken von verschiedenen Zeichenmodalitäten entwickelt (Kress, & van
Leeuwen, 2001), welche die visuellen, auditiven und audiovisuellen Eigenschaften als zusätzliche
Charakteristika der Dialoge als Multimodalität in die Dialogforschung miteinbezieht (Kress, 2009).
Die weite Verbreitung von Computern, ob in Form von Smartphones, Tablet PCs, Notebooks oder
herkömmlicher Rechner, und die starke Vernetzung über das Internet haben zu einer unendlich
großen unstrukturierten Ansammlung von Texten geführt. Mit dem Aufkommen des Web 2.0 wurde
es jedem Internetnutzer möglich gemacht, Texte oder andere Medienarten online zu publizieren
sowie sich an Online-Dialogen zu beteiligen.
Web 2.0- Angebote wie Facebook 1, Youtube 2 und Twitter erfreuen sich stetig steigender Popularität
(Finin, 2010) und sind häufig Untersuchungsgegenstand aktueller Diskursanalysen (Galanova &
Sommer, 2011). Im englischsprachigen Raum wurden bereits Versuche unternommen durch
manuelle Annotation von Tweets syntaktische und semantische Metainformation zu erschließen
(Finin, 2010). In dieser Arbeit wird jedoch untersucht, ob durch bereits vorhandene Parser und den
Einsatz regulärer Ausdrücke, Dialoge analysiert werden können. Insbesondere welche Muster solche
Online-Dialoge auf der Microbloggingplattform Twitter 3 aufweisen, wenn sie denn welche haben.
Dialoge auf Twitter haben die Eigenheit, dass jede Nachricht auf 140 Zeichen beschränkt ist.
Vergangene Untersuchungen haben ergeben, dass Twitter am häufigsten für tägliches Geplauder,
Konversationen, Informationsaustausch und den Austausch aktueller Nachrichten genutzt wird (Java
et al., 2007). Profile auf Twitter werden nicht nur von Privatpersonen angelegt, sondern u. a. auch als
Firmenprofile, Nachrichtenticker oder Promiprofile genutzt (Mainka, 2010). Jedoch ist nicht bekannt,
wie Konversationen, die über Twitter geführt werden, von Dritten verfolgt werden können, so wie es
beispielsweise bei Online-Foren möglich ist. Kann man hier Besonderheiten des Dienstes Twitter
erkennen? Ist es möglich, einzelne Dialoge wiederaufzufinden, da sie ein interessantes Thema, ein
Produkt oder eine Marke diskutieren? Die Suche nach konkreten Themen oder Produkten kann über
die einfache Twittersuche 4 sowie über Drittanbieter wie der Suchmaschine Bing 5 oder
Archivierungsdiensten wie YourTwapperKeeper 6 erfolgen. Es ist aber nicht möglich, ein Gespräch
darüber hinaus zu verfolgen.
In dieser Arbeit wird ein erster Versuch unternommen, Gespräche auf Twitter aus Sicht der
Dialogforschung mittels korpuslinguistischer Methoden zu untersuchen. Dabei wird durch
Informationsextraktion untersucht, ob Tweets als Teil eines Dialogs aufgrund ihrer sprachlichen,
insbesondere syntaktischen Muster (Franke, 2007) identifiziert werden können. Als Schwierigkeit
stellt sich hier die oft umgangssprachliche Ausdrucksweise sowie Tippfehler, Abkürzungen, die
Verwendung von Emoticons und die Missachtung von Klein- und Großschreibung dar.

1
  http://www.facebook.com/ [überprüft am 17.09.2011]
2
  http://www.youtube.com/ [überprüft am 17.09.2011]
3
  http://twitter.com/ [überprüft am 17.09.2011]
4
  http://twitter.com/#!/search-home [überprüft am 17.09.2011]
5
  http://www.bing.com/social [überprüft am 17.09.2011]
6
  http://your.twapperkeeper.com/ [überprüft am 17.09.2011]
                                                                                                     1
Hintergrund der Untersuchung

Methodologie
In dieser Untersuchung wird auf die Methoden der Korpuslinguistik und die vorausgegangene
Forschung der Dialoganalyse aufgebaut. Als Untersuchungsgrundlage wurde ein Korpus mithilfe der
Programmiersprache Python erstellt. Python bietet u. a. die Möglichkeiten, sowohl automatisierte
Programme zu schreiben, die Daten aus dem Internet lokal in einem beliebigen Dateiformat
speichern, als auch die Verarbeitung von Texten mittels regulärer Ausdrücke durchzuführen. Für die
Untersuchung wurden über die Twitter API 7 Json-Dateien heruntergeladen, in welchen der Inhalt von
Twitterprofilen inklusive der 200 zuletzt geposteten Tweets gespeichert ist. Die weitere Analyse der
Tweets wurde mittels automatischer Informationsextraktion selbst geschriebener Pythonprogramme
und mit dem Machinese Phrase Tagger von Connexor durchgeführt. Ein für diese Arbeit wichtiges
Werkzeug der Korpuslinguistik ist die automatische Annotation von Korpora. Bei der
Korpusannotation werden natürlichsprachliche Texte mit verschiedenen Arten von linguistischen
Informationen angereichert (McEnery & Wilson, 1996, 24). Darunter versteht man z. B. die
Kennzeichnung von Wortarten (Part-of-Speech-Tags), Lemmatisierung oder Stemming zur
Bestimmung der Wortstämme, aber auch syntaktische, semantische oder diskursive Informationen.
Die Anreicherung von Korpora durch Annotationen basiert auf der Interpretation von Daten und
macht implizite Informationen explizit und maschinenlesbar (McEnery 2003).

Online-Dialoganalyse
Die Dialogforschung im Bereich der Online-Medien ist im Gegensatz zur traditionellen
Dialogforschung noch ein sehr junges Terrain. Bisher gibt es nur sehr wenige Forscher, die sich mit
den linguistischen Aspekten von Twitter beschäftigen (Jansen, Zhang, Sobel, & Chowdury, 2009;
Cheng, Chandramouli, & Subbalakshmi, 2011; Crystal, 2011; Thimm, Dang-Anh, & Einspänner, 2011;
Zappavigna, 2011). Online-Medien erweisen sich insbesondere im Web 2.0 als schwierige
Datengrundlage für linguistische Analysen, da sie häufig mit Syntax-, Grammatik- und
Rechtschreibfehlern übersät sowie durch den Einsatz von Umgangssprache und Neologismen
verfälscht werden.
Bei der Online-Diskursanalyse nehmen neben dem reinen Text weitere Bestandteile von Nachrichten
wie Verlinkungen, Bilder, Audiostücke und Videos eine wichtige Rolle ein (Kress, 2009). Auch beim
Microbloggingdienst Twitter werden innerhalb der Textnachrichten Links zu anderen Webseiten oder
über Hashtags, Retweet-Markierungen sowie @Mentions Verlinkungen innerhalb von Twitter
verwendet, die Einfluss auf die Dialoge nehmen. Kress (2009, 147 f.) bezeichnet dies als

7
    https://dev.twitter.com/ [überprüft am 17.09.2011]
                                                                                                  2
Zusammenspiel unterschiedlicher semiotischer Ressourcen, die als Ganzes in einem sozialen Kontext
verstanden werden. Nach dieser Definition muss ein Text oder in unserem Fall die Nachricht bei
Twitter kohärent sein, also einen Sinn ergeben. Ein Dialog zwischen zwei Nutzern auf Twitter kann
auch Emoticons oder Kürzel beinhalten, die für außenstehende Nutzer nicht kohärent sind, für
Twitternutzer jedoch einen Sinn ergeben. Die Interaktion der Twitternutzer entsteht wie in anderen
Internetgemeinschaften durch soziale Bindungen, die durch Freundschaft, Arbeitsgemeinschaft oder
Informationsaustausch entstehen (Garton, Haythornthwaite, & Wellman, 1999) und somit zu einer
Gemeinschaft führen, die sich untereinander „versteht“.

Der Microbloggingdienst Twitter
Internetnutzer können auf Twitter einen Micbroblog mit Nutzerprofil anlegen, das minimale Angaben
zur Person wie Name, Herkunft, Vorlieben oder Absichten, enthält. Die meisten Microblogs auf
Twitter sind öffentlich (Stringhini, Kruegel, & Vigna, 2010). Die Vernetzung mit anderen Nutzern
findet über die „Follow“-Funktion statt. Als Twitternutzer kann man den Nachrichten anderer Nutzer
folgen und einem kann selbst gefolgt werden. Dem muss der Nutzer, dem gefolgt wird, nicht explizit
zustimmen. Die eigentliche Funktion, die Twitter bietet, ist das Verschicken von Kurznachrichten. Die
ursprüngliche Intention hinter diesen Kurznachrichten war es, Statusnachrichten zu verfassen, um
mit seinen Freunden in Kontakt zu bleiben und sich über aktuelle Ereignisse oder Events zu
informieren (Mainka, 2010). Die Nutzung von Twitter hat sich bis heute in sehr vielfältiger Weise
ausgeprägt. Es wird weiterhin über private Ereignisse geschrieben oder lokale Nachrichten
verkündet. Aber auch politische und gesellschaftliche Diskussionen, Katastrophenmeldungen (Bruns,
2011) oder Veranstaltungen, wie z. B. Konferenzen (Weller, Dröge, & Puschmann, 2011), werden
durch ständige Tweets begleitet.
Jede Nachricht ist dabei auf maximal 140 Zeichen begrenzt. Das liegt daran, dass die
Twitterentwickler die Nutzung von Twitter auch für Handys ermöglichen wollten und eine SMS auf
160 Zeichen begrenzt ist. Die übrigen 20 Zeichen werden für den Nutzernamen freigehalten (O’Reilly,
Milstein, & Lang, 2009). Innerhalb der Twittergemeinschaft haben sich einige Konventionen etabliert,
die sich zu einer eigenen Syntax entwickelt haben, die mittlerweile von nahezu allen Twitternutzern
eingehalten wird. So werden z. B. andere Twitternutzer durch ein vorangeschriebenes „@“ direkt
angesprochen, auch @-Mention oder @-Message genannt. Das Thema des Tweets kann durch die
Verwendung von Hashtags (#[Thema]) angegeben werden, um so auch besser von anderen Nutzern
gefunden werden zu können, die sich zu einem bestimmten Thema austauschen wollen. Hashtags
können frei und mehrfach pro Tweet vergeben werden. Es gibt auch eine Art Zitierfunktion, die bei
Twitter als „Retweet“ bezeichnet wird und durch ein „RT @[Benutzername]“ zu Beginn des Tweets
oder ein via [Benutzername] zum Ende des Tweets markiert wird (Abbildung 1).

                                                                                                   3
In dieser Arbeit werden insbesondere die Tweets untersucht, die als Dialog zwischen einem und
mehr Twitternutzern definiert werden können. Hier kann man sich auf die Tweets konzentrieren, die
durch eine @Mention kenntlich machen, dass diese Nachricht an einen anderen Nutzer gerichtet
wird (Abbildung 2). Jedoch gibt es auch Fälle in denen ein „@“ für die Markierung von anderen
Nutzern in einem Tweet verwendet wird, um diesen beispielweise mit diesem Tweet zu verlinken,
ohne dadurch einen initiativen Dialogakt auslösen zu wollen (Abbildung 3).

                  Twitternutzer 1

Abbildung 1: Tweet eines Nutzers, der einen anderen Nutzer zitiert (retweetet), vom 13.06.2011.

                 Twitternutzer 2

Abbildung 2: Tweet eines Nutzers, der eine Nachricht an „@_konna“ richtet, vom 31.08.2011.

                 Twitternutzer 3

Abbildung 3: Tweet eines Nutzers, der über einen anderen Nutzer (@TomArnold) spricht, vom 15.09.2011.

Dialoganalyse bei Twitter
Um die Gespräche bei Twitter zu analysieren, muss zunächst betrachtet werden, wie ein „normales“
Gespräch bei Twitter aussieht, wenn es so etwas überhaupt gibt. Twitter ist nicht auf die Nutzung als
Gesprächsraum ausgelegt, wird von seinen Nutzern dennoch immer wieder als solcher genutzt.
Nachrichten, auch Posts genannt, die auf Twitter veröffentlicht werden, können verschiedener Art
sein. Nicht jede Nachricht auf Twitter bedingt eine Reaktion oder eine Antwort anderer Nutzer.
Jedoch kann jeder auf einen gelesenen Tweet reagieren, was wiederum zu einem Dialog führen kann.
Ein Problem der Dialoganalyse bei Twitter ist, dass ein Dialog nicht immer mit einer @Mention
beginnt. Dies gestaltet das Aufspüren solcher Dialoge natürlich schwieriger. Da diese Arbeit die
Absicht verfolgt, eine Einschätzung der Dauer von Gesprächen, die Anzahl der Turns sowie die Anzahl
der Gesprächsteilnehmer zu eruieren und aus diesen Dialogen sprachliche Muster zu erkennen, wird
hier darauf hingewiesen, dass Nachrichten ohne eine @Mention zunächst nicht berücksichtigt
werden.

                                                                                                        4
Korpuserstellung
Bei der Erstellung eines Korpus, der Daten aus dem Bereich der Online-Medien beinhaltet, ist das
Archivieren der Texte auf lokalen Datenträgern nötig (Fraas & Pentzold, 2008). Online-Texte sind im
Web nicht dauerhaft archiviert oder im Nachhinein gut auffindbar. Daher sollte sobald die zu
untersuchende Thematik ausgewählt ist, eine lokale Speicherung der Daten begleitend zum Diskurs
vorgenommen werden (Meier, 2008, 229).
Als Schwierigkeit bei der Erstellung von Korpora aus Online-Medien ergeben sich einige Probleme
gegenüber der reinen Textanalyse. Fraas und Pentzold (2008) betonen, dass Texte in Online-
Diskursen von Verlinkungen, visuellen und akustischen Elemente ergänzt werden. Sie sind daher
dynamischer Natur und lassen sich nicht durch eine einfache Speicherung der Texte wiederspiegeln.
Erst ihre Gesamtheit bildet den Kontext, den es zu erfassen gilt.
Ein weiteres Problem ist, dass Online-Dialoge sich nicht auf eine Plattform beschränken, sondern
durch Verlinkungen auf weitere Webseiten verweisen können, wo die Gespräche fortgesetzt oder
durch weitere Dialogteilnehmer erweitert werden (Fraas & Pentzold, 2008). So kann ein Gespräch
z. B. auf Twitter beginnen. Der erste Sprecher (Textverfasser) hat eine Nachricht öffentlich an eine
zweite Person gerichtet. Zudem hat die erste Person ein Facebookprofil, das mit seinem Twitterprofil
verknüpft ist. Somit können alle, die mit dieser ersten Person auf Facebook befreundet sind oder ihm
bei Twitter folgen, diese Nachricht an die zweite Person mitlesen. Person zwei kann auf die Nachricht
an Person eins nun sowohl über Twitter als auch über Facebook antworten, vorausgesetzt er liest
diese Nachricht und besitzt ebenfalls ein Twitter- und Facebookprofil. Die Analyse in dieser Arbeit
wird diese Probleme jedoch nicht weiter diskutieren, da hier das Ziel ist, die reinen textbasierten
Dialoge auf Twitter zu untersuchen.

Bei Twitter besteht die Möglichkeit über die API, Tweets abzurufen. In dieser Analyse wurden die
Tweets über die Timelines der Nutzer gespeichert. Die Timelines enthalten neben der Textnachricht
u. a. Informationen zum Nutzer und zum Zeitpunkt, wann ein Tweet geschrieben wurde. Die API
beschränkt das Herunterladen der Tweets aus einer Timeline auf maximal 200 Nachrichten und
erlaubt nur maximal 100 Anfragen in einer Stunde. Für die Erstellung des Korpus wurden 20
deutschsprachigeTwitternutzer als „Startnutzer“ festgelegt (zufällige Auswahl). Ausgehend von
diesen 20 Nutzern wurde ein erster Teil des Korpus erstellt, der die Timelines der Twitternutzer im
Zeitraum vom 29. bis 31. August 2011 enthält. Die darin enthaltenen Tweets wurden nach
Gesprächspartnern durchsucht. Dies kann in Twitter relativ leicht erfolgen, da hier die gängige Syntax
den Nutzern vorgibt, ein „@“ als Adressangabe an andere Nutzer zu verwenden. Somit wurden alle
Nutzernamen, die mit einem vorausgehenden „@“ markiert sind, separat gespeichert. Hieraus
entstand eine Auflistung aller Nutzer, die von den 20 Startnutzern direkt angesprochen wurden. In
                                                                                                    5
einem weiteren Schritt wurden die Timelines dieser „direkt angesprochenen Nutzer“ ebenfalls
heruntergeladen, um das Gespräch zwischen ihnen und den Startnutzern verfolgen zu können.
Im Folgenden soll ein Überblick über das genaue Vorgehen der Korpuserstellung gegeben werden:

       1.          31.08.2011: Download der Timelines der ersten 20 Nutzer.
       2.          31.08.2011: Speicherung der Tweets vom 29.8. bis 31.8.
       3.          31.08.2011: Herausfiltern aller @Mentions aus dem Tweetbestand.
        4.         31.08.2011: Download aller Timelines der @Mentions.
        5.         31.08.2011: Wiederholung der Schritte 3 und 4 (viermal).
        6.         02.09.2011: Aktualisierung der vorhandenen Timelines.
        7.         05.09.2011: Aktualisierung der vorhandenen Timelines.
Tabelle 1: Vorgehen bei der Korpuserstellung.

Nach diesem Durchlauf standen 241 Timelines zur Verfügung. Aus den gespeicherten Timelines
sollen die Gespräche der Nutzer untersucht werden. Es werden dabei nur die Tweets berücksichtigt,
die zwischen Montag dem 29. August 2011 und Sonntag dem 4. September 2011 öffentlich gepostet
worden sind und sich an einen anderen Nutzer richten, dessen Timeline ebenfalls gespeichert wurde.
Zum Untersuchungsgegenstand zählen hier alle Tweets, die mindestens eine @Mention an einen
anderen Nutzer enthalten. Ausgenommen werden hier Retweets. Somit können die Timelines um
alle Nachrichten ohne @Mention oder mit „RT @[Benutzername]“ gekürzt werden:

         Anzahl aller gespeicherten Tweets                                    28.937        100%
         ─ Ohne @Mention (aber mit „RT @...“)                                 10.722        37%

         = Tweets mit @Mention (ohne RT)                                      18.215        63%
             ─     Tweets, die an User gerichtet wurden,
                   dessen Timelines nicht gespeichert wurden                  12.645        44%

              =    Tweets mit @Mention, die sich min. an einen der
                   241 gespeicherten Nutzer richteten                         5.570         19%

Tabelle 2: Vorgehen zur Bereinigung des Korpus von nicht relevanten Tweets.
Maschinelle Extraktion von Dialogen
Es gibt verschiedene Möglichkeiten, Dialoge in Twitter zu extrahieren. Zum Erstellen der Korpora
wurden die Timelines der Twitternutzer, die miteinander kommuniziert haben (wie zuvor erläutert),
als Json-Datei gespeichert. Die Json-Datei enthält neben den geposteten Tweets ebenfalls die

                                                                                                  6
Information, auf welchen Tweet sich eine @Mention bezieht. Diese Information wird in
„in_reply_to_status_id“ gespeichert. Um erste Muster und Regelmäßigkeiten von Dialogen auf
Twitter zu analysieren, werden die Dialoge untersucht, die durch „in_reply_to_status_id“ als Antwort
auf einen vorherigen Tweet markiert sind und nur eine @Mention enthalten.
 Alle Nachrichten, die genau eine @Mention enthalten: 4.915
 Alle Nachrichten, die einen Wert in „in_reply_to_status_id“ enthalten: 4.557

Tabelle 3: Anzahl der Nachrichten mit genaue einer @Mention und Anzahl der Nachrichten mit Angaben zu
„in_reply_to_status_id“.

Für die maschinelle Auswertung von Dialogen aus den gespeicherten Twitter-Timelines wurden
folgende Werte aus der Json Datei berücksichtigt:

Bezeichnung in der Json Bedeutung
Datei (Twitter-Timeline)
„screen_name“             Enthält den Benutzernamen des Nutzers, der den Tweet verfasst hat.
                          (Jeder Benutzername ist eindeutig, da er nur einmal an einen
                          Benutzer vergeben wird)
„id“                      Enthält eine eindeutige ID, die jedem Tweet zugeordnet wird.
„text“                    Enthält den Text des Tweets.
„created_at“              Enthält das Datum, an dem der Tweet gepostet wurde.
„in_reply_to_status_id“   Enthält die ID des Tweets auf den der Text Bezug nimmt.
„in_reply_to_screen_name“ Enthält den Benutzernamen des Nutzers, auf den der Text Bezug
                          nimmt.
Tabelle 4: Bezeichnung und Bedeutung der genutzten Daten aus der Json-Timeline-Datei.

Im Nächsten Schritt wurden alle Tweets, die genau eine @Mention im Text haben in einer Datei
aufsteigend nach der „id“ gespeichert. In dieser Datei wurden dann Dialogketten nach folgendem
Schema gesucht:

  Abbildung 4: Schema zur Identifizierung von Dialogketten.

Insgesamt wurden so 896 Dialogketten gefunden. 1887 der Tweets konnten nicht über
„in_reply_to_status_id“ als Teildialog zu einem anderen Tweet zugeordnet werden. Die Zuordnung
der Tweets zu einem Dialog über die „in_reply_to_status_id“ hat in einer stichprobenartigen
                                                                                                   7
Untersuchung von 50 Dialogketten eine 100-prozentige Treffsicherheit bewiesen. Problem der
Angaben unter „in_reply_to_status_id“ ist, dass diese nur funktionieren, wenn sich der Tweet genau
an einen Nutzer richtet (also nur eine @Mention enthalten ist). Sobald zwei Nutzer in einem Tweet
über eine @Mention angesprochen werden, wird kein Wert gespeichert. Ein weiteres Problem
entsteht dadurch, dass sich eine Nachricht, in der eine @Mention verwendet wird, auf eine zuvor
geschriebene Nachricht beziehen kann, die keine @Mention enthält und somit hier nicht
berücksichtigt wurde.

                       Zeitlicher Abstand zwischen den Tweets in einem Dialog
  Anzahl der       Anzahl der         Zeitlicher Abstand       Zeitlicher Abstand zwischen dem
 Dialogketten       Turns im       zwischen den Tweets im    ersten und letzten Tweet aus einer
                     Mittel          Mittel (in Minuten)            Dialogkette (in Minuten)
      896              3,4                    18                               50
  Anzahl der       Gegliedert         Zeitlicher Abstand       Zeitlicher Abstand zwischen dem
 Dialogketten         nach         zwischen den Tweets im    ersten und letzten Tweet aus einer
                   Turnanzahl        Mittel (in Minuten)            Dialogkette (in Minuten)
       1               24                      7                              160
       1               23                      7                              158
       1               16                      3                               41
       2               13                      5                               63
       1               12                      2                               27
       7               11                      3                               29
       5               10                      3                               31
       6                9                      2                               16
      15                8                      2                               17
      30                7                      6                               33
      37                6                      3                               16
      60                5                      4                               16
      107               4                      4                               11
      220               3                      6                               11
      403               2                      6                                6
Tabelle 5: Auswertung der Dialogketten in Bezug auf den zeitlichen Abstand der einzelnen Turns und des Dialogs
insgesamt.

Die Auswertung hat ergeben, dass die längste gefundene Dialogkette 24 Turns hat, wobei hier jeweils
ein Tweet mit einem Turn gleichgestellt wird. Die durchschnittliche Anzahl der Turns einer
Dialogkette beträgt 3,4 (Tabelle 5). In 14 der 896 Dialogketten haben sich drei Twitternutzer an
einem Dialog beteiligt. In allen anderen haben sich jeweils zwei beteiligt.
Wie Tabelle 5 zeigt, kann kein direkter Zusammenhang zwischen der Anzahl der Turns in einem
Dialog und des zeitlichen Abstandes dieser gefunden werden. Jedoch zeigt sich, dass viele der
Dialoge innerhalb weniger Minuten ablaufen, so dass ein Turnwechsel durchschnittlich zwischen zwei
und sieben Minuten benötigt. Die schnellste Antwort auf einen Tweet wurde innerhalb von 8
Sekunden verfasst. Die späteste Antwort wurde erst nach einer Woche geschrieben. Tweets, die mit

                                                                                                            8
einer @Mention beginnen, können von den genannten Nutzern in einer separaten Ansicht
aufgerufen werden. So kann ein Nutzer auch nach längerer Zeit auf eine @-Nachricht antworten.
Durchschnittlich betrachtet werden Dialoge innerhalb von 50 Minuten geführt.

Betrachtet man die zeitlichen Abstände von antwortenden Tweets in verschiedenen Zeitintervallen,
wie in Diagramm 1, so ist zu erkennen, dass die meisten Antworten in kurzer Zeit geschrieben
werden. Die Verteilung zeigt, dass nur in sehr wenigen Fällen (0,5 %) auf einen Tweet geantwortet
wird, der älter als 12 Stunden ist. 91,7 % der Antworten werden innerhalb von 30 Minuten
geschrieben. 74,5 % der hier untersuchten Twitternutzer antworteten sogar in weniger als fünf
Minuten.

Diagramm 1: Zeitlicher Abstand von Antwort-Tweets.

Phrasenanalyse
In einem nächsten Schritt sollen die 896 gefundenen Dialoge aus Tabelle 5 als Grundlage für die
sprachliche Untersuchung des Korpus dienen. Mittels des Machinese Phrase Taggers werden die
Tweets mit syntaktischen und morphologischen Informationen annotiert. Der annotierte Korpus wird
entweder als Mpt- oder Xml-Datei zurückgegeben. Im Weiteren wurde mit der Mpt-Datei gearbeitet.
Die Analyse von Phrasen bietet sich bei der Untersuchung von Tweets besonders an, weil die
geschriebenen Texte eher mündlichen Dialogen entsprechen und nicht immer wohlgeformte Sätze
bilden. Darüber hinaus wird weniger Wert auf die Verwendung von Satzzeichen gelegt und, wie
bereits erwähnt, kann jede Nachricht nur aus 140 Zeichen bestehen.

                                                                                               9
Bevor jedoch die Tweets durch den Machinese Phrase Tagger annotiert werden konnten, mussten
Sonderzeichen oder Zeichenketten, die oft für die Erstellung von Emoticons verwendet werden,
gelöscht werden. Dies erlaubt eine genauere Annotation der Phrasen, führt aber dazu, dass Tweets,
die nur aus Emoticons bestehen, nicht erfasst werden können. Die Phrasenanlyse wurde auf
Grundlage der deutschen Sprache durchgeführt. Das kann dazu führen, dass Tweets, die nicht auf
Deutsch verfasst worden sind, falsch interpretiert werden. Der größte Teil des Korpus besteht jedoch
aus deutschsprachigen Tweets. Beispiel für eine solche Annotation:

                  Twitternutzer 1

Abbildung 5: Tweet als Textstring.

Tweet mit Annotation:
token       len    text              lemma      syntax          morpho   form   time   noun phrase
1462216     7      grenzen           grenzen    @MAIN           V        INF
1462224     3      los               los        @ADVL           ADV
1462228     3      ich               ich        @NH             PRON
1462232     4      frag              fragen     @MAIN           V        IMP
1462237     4      mich              ich        @NH             PRON
1462242     3      bis               bis        @PREMARK        CS
1462246     5      heute             heute      @ADVL           ADV
1462252     3      wie               wie        @PREMARK        PREP
1462256     2      du                du         @NH             PRON
1462259     4      dein              dein       @PREMOD         PRON
1462264     3      Abi               Abi        @NH             N        Prop          NP-Single
1462268     9      geschafft         schaffen   @MAIN           V        PCP    PERF
1462278     4      hast              haben      @MAIN           V        IND    PRES

Tabelle 6: Ausgabe des Machinese Phrase Taggers von Connexor.

Wie Tabelle 6 zeigt, werden nicht alle Zeichenfolgen richtig annotiert. So wurde der angesprochene
Benutzername „@grenzen_los“ nicht als Name erkannt, sondern in zwei Teilen analysiert. Um in der
folgenden Analyse die Phrasen auch manuell kontrollieren zu können, werden nur die 804 Tweets
untersucht, die in den Ketten mit zwei Turns enthalten waren. Zwei Tweets wurden entfernt, da sie
nur aus Emoticons bestanden.

                                                                                                     10
Um herauszustellen, ob sich Dialoge zu einem beliebigen Thema aus diesem Untersuchungskorpus
eruieren lassen, werden im Folgenden die Nominalphrasen (NP) und die darin enthaltenen
Nominalköpfe (NH, Nominal Head) näher betrachtet.

Diagramm 2: Anzahl der Nominalphrasen in einem Tweet.

Diagramm 3: Anzahl der Nominalköpfe in einem Tweet.

Die Untersuchung hat ergeben, dass nur in 64 % der 804 Tweets mindestens eine NP gefunden
wurde. Die Verteilung aus Diagramm 2 zeigt, dass 48 % zwischen ein bis zwei NPs und zu 78 %
zwischen ein und fünf NPs haben. Tweets mit mehr als fünf NPs kommen in weniger als 3 % der
Tweets vor. In Diagramm 3 wird die Anzahl der Nominalköpfe in einem Tweet dargestellt. Hier ist
deutlich zu erkennen, dass in über 320 Tweets (40,8 %) 16 NHs annotiert wurden. In 33 Fällen der
untersuchten Tweets konnte kein NH gefunden werden.

                                                                                             11
Für die weitere Untersuchung werden nur die Nominalköpfe betrachtet, die innerhalb des Tweets
auch als Teil einer Nominalphrase durch den Machinese Phrase Tagger annotiert wurden. Dies soll
vermeiden, dass zu allgemeine NHs in die Analyse einfließen. Des Weiteren wurden NHs
ausgeschlossen, die keinen thematischen Bezug liefern, da sie entweder falsch interpretiert worden
sind oder durch die Twittersyntax, wie die Nennung des Nutzernamens oder die Verwendung von
Hashtags, ebenfalls vom Phrase Tagger nicht richtig erkannt werden.

Für die Suche nach Dialogen wurden die 402 Dialogketten, die genau zwei Turns enthalten, unter
Berücksichtigung ihrer Nominalphrasen und der darin enthaltenen Nominalköpfe gegenübergestellt.
Für jeden initialen Tweet wurden die so gefilterten Nominalköpfe (in lemmatisierter Form) mit den
Nominalköpfen des antwortenden Tweets verglichen.

Von der Nominalkopfuntersuchung wurden folgende Nominalköpfe ausgeschlossen:
@Mention              415
#Hashtag              12
Urls (http://...)     21
+                     2
%                     2
Tabelle 7: Annotierte Nominalköpfe, die von der Untersuchung ausgeschlossen werden.

          Abbildung 6: Auswertung des Vergleichs von Nominalköpfen.

                                                                                               12
Das Ergebnis dieser Untersuchung zeigt, dass in 10,7 % der 402 Dialogketten eine Übereinstimmung
von Nominalköpfen gefunden wurde (Abbildung 6). Somit kann der größte Teil des untersuchten
Korpus nicht durch diese Methode als Dialog definiert werden. Diese niedrige Trefferquote könnte
damit zusammenhängen, dass viele Tweets „Geplauder“ sind (Java et al., 2007). Initiale Tweets, die
kein „Thema“ haben, können demnach auch nicht thematisch passend beantwortet werden. Ein
anderer Grund könnte sein, dass die @-Funktion auf Twitter nicht ausschließlich für @-Nachrichten
genutzt wird und ein Dialog auch nicht immer der Intention des Tweet-Verfassers entspricht. Die
meisten Tweets in diesem Korpus sind jedoch klar als Konversation zu verstehen, da sie zu über 90 %
innerhalb von 30 Minuten eine Reaktion durch eine „antwortende“ @-Nachricht erhalten.

Fazit
In dieser Arbeit wurde eine korpusbasierte Dialoganalyse für die Microbloggingplattform Twitter
durchgeführt. Twitternutzer nutzen den Microblog in vielfältiger Weise und u. a. auch um mit
anderen Nutzern in einen Dialog zu treten (Java et al., 2007). Dialoge können dabei jegliche Themen
behandeln. Für die Dialogforschung ist es interessant, Muster und Strukturen in diesen Dialogen zu
erkennen, die zur Erschließung von Dialoggrammatiken führen (Franke, 2000). In dieser Arbeit wurde
eine Dialoganalyse mittels Informationsextraktion durchgeführt. Da hier ein Tweet mit einem Turn
gleichgesetzt wurde, kam die Besonderheit hinzu, dass jeder Turn eine maximale Länge von 140
Zeichen haben kann.
Der erste Teil der Analyse hat Dialoge anhand der Metainformationen, die über die Twitter API
abgerufen werden können, gefiltert. Hier konnten die Tweets untersucht werden, die genau eine
@Mention enthalten. Ausgehend hiervon wurde gezeigt, dass es möglich ist, Dialogketten über den
„reply_to_status_id“-Wert zu eruieren.
Die weitere Betrachtung der Nominalköpfe innerhalb der Dialog-Tweets hat gezeigt, dass nur 10 %
der Twitternachrichten, die mit dem „reply_to_status_id“-Wert deklariert werden, einen gleichen
Nominalkopf besitzen. Auch wenn hier lemmatisierte Formen miteinander verglichen werden,
könnte durch eine semantische oder ontologiebasierte Methode ein besseres Ergebnis erzielt
werden.
Da die Untersuchung von Online-Daten die im Web 2.0 durch die Verwendung von Umgangssprache,
Anglizismen, Neologismen und insbesondere durch Schreibfehler viele Schwierigkeiten mit sich
bringt, können durch die hier durchgeführte computergestützte Analyse nur erste Erkenntnisse und
Einschätzungen gegeben werden. In der weiteren Verwendung des hier erstellten Korpus könnte
eine semantische Untersuchung unternommen werden, die sich mit den inhaltlichen Strukturen der
jeweiligen Dialoge befasst.

                                                                                                13
Literaturverzeichnis
Bruns, A. (2011). Towards Distributed Citizen Participation. Lessons from WikiLeaks and the
Queensland Floods. In P. Parycek, M. J. Kripp, & N. Edelmann (Hrsg.), CeDEM11, Proceedings of the
International Conference for E-Democracy and Open Government, Krems, Austria, 5-6 Mai, 2011, 35-
52. Krems: Edition Donau-Universität.
Cheng, N., Chandramouli, R., & Subbalakshmi, K. P. (2011). Author gender identification from text.
   Digital Investigation, 8(1), 78-88.
Crystal, D. (2011). Internet Linguistics. New York, NY: Routledge.
Finin, T., Murnane, W., Karandikar, A., Keller, N., Martineau, J., & Dredze, M. (2010). Annotating
   named entities in Twitter data with crowdsourcing. In Association for Computational Linguistics
   (Hrsg.), Proceedings of the NAACL Workshop on Creating Speech and Text Language Data With
   Amazon's Mechanical Turk, Stroudsburg, USA, 80-88.
Fraas, C., & Pentzold, C. (2008). Online-Diskurse – Theoretische Prämissen, methodische
   Anforderungen und analytische Befunde. In I. H. Warnke & J. Spitzmüller (Hrsg.), Methoden der
   Diskurslinguistik. Sprachwissenschaftliche Zugänge zur transtextuellen Ebene (S. 291-326).
Franke, W. (2000). Konzepte linguistischer Dialogforschung. In K. Brinker (Hrsg.), Text- und
   Gesprächslinguistik. Ein internationales Handbuch zeitgenössischer Forschung (S. 346-362). Berlin,
   DE: Walter de Gruyter.
Galanova, O., & Sommer, V. (2011). Neue Forschungsfelder im Netz. Erhebung, Archivierung und
   Analyse von Online-Diskursen als digitale Daten. In S. Schomburg, C. Leggewie, H. Lobin & C.
   Puschmann (Hrsg.), Digitale Wissenschaft: Stand und Entwicklung digital vernetzter Forschung in
   Deutschland (S. 89-97). Köln, DE: HBZ.
Garton, L., Haythornthwaite, C., & Wellman, B. (1999). Studying On-Line Social Networks. In S. Jones
   (Hrsg.), Doing Internet Research: Critical Issues and Methods for Examining the Net (S. 75-105).
   Thousand Oaks, CA: SAGE Publications, Inc.
Jansen, B. J., Zhang, M., Sobel, K., & Chowdury, A. (2009). Twitter power: Tweets as electronic word
   of mouth. Journal of the American Society for Information Science and Technology, 60(11), 2169-
   2188.
Java, A., Song, X., Finin, T., & Tseng, B. (2007). Why we twitter: Understanding microblogging usage
   and communities. In Proceedings of the 9th WebKDD and 1st SNA-KDD 2007 Workshop on Web
   Mining and Social Network Analysis at ACM SIGKDD, San Jose, California (S. 56-65). New York, NY:
   ACM.
Kress, G. R. (2009). Multimodality: a social semiotic approach to contemporary communication.
   London, GB: Taylor & Francis.
Kress, G. R., & van Leeuwen, T. (2001). Multimodal discourse. The modes and media of
                                                                                                  14
contemporary communication. London, GB: Arnold.
Mainka, A. (2010). Twitter: „Gezwitscher“ oder gezielte Informationsvermittlung? Information,
   Wissenschaft & Praxis, 61(2), 77-82.
McEnery, T. (2003). Corpus Linguistics. In R. Mitkov (Hrsg.), The Oxford Handbook of Computational
   Linguistics. Oxford Handbooks in Linguistics (S. 448–463). Oxford: Oxford University Press.
McEnery, T., & Wilson, A. (1996). Corpus Linguistics. Edinburgh: Edinburgh University Press.
Meier, S. (2008). (Bild-)Diskurs im Netz. Konzept und Methode für eine semiotische Diskursanalyse
   im World Wide Web. Köln, DE: Halem.
O’Reilly, T., Milstein, S., & Lang, J. W. (2009). Das Twitter-Buch. Köln, DE: O’Reilly Verlag.
Schmölders, C. (1986). Die Kunst des Gesprächs. München, DE: Deutscher Taschenbuchverlag.
Stringhini, G., Kruegel, C., & Vigna, G. (2010). Detecting spammers on social networks. In Proceedings
   of the 26th Annual Computer Security Applications Conference on - ACSAC ’10 .
Thimm, C., Dang-Anh, M., & Einspänner, J. (2011). Diskurssystem Twitter: Semiotische und
   handlungstheoretische Perspektiven. In M. Anastasiadis & C. Thimm (Hrsg.), Social Media –
   Theorie und Praxis digitaler Sozialität (S. 265-286). Frankfurt/New York: Peter Lang (i.Dr.).
Weller, K., Dröge, E., & Puschmann, C. (2011). Citation Analysis in Twitter: Approaches for Defining
   and Measuring Information Flows within Tweets during Scientific Conferences. In M. Rowe, M.
   Stankovic, A. Dadzie, & M. Hardey (Hrsg.), CEUR Workshop Proceedings Vol. 718. (S. 1-12). Crete,
   Greece.
Zappavigna, M. (2011). Ambient affiliation: A linguistic perspective on Twitter. New Media & Society,
   13(5), 788 -806.

                                                                                                   15
Sie können auch lesen