Zur automatischen Analyse der Lesbarkeit von Texten und S atzen

Die Seite wird erstellt Malte Wittmann
 
WEITER LESEN
Zur automatischen Analyse der Lesbarkeit von Texten und S atzen
Zur automatischen
                                                                            Analyse der
                                                                           Lesbarkeit von
                                                                         Texten und Sätzen
                                                                              Detmar Meurers

       Zur automatischen Analyse                                         Lesbarkeit
                                                                         Traditionelle

  der Lesbarkeit von Texten und Sätzen                                  Lesbarkeitsformeln

                                                                         Analyse aus Sicht
                                                                         des Spracherwerbs
               und wie das potentiell bei der                            Experimentelle Sandkiste

               Textvereinfachung helfen kann                             WeeBit Korpus
                                                                         Maße aus der
                                                                         Spracherwerbsforschung
                                                                         Experimente mit WeeBit
                                                                         Vergleich mit kommerziellen
                                                                         Systemen
                         Detmar Meurers                                  Gesprochene Sprache
                                                                         Von Texten zu Sätzen
                       Universität Tübingen                            Von English zu Deutsch

                                                                         Zusammenfassung

                                                                         Entwicklungen
       basierend auf Zusammenarbeit mit Sowmya Vajjala                   Bibliographie

             Deutsch 3.0 Workshop “Text als Werkstück –
Wege zu einer computergestützten Überarbeitung von deutschen Texten”
                    DIPF Frankfurt, 7. Juli 2014                                       LEAD
                                                                                       Graduate School

                                                                                              0 / 16
Zur automatischen
Worum geht es bei Lesbarkeit?                                               Analyse der
                                                                           Lesbarkeit von
                                                                         Texten und Sätzen
                                                                              Detmar Meurers

                                                                         Lesbarkeit
  I   Wie schwer ist es                                                  Traditionelle
                                                                         Lesbarkeitsformeln

        I   einen Text zu lesen                                          Analyse aus Sicht
                                                                         des Spracherwerbs
        I   für einen Leser                                             Experimentelle Sandkiste
                                                                         WeeBit Korpus
               I   mit welchen kognitive Fähigkeiten                    Maße aus der
                                                                         Spracherwerbsforschung
               I   und welchem Vorwissen,                                Experimente mit WeeBit
                                                                         Vergleich mit kommerziellen
                                                                         Systemen
        I   der den Text zu welchem Zweck liest?                         Gesprochene Sprache
                                                                         Von Texten zu Sätzen
               I   Faktensuche (z.B. Ergebnis eines Fußballspiels)       Von English zu Deutsch

               I   inhaltliche Wiedergabe                                Zusammenfassung
               I   Textverstehen                                         Entwicklungen

                                                                         Bibliographie
  I   Hier:
        I   Welche sprachlichen Eigenschaften des Texts sind relevant?
        I   Lassen sich diese bereits auf Satzebene dingfest machen?

                                                                                       LEAD
                                                                                       Graduate School

                                                                                              1 / 16
Zur automatischen
Traditionelle Lesbarkeitsformeln                                        Analyse der
                                                                       Lesbarkeit von
                                                                     Texten und Sätzen
                                                                          Detmar Meurers

                                                                     Lesbarkeit
  I   Lange Geschichte von Lesbarkeitsformeln für das               Traditionelle
                                                                     Lesbarkeitsformeln

      Englische (DuBay 2004)                                         Analyse aus Sicht
                                                                     des Spracherwerbs
                                                                     Experimentelle Sandkiste
  I   basieren auf oberflächlich zählbaren Eigenschaften:          WeeBit Korpus
                                                                     Maße aus der
                                                                     Spracherwerbsforschung
        I   durchschnittliche Satzlänge und Wortlänge, z.B.        Experimente mit WeeBit

            Flesch-Kincaid Formel (Kincaid et al. 1975)              Vergleich mit kommerziellen
                                                                     Systemen
                                                                     Gesprochene Sprache
        I   Anzahl von Wörtern auf Wortlisten (Chall & Dale 1995)   Von Texten zu Sätzen
                                                                     Von English zu Deutsch

  I   Probleme traditioneller Lesbarkeitsformeln:                    Zusammenfassung

        I   basieren auf groben Approximationen:                     Entwicklungen

                                                                     Bibliographie
               I   lange Worte sind selten
               I   lange Sätze sind schwierig
        I   liefern quantitatives Maß, keine Charakterisierung der
            relevanten sprachlichen Eigenschaften

                                                                                   LEAD
                                                                                   Graduate School

                                                                                          2 / 16
Zur automatischen
Analysemethoden der Spracherwerbsforschung                                       Analyse der
                                                                                Lesbarkeit von
                                                                              Texten und Sätzen
                                                                                   Detmar Meurers

                                                                              Lesbarkeit
                                                                              Traditionelle
                                                                              Lesbarkeitsformeln

  I   Zweitspracherwerbsforschung bietet Komplexitätsmaße                    Analyse aus Sicht
                                                                              des Spracherwerbs
      zur Analyse der Sprachentwicklung                                       Experimentelle Sandkiste
                                                                              WeeBit Korpus
        I   CAF: Complexity, Accuracy, und Fluency                            Maße aus der
                                                                              Spracherwerbsforschung
            (Wolfe-Quintero et al. 1998; Ortega 2003; Housen & Kuiken 2009)   Experimente mit WeeBit
                                                                              Vergleich mit kommerziellen
                                                                              Systemen
        I   Komplexität:                                                     Gesprochene Sprache

            Grad zu dem die Lernersprache elaboriert und vielfältig ist      Von Texten zu Sätzen
                                                                              Von English zu Deutsch

                                                                              Zusammenfassung
  I   Vajjala & Meurers (2012): Kann man
                                                                              Entwicklungen
        I   Maße der Komplexität von Lernersprache nutzen für die           Bibliographie
        I   Analyse der Lesbarkeit von (muttersprachlichen) Texten?

                                                                                            LEAD
                                                                                            Graduate School

                                                                                                   3 / 16
Zur automatischen
Testen, wie gut die Idee funktioniert                               Analyse der
                                                                   Lesbarkeit von
                                                                 Texten und Sätzen
                                                                      Detmar Meurers

                                                                 Lesbarkeit
                                                                 Traditionelle
                                                                 Lesbarkeitsformeln

                                                                 Analyse aus Sicht
                                                                 des Spracherwerbs
  I   Ein maschineller Lernansatz als experimentelle Sandkiste   Experimentelle Sandkiste
                                                                 WeeBit Korpus
        I   Korpus von Texten, deren Lesbarkeit bekannt ist      Maße aus der
                                                                 Spracherwerbsforschung
                                                                 Experimente mit WeeBit
        I   Die Komplexitätsmaße müssen anhand von im Korpus   Vergleich mit kommerziellen
                                                                 Systemen
            beobachtbaren Merkmalen operationalisiert werden.    Gesprochene Sprache
                                                                 Von Texten zu Sätzen
                                                                 Von English zu Deutsch
        I   Training des maschinellen Lerners auf Teilkorpus
                                                                 Zusammenfassung

        I   Test der Vorhersagen des Modells auf neuen Daten     Entwicklungen

                                                                 Bibliographie

                                                                               LEAD
                                                                               Graduate School

                                                                                      4 / 16
Zur automatischen
WeeBit Korpus                                                          Analyse der
                                                                      Lesbarkeit von
                                                                    Texten und Sätzen
                                                                         Detmar Meurers

                                                                    Lesbarkeit
  I   Ausgangspunkt Englisch, dann Analyse zum Deutschen            Traditionelle
                                                                    Lesbarkeitsformeln

  I   Den WeeklyReader Korpus erweiternd, haben wir den             Analyse aus Sicht
                                                                    des Spracherwerbs
      WeeBit Korpus erstellt (Vajjala & Meurers 2012):              Experimentelle Sandkiste
                                                                    WeeBit Korpus
                                                                    Maße aus der
         Klassenstufe        Alter    Anzahl    Durchschn. Anzahl   Spracherwerbsforschung

                          in Jahren   Artikel     Sätze/Artikel    Experimente mit WeeBit
                                                                    Vergleich mit kommerziellen
                                                                    Systemen
       aus WeeklyReader                                             Gesprochene Sprache
                                                                    Von Texten zu Sätzen
            Level 2         7–8        629             23           Von English zu Deutsch
            Level 3         8–9        801             23           Zusammenfassung
            Level 4         9–10       814             28           Entwicklungen
        aus BBCBitesize
                                                                    Bibliographie
              KS3          11–14       644             23
             GCSE          14–16       3500            28

 ⇒ Aufgabe: Klassifikation mit 5 Klassen

                                                                                  LEAD
                                                                                  Graduate School

                                                                                         5 / 16
Zur automatischen
Maße aus der Spracherwerbsforschung                                               Analyse der
                                                                                 Lesbarkeit von
                                                                               Texten und Sätzen
                                                                                    Detmar Meurers

  I   Lu (2010, 2011, 2012) liefert eine Übersicht über viele                Lesbarkeit
                                                                               Traditionelle
      Maße aus der Zweitspracherwerbsforschung.                                Lesbarkeitsformeln

                                                                               Analyse aus Sicht
                                                                               des Spracherwerbs
Lexikalische Komplexitätsmaße (Lu 2012)                                       Experimentelle Sandkiste
                                                                               WeeBit Korpus

  I   Lexikalische Vielfalt                                                    Maße aus der
                                                                               Spracherwerbsforschung
                                                                               Experimente mit WeeBit
        I   Type-Token Ratio = Typ /Tok                                        Vergleich mit kommerziellen
                                                                               Systemen
              I   beeinflusst von Textlänge                                   Gesprochene Sprache
                                                                               Von Texten zu Sätzen
              I   Measure of Textual Lexical Diversity (MTLD, McCarthy 2005)   Von English zu Deutsch

      Lexikalische Dichte = TokLex /Tok
                                                                               Zusammenfassung
  I
                                                                               Entwicklungen
        I   Lex: offene Wortartklassen (N, Adj, Adv, V)                        Bibliographie

  I   Insgesamt verwenden wir 19 lexikalische Merkmale
        I   16 aus der Spracherwerbsforschung
        I   3 weitere

                                                                                             LEAD
                                                                                             Graduate School

                                                                                                    6 / 16
Zur automatischen
Maße aus der Zweitspracherwerbsforschung                               Analyse der
                                                                      Lesbarkeit von
                                                                    Texten und Sätzen

Syntaktische Komplexitätsmaße (Lu 2010, 2011)                           Detmar Meurers

                                                                    Lesbarkeit
  I   analysieren drei Einheiten: sentences, T-units, clauses       Traditionelle
                                                                    Lesbarkeitsformeln

                                                                    Analyse aus Sicht
       a) mittlere Länge pro Einheit                               des Spracherwerbs
              I   e.g., mean length of sentences                    Experimentelle Sandkiste
                                                                    WeeBit Korpus
       b) Anzahl der Vorkommen pro Einheit                          Maße aus der
                                                                    Spracherwerbsforschung
              I   e.g., number of clauses per sentence              Experimente mit WeeBit
                                                                    Vergleich mit kommerziellen
       c) Verhältnisse von verschiedenen Untertypen                Systemen
                                                                    Gesprochene Sprache
              I   Subordination, Koordination                       Von Texten zu Sätzen
                                                                    Von English zu Deutsch
              I   e.g., dependent clauses per clause
                                                                    Zusammenfassung
       d) spezielle Konstruktionen                                  Entwicklungen
              I   e.g., complex nominals per clause                 Bibliographie

  I   Insgesamt: 25 syntaktische Merkmale
        I   14 aus der Spracherwerbsforschung
        I   11 weitere (Länge und Anzahl von Kategorien im Satz)
  I   Baseline: Traditionelle Maße (durchschn. Wort & Satzlänge)
                                                                                  LEAD
                                                                                  Graduate School

                                                                                         7 / 16
Zur automatischen
Experimente mit WeeklyReader/WeeBit                                         Analyse der
                                                                           Lesbarkeit von
                                                                         Texten und Sätzen
                                                                              Detmar Meurers
  I   Details zum Setup (Vajjala & Meurers 2012):
                                                                         Lesbarkeit
        I   Daten: 500 training, 125 testing pro Level                   Traditionelle
                                                                         Lesbarkeitsformeln
        I   Merkmale berechnet mit OpenNLP, Berkeley parser, tregex
                                                                         Analyse aus Sicht
        I   Klassifikationsalgorithmus: Multi-layer perceptron           des Spracherwerbs
                                                                         Experimentelle Sandkiste
                                                                         WeeBit Korpus
  I   Resultate:                        Number of      Performance       Maße aus der
                                                                         Spracherwerbsforschung
                                         Features    Accuracy RMSE       Experimente mit WeeBit
                                                                         Vergleich mit kommerziellen
 Forschungsstand für WeeklyReader                                       Systemen
                                                                         Gesprochene Sprache
     Petersen & Ostendorf (2009)            25         63.2%             Von Texten zu Sätzen

            Feng (2010)                     122        74.0%             Von English zu Deutsch

                                                                         Zusammenfassung
  Unser Ansatz für WeeklyReader
                                                                         Entwicklungen
          Alle Merkmale                     46         91.3%      0.17
                                                                         Bibliographie
       Unser Ansatz für WeeBit
        Traditionelle Merkmale              3          70.3%      0.25
       Zweitspracherwerbsmaße               30         82.3%      0.23
            Alle Merkmale                   46         93.3%      0.15
           Top 10 Merkmale                  10         89.7%      0.18
                                                                                       LEAD
                                                                                       Graduate School

                                                                                              8 / 16
Zur automatischen
Top 10 Merkmale                                                  Analyse der
                                                                Lesbarkeit von
                                                              Texten und Sätzen
                                                                   Detmar Meurers

                                                              Lesbarkeit
                                                              Traditionelle
                                                              Lesbarkeitsformeln

                                                              Analyse aus Sicht
                                                              des Spracherwerbs
  I   identifiziert anhand von Information Gain (in WEKA)     Experimentelle Sandkiste
                                                              WeeBit Korpus

  I   Die Hälfte sind Maße aus der Spracherwerbsforschung:   Maße aus der
                                                              Spracherwerbsforschung
                                                              Experimente mit WeeBit
        I   dependent clause to clause ratio                  Vergleich mit kommerziellen
                                                              Systemen
        I   complex nominals per clause                       Gesprochene Sprache
                                                              Von Texten zu Sätzen
        I   modifier variation                                Von English zu Deutsch

        I   adverb variation                                  Zusammenfassung
        I   mean length of a sentence                         Entwicklungen

                                                              Bibliographie

                                                                            LEAD
                                                                            Graduate School

                                                                                   9 / 16
Zur automatischen
Vergleich mit kommerziellen Systemen                                   Analyse der
                                                                      Lesbarkeit von
(Vajjala & Meurers 2014a)                                           Texten und Sätzen
                                                                         Detmar Meurers

                                                                    Lesbarkeit
                                                                    Traditionelle
   I   Common Core State Standards Daten (CCSSO 2010):              Lesbarkeitsformeln

                                                                    Analyse aus Sicht
       168 Texte (Klassenstufen 2–12)                               des Spracherwerbs
                                                                    Experimentelle Sandkiste

   I   Nelson et al. (2012) liefern Rangkorrelationskoeffizient ρ   WeeBit Korpus
                                                                    Maße aus der
                                                                    Spracherwerbsforschung
       von Spearman für verschiedene Systeme                       Experimente mit WeeBit
                                                                    Vergleich mit kommerziellen

                                     Spearmans ρ
                                                                    Systemen
                      System                                        Gesprochene Sprache
                                                                    Von Texten zu Sätzen
                      REAP               0.54                       Von English zu Deutsch

                       ATOS              0.59                       Zusammenfassung

                       DRP               0.53                       Entwicklungen

                      Lexile             0.50                       Bibliographie

                  Reading Maturity       0.69
                   SourceRater           0.75

   I Unser Ansatz: 0.69 (zweitbestes Ergebnis insgesamt)
                                                                                  LEAD
                                                                                  Graduate School

                                                                                     10 / 16
Zur automatischen
Lässt sich der Ansatz allgemein anwenden?                          Analyse der
                                                                   Lesbarkeit von
Gesprochene Sprache (Vajjala & Meurers 2014b)                    Texten und Sätzen
                                                                      Detmar Meurers

                                                                 Lesbarkeit
                                                                 Traditionelle
                                                                 Lesbarkeitsformeln

                                                                 Analyse aus Sicht
   I   Identifikation von altersspezifischen Fernsehprogrammen   des Spracherwerbs
                                                                 Experimentelle Sandkiste
                                                                 WeeBit Korpus
   I   Daten (Van Heuven et al. 2014): Untertitel von BBC        Maße aus der
                                                                 Spracherwerbsforschung

       Kanälen für drei Altersgruppen (0–6, 6–12, über 12)    Experimente mit WeeBit
                                                                 Vergleich mit kommerziellen
                                                                 Systemen
   I   Ergebnis:                                                 Gesprochene Sprache
                                                                 Von Texten zu Sätzen
         I   96% Klassifikationsgenauigkeit                      Von English zu Deutsch

                                                                 Zusammenfassung
         I   sowohl linguistische als auch psychologische Maße
                                                                 Entwicklungen
             (Frequenz, Erwerbsalter) relevant
                                                                 Bibliographie
         I   Längere Texte erzielen beste Klassifikation,
             aber schon mit 100 Wörtern werden >80% erzielt.

                                                                               LEAD
                                                                               Graduate School

                                                                                  11 / 16
Zur automatischen
Von Texten zu Sätzen                                                   Analyse der
                                                                       Lesbarkeit von
                                                                     Texten und Sätzen
                                                                          Detmar Meurers

                                                                     Lesbarkeit
                                                                     Traditionelle
                                                                     Lesbarkeitsformeln

                                                                     Analyse aus Sicht
  I   Kann unser Modell Lesbarkeit auf Satzebene berechnen?          des Spracherwerbs
                                                                     Experimentelle Sandkiste

      → Potentiell ja, da keine Diskursfeatures                      WeeBit Korpus
                                                                     Maße aus der
                                                                     Spracherwerbsforschung

  I   Eine Lesbarkeitsanalyse auf Satzebene ermöglicht es           Experimente mit WeeBit
                                                                     Vergleich mit kommerziellen
                                                                     Systemen
        I   schwierige Sätze für Vereinfachung zu identifizieren   Gesprochene Sprache

        I   Vereinfachung zu evaluieren                              Von Texten zu Sätzen
                                                                     Von English zu Deutsch

                                                                     Zusammenfassung
  I   Korpus: Wikipedia–Simple Wikipedia (Zhu et al. 2010)
                                                                     Entwicklungen
        I   Paare von schweren und leichten Sätzen                  Bibliographie

                                                                                   LEAD
                                                                                   Graduate School

                                                                                      12 / 16
Zur automatischen
Lesbarkeitsanalyse für Sätze (Vajjala & Meurers 2014a)                  Analyse der
                                                                         Lesbarkeit von
                                                                       Texten und Sätzen
                                                                            Detmar Meurers

                                                                       Lesbarkeit
                                                                       Traditionelle
                                                                       Lesbarkeitsformeln

                                                                       Analyse aus Sicht
                                                                       des Spracherwerbs
                                                                       Experimentelle Sandkiste
                                                                       WeeBit Korpus
                                                                       Maße aus der
                                                                       Spracherwerbsforschung
                                                                       Experimente mit WeeBit
                                                                       Vergleich mit kommerziellen
                                                                       Systemen
                                                                       Gesprochene Sprache
                                                                       Von Texten zu Sätzen
                                                                       Von English zu Deutsch

                                                                       Zusammenfassung

                                                                       Entwicklungen

                                                                   !   Bibliographie

   I Einfache Texte enthalten auch schwere Sätze.
   I Vereinfachung ist relativ: Vereinfachter Satz einfacher als
     Ursprungsversion, aber schwerer als andere Sätze.
   I Neu: Ranking Classifier Ansatz (10-fold CV): 89.7%
                                                                                     LEAD
                                                                                     Graduate School

                                                                                        13 / 16
Zur automatischen
Lesbarkeitsanalyse für das Deutsche                                          Analyse der
                                                                             Lesbarkeit von
(Hancke, Meurers & Vajjala 2012)                                           Texten und Sätzen
                                                                                Detmar Meurers

                                                                           Lesbarkeit
                                                                           Traditionelle
                                                                           Lesbarkeitsformeln

                                                                           Analyse aus Sicht
   I   Deutsches Korpus erstellt aus GEO und GEOlino Artikeln              des Spracherwerbs
                                                                           Experimentelle Sandkiste
                                                                           WeeBit Korpus
         I   GEOlino ist eigenständig verfasst (kein vereinfachtes GEO)   Maße aus der
                                                                           Spracherwerbsforschung
                                                                           Experimente mit WeeBit
   I   Verwendete Merkmale:                                                Vergleich mit kommerziellen
                                                                           Systemen
                                                                           Gesprochene Sprache
         I   lexikalische, syntaktische Maße                               Von Texten zu Sätzen

         I   sprachspezifische Flexions- und Derivationsmorphologie        Von English zu Deutsch

                                                                           Zusammenfassung
   I   Ergebnis für binäre Klassifikation (WEKA SMO, 10-fold CV)         Entwicklungen

                                                                           Bibliographie
         I   90% Genauigkeit
         I   85% morphologische Merkmale alleine

                                                                                         LEAD
                                                                                         Graduate School

                                                                                            14 / 16
Zur automatischen
Zusammenfassung                                                           Analyse der
                                                                         Lesbarkeit von
                                                                       Texten und Sätzen

  I   Spracherwerbsmaße sind hilfreich für Lesbarkeitsanalyse              Detmar Meurers

                                                                       Lesbarkeit
        I   Derzeit einer der besten Ansätze für das Englische       Traditionelle
        I   Eines von wenigen, aktuellen Systemen für das Deutsche    Lesbarkeitsformeln

                                                                       Analyse aus Sicht
            (früher: DeLite, Vor der Brück et al. 2008)              des Spracherwerbs
                                                                       Experimentelle Sandkiste
                                                                       WeeBit Korpus
  I   Breite linguistische Modellierung lohnt sich: Eine Vielzahl      Maße aus der
                                                                       Spracherwerbsforschung
      sprachlicher Eigenschaften relevant für Lesbarkeitsanalyse      Experimente mit WeeBit
                                                                       Vergleich mit kommerziellen
                                                                       Systemen

  I   Lesbarkeitsanalyse auch effektiv auf Satzebene, vor allem        Gesprochene Sprache
                                                                       Von Texten zu Sätzen

      als relatives Ranking                                            Von English zu Deutsch

                                                                       Zusammenfassung
  I   Texte enthalten unterschiedlich komplexe Sätze                  Entwicklungen
        I Schwierigkeiten können automatisch identifiziert werden     Bibliographie

        I unterstützt manuelle und ggf. automatische Vereinfachung

        I Individuelle Adaption von Texten, die Eigenschaften des

          Lesers berücksichtigt (z.B. Alter, Migrationshintergrund)
       ⇒ Disserationsprojekt von Sowmya Vajjala
                                                                                     LEAD
                                                                                     Graduate School

                                                                                        15 / 16
Zur automatischen
Aktuelle Entwicklungen                                                  Analyse der
                                                                       Lesbarkeit von
                                                                     Texten und Sätzen
                                                                          Detmar Meurers

  I   Analyse des Effekts von Lesbarkeit auf Fragebögen zur         Lesbarkeit
                                                                     Traditionelle

      Lehrqualitätsevaluation (Göllner et al. GEBF 2014 Vortrag)   Lesbarkeitsformeln

                                                                     Analyse aus Sicht
                                                                     des Spracherwerbs
  I   Anwendung von Lesbarkeitsanalyse zum Ranken von                Experimentelle Sandkiste
                                                                     WeeBit Korpus
      Suchergebnissen (Vajjala & Meurers 2013)                       Maße aus der
                                                                     Spracherwerbsforschung
                                                                     Experimente mit WeeBit
  I   LEAD Projekt zur Analyse kognitiver Korrelate von              Vergleich mit kommerziellen
                                                                     Systemen

      Lesbarkeit durch Blickbewegungsmessung (mit K. Scheiter)       Gesprochene Sprache
                                                                     Von Texten zu Sätzen
                                                                     Von English zu Deutsch

  I   LEAD Projekt ReadingDemands: Ist die Lesbarkeit                Zusammenfassung

      deutscher Schulbücher auf die Leser abgestimmt                Entwicklungen

      (Schultyp, Klassenstufe)? (mit Berendes & Bryant)              Bibliographie

  I   LEAD Projekt ReBil: Towards Appropriate Reading
      Material for Bilingual Classrooms (mit Kessler & Jonkmann)

                                                                                   LEAD
                                                                                   Graduate School

                                                                                      16 / 16
Zur automatischen
Artikel mit genauerer Information                                                 Analyse der
                                                                                 Lesbarkeit von
                                                                               Texten und Sätzen
                                                                                    Detmar Meurers
  I Sowmya Vajjala & Detmar Meurers (2014) “Readability Assessment for
     Text Simplification: From Analyzing Documents to Identifying              Lesbarkeit
                                                                               Traditionelle
     Sentential Simplifications”. Int. Journal of Applied Linguistics          Lesbarkeitsformeln

  I Sowmya Vajjala & Detmar Meurers (2014) “Assessing the relative             Analyse aus Sicht
                                                                               des Spracherwerbs
     reading level of sentence pairs for text simplification.” EACL.           Experimentelle Sandkiste
                                                                               WeeBit Korpus
  I Sowmya Vajjala & Detmar Meurers (2014) “Exploring Measures of              Maße aus der
                                                                               Spracherwerbsforschung
     ‘Readability’ for Spoken Language: Analyzing linguistic features of       Experimente mit WeeBit

     subtitles to identify age-specific TV programs.” Workshop on Predicting   Vergleich mit kommerziellen
                                                                               Systemen

     and Improving Text Readability for Target Reader Populations (PITR)       Gesprochene Sprache
                                                                               Von Texten zu Sätzen
  I Sowmya Vajjala & Detmar Meurers (2013) “On The Applicability of            Von English zu Deutsch

     Readability Models to Web Texts.” Workshop on Predicting and              Zusammenfassung

     Improving Text Readability for Target Reader Populations (PITR).          Entwicklungen

  I Julia Hancke, Sowmya Vajjala & Detmar Meurers (2012) “Readability          Bibliographie

     Classification for German using lexical, syntactic, and morphological
     features”. COLING.
  I Sowmya Vajjala & Detmar Meurers (2012) “On Improving the Accuracy
     of Readability Classification using Insights from Second Language
     Acquisition”. Proceedings of BEA Workshop at ACL.
                                                                                             LEAD
                                                                                             Graduate School
  ⇒ Verfügbar unter http://purl.org/dm/papers
                                                                                                16 / 16
References                                                                                                             Zur automatischen
                                                                                                                          Analyse der
                                                                                                                         Lesbarkeit von
                                                                                                                       Texten und Sätzen
CCSSO (2010). Common Core State Standards for English Language Arts & Literacy in History/Social Studies,
                                                                                                                            Detmar Meurers
     Science, and Technical Subjects. Appendix B: Text Exemplars and Sample Performance Tasks. Tech. rep.,
     National Governors Association Center for Best Practices, Council of Chief State School Officers.
                                                                                                                       Lesbarkeit
     http://www.corestandards.org/assets/Appendix B.pdf.
                                                                                                                       Traditionelle
Chall, J. S. & E. Dale (1995). Readability Revisted: The New Dale-Chall Readability Formula. Brookline Books.          Lesbarkeitsformeln
DuBay, W. H. (2004). The Principles of Readability. Costa Mesa, California: Impact Information. URL
     http://www.impact-information.com/impactinfo/readability02.pdf.                                                   Analyse aus Sicht
Feng, L. (2010). Automatic Readability Assessment. Ph.D. thesis, City University of New York (CUNY). URL               des Spracherwerbs
     http://lijun.symptotic.com/files/thesis.pdf?attredirects=0.                                                       Experimentelle Sandkiste

Hancke, J., D. Meurers & S. Vajjala (2012). Readability Classification for German using lexical, syntactic, and        WeeBit Korpus

     morphological features. In Proceedings of the 24th International Conference on Computational Linguistics          Maße aus der
                                                                                                                       Spracherwerbsforschung
     (COLING). Mumbay, India, pp. 1063–1080. URL http://aclweb.org/anthology-new/C/C12/C12-1065.pdf.
                                                                                                                       Experimente mit WeeBit
Housen, A. & F. Kuiken (2009). Complexity, Accuracy, and Fluency in Second Language Acquisition. Applied
                                                                                                                       Vergleich mit kommerziellen
     Linguistics 30(4), 461–473. URL http://applij.oxfordjournals.org/content/30/4/461.full.pdf.                       Systemen
Kincaid, J. P., R. P. J. Fishburne, R. L. Rogers & B. S. Chissom (1975). Derivation of new readability formulas        Gesprochene Sprache
     (Automated Readability Index, Fog Count and Flesch Reading Ease Formula) for Navy enlisted personnel.             Von Texten zu Sätzen
     Research Branch Report 8-75, Naval Technical Training Command, Millington, TN.                                    Von English zu Deutsch
Lu, X. (2010). Automatic analysis of syntactic complexity in second language writing. International Journal of
     Corpus Linguistics 15(4), 474–496.                                                                                Zusammenfassung
Lu, X. (2011). A Corpus-Based Evaluation of Syntactic Complexity Measures as Indices of College-Level ESL
     Writers’ Language Development. TESOL Quarterly 45(1), 36–62.                                                      Entwicklungen
Lu, X. (2012). The Relationship of Lexical Richness to the Quality of ESL Learners’ Oral Narratives. The Modern        Bibliographie
     Languages Journal pp. 190–208.
McCarthy, P. M. (2005). An assessment of the range and usefulness of lexical diversity measures and the potential
     of the measure of textual, lexical diversity (MTLD). Ph.D. thesis, University of Memphis. URL
     https://umdrive.memphis.edu/pmmccrth/public/Papers/MTLD20dissertation.doc.
Meurers, D. (2012). Natural Language Processing and Language Learning. In C. A. Chapelle (ed.), Encyclopedia
     of Applied Linguistics, Oxford: Wiley. URL http://purl.org/dm/papers/meurers-12.html.
Nelson, J., C. Perfetti, D. Liben & M. Liben (2012). Measures of Text Difficulty: Testing their Predictive Value for
     Grade Levels and Student Performance. Tech. rep., The Council of Chief State School Officers. URL
     http://purl.org/net/Nelson.Perfetti.ea-12.pdf.
Ortega, L. (2003). Syntactic complexity measures and their relationship to L2 proficiency: A research synthesis of                   LEAD
                                                                                                                                     Graduate School
     college-level L2 writing. Applied Linguistics 24(4), 492–518.
                                                                                                                                        16 / 16
Petersen, S. E. & M. Ostendorf (2009). A machine learning approach to reading level assessment. Computer               Zur automatischen
      Speech and Language 23, 86–106.                                                                                     Analyse der
Vajjala, S. & D. Meurers (2012). On Improving the Accuracy of Readability Classification using Insights from             Lesbarkeit von
      Second Language Acquisition. In J. Tetreault, J. Burstein & C. Leacock (eds.), In Proceedings of the 7th         Texten und Sätzen
      Workshop on Innovative Use of NLP for Building Educational Applications. Montréal, Canada: Association for
                                                                                                                            Detmar Meurers
      Computational Linguistics, pp. 163—-173. URL http://aclweb.org/anthology/W12-2019.pdf.
Vajjala, S. & D. Meurers (2013). On The Applicability of Readability Models to Web Texts. In Proceedings of the
                                                                                                                       Lesbarkeit
      Second Workshop on Predicting and Improving Text Readability for Target Reader Populations.
                                                                                                                       Traditionelle
Vajjala, S. & D. Meurers (2014a). Assessing the relative reading level of sentence pairs for text simplification. In   Lesbarkeitsformeln
      Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics
      (EACL). ACL, Gothenburg, Sweden: Association for Computational Linguistics, pp. 288–297.                         Analyse aus Sicht
Vajjala, S. & D. Meurers (2014b). Exploring Measures of “Readability” for Spoken Language: Analyzing linguistic        des Spracherwerbs
      features of subtitles to identify age-specific TV programs. In Proceedings of the Third Workshop on Predicting   Experimentelle Sandkiste

      and Improving Text Readability for Target Reader Populations. Gothenburg, Sweden: ACL, pp. 21–29.                WeeBit Korpus

Vajjala, S. & D. Meurers (2014c). Readability Assessment for Text Simplification: From Analyzing Documents to          Maße aus der
                                                                                                                       Spracherwerbsforschung
      Identifying Sentential Simplifications. International Journal of Applied Linguistics, Special Issue on Current
                                                                                                                       Experimente mit WeeBit
      Research in Readability and Text Simplification Thomas François and Delphine Bernhard.
                                                                                                                       Vergleich mit kommerziellen
Van Heuven, W. J., P. Mandera, E. Keuleers & M. Brysbaert (2014). Subtlex-UK: A new and improved word                  Systemen
      frequency database for British English. The Quarterly Journal of Experimental Psychology pp. 1–15. URL           Gesprochene Sprache
      http://dx.doi.org/10.1080/17470218.2013.850521.                                                                  Von Texten zu Sätzen
Vor der Brück, T., S. Hartrumpf & H. Helbig (2008). A Readability Checker with Supervised Learning using Deep         Von English zu Deutsch
      Syntactic and Semantic Indicators. Informatica 32(4), 429—-435.
Wolfe-Quintero, K., S. Inagaki & H.-Y. Kim (1998). Second Language Development in Writing: Measures of                 Zusammenfassung
      Fluency, Accuracy & Complexity. Honolulu: Second Language Teaching & Curriculum Center, University of
                                                                                                                       Entwicklungen
      Hawaii at Manoa.
Zhu, Z., D. Bernhard & I. Gurevych (2010). A Monolingual Tree-based Translation Model for Sentence                     Bibliographie
      Simplification. In Proceedings of The 23rd International Conference on Computational Linguistics (COLING),
      August 2010. Beijing, China. pp. 1353–1361.

                                                                                                                                     LEAD
                                                                                                                                     Graduate School

                                                                                                                                        16 / 16
Sie können auch lesen