Pilotierung von Leseflüssigkeits- und Leseverständnistests zur Entwicklung von Instrumenten der Lernverlaufsdiagnostik - Publikationsserver der ...

Die Seite wird erstellt Georg-Thomas Menzel
 
WEITER LESEN
FACHBEITRAG VHN plus

Pilotierung von Leseflüssigkeits- und
Leseverständnistests zur Entwicklung von
Instrumenten der Lernverlaufsdiagnostik
Ergebnisse einer Längsschnittstudie
in der 3ten und 4ten Jahrgangsstufe I
Jana Jungjohann 1, Michael Schurig 2, Markus Gebhardt 1
1
  Universität Regensburg
2
  Technische Universität Dortmund

Zusammenfassung: Individuelle Lernverläufe im Lesen können mittels Lernverlaufsdiagnostik
im Längsschnitt beobachtet werden. Die Lernverlaufstests müssen dafür auch über die Zeit
reliabel und änderungssensibel messen. Dieser pilotierende Beitrag prüft erstmalig die Relia-
bilität sowie die Änderungssensibilität von bereits im Querschnitt evaluierten Lernverlaufs-
tests zur Messung der Leseflüssigkeit und des basalen Leseverständnisses im Längsschnitt.
Zu vier Messzeitpunkten innerhalb eines Schuljahres wurden Lernende des dritten und vierten
Jahrgangs einer regulären Grundschule (N = 90) mit drei Leseflüssigkeitstests (Silben, Wörter,
Pseudowörter) sowie einem Satzverständnistest von externen Testerinnen in der Onlineplatt-
form www.levumi.de getestet. Die Lehrkräfte erhielten am Ende der Studie die Ergebnisse.
Die Ergebnisse zeigen für beide Klassenstufen und alle Messzeitpunkte zufriedenstellende
Paralleltest-Reliabilitätswerte (r = .72 –.90). Im Schnitt steigen die Leseleistungen in 12 Wo-
chen zwischen 2.15 (0.55) und 5.41 (0.98) Items. 4.26 –14.80 % der Lernenden zeigen negative
Lernverläufe (b = -0.8 –-4.0), die anteilig durch studiendesignbedingte Deckeneffekte erklärt
werden können. Die Befunde der Pilotstudie deuten auf eine grundsätzliche Einsatzmöglich-
keit der Tests im Feld hin, sodass sie bei größeren Studien Verwendung finden können.
Schlüsselbegriffe: Leseentwicklung, Lernverlaufsdiagnostik, Leseflüssigkeit, Leseverständnis,
Grundschule
Piloting Reading Fluency and Reading Comprehension Tests
for the Development of Instruments for Curriculum-Based Measurement.
Results of a Longitudinal Study in 3rd and 4th Grade
Summary: Individual learning progress in reading can be longitudinally monitored by curri-
culum-based measurement. For this purpose, the learning progress tests must measure
reliably and change sensitively over time. For the first time, this pilot paper examines the
reliability as well as the change sensitivity of curriculum-based measurement for ­quantifying
reading fluency and reading comprehension in the second half of primary school over a
school year. To this end, reading developments in the 3rd and 4th grades (N = 90) were
measured at four measurement points in time. For each measurement point, the learners
were tested with three reading fluency tests (syllables, words, pseudowords) and a sentence
comprehension test from the online platform www.levumi.de. The teachers received the
results at the end of the study. The results show satisfactory parallel test reliability values
(r = .72 –.90) for both grades levels and all measurement points. On average, the reading
performance increases between 2.15 (0.55) and 5.41 (0.98) items in 12 weeks. 4.26 –14.80 %
of the learners show negative slopes (b = -0.8 –-4.0), which can be proportionally explained
by design-related ceiling effects. The findings of the pilot study indicate that the tests can
basically be used in the field so that they can be applied in larger studies.
Keywords: Curriculum-based measurement, primary school, reading comprehension, reading
development, reading fluency

                   VHNplus, 90. Jg. (2021) DOI 10.2378/vhn2021.art12d       1
                                              © Ernst Reinhardt Verlag
JANA JUNGJOHANN, MICHAEL SCHURIG, MARKUS GEBHARDT
FACHBEITRAG VHN plus
                              Pilotierung von Leseflüssigkeits- und Leseverständnistests

1    Lernverlaufsdiagnostik                         len (Mayer, 2016; Hesse & Latzko, 2011), stehen
     im Bereich Lesen                               bisher nur wenige geprüfte Tests zur Erfassung
                                                    der Lernentwicklung zur Verfügung (Jung­
Der Erwerb basaler Lesekompetenzen aller Ler-       johann, Gegenfurtner & Gebhardt, 2018).
nenden ist ein zentrales Ziel der Grundschule,
um eigenständig und sicher Informationen            Der Ansatz der Lernverlaufsdiagnostik wurde
aus Texten konstruieren zu können (Scheerer-        unter starkem Einfluss des US-amerikanischen
Neumann, 2015). Zu den bedeutendsten Schrit-        Konzepts curriculum-based measurement (CBM;
ten des Leseerwerbs in der Grundschule zählen       Deno, 1985) in Deutschland verbreitet. Er er-
die Entwicklung einer angemessenen schnellen        möglicht durch leicht handhabbare Tests mit
Leseflüssigkeit sowie ein sicheres basales Lese-    kurzer Durchführungsdauer das Abbilden von
verständnis (Klicpera, Schabmann, Gasteiger-        individuellen Lernverläufen als Kurven im
Klicpera & Schmidt, 2017; Lenhard & Artelt,         zeitlichen Verlauf (Klauer, 2011). Diese Lern-
2009; Rosebrock & Nix, 2017). Allerdings ge-        verläufe können Lehrkräften eine ­Rückmeldung
lingt der Leseerwerb bei einzelnen Schülerin-       geben, ob und in welchem Ausmaß ihre Schü-
nen und Schülern unterschiedlich gut. Ca. 20 %      lerinnen und Schüler vom angebotenen Un­
verlassen die Grundschule ohne ausreichende         terricht profitieren. Die Intention der Lernver-
Lesekompetenzen für das Lernen in der Sekun-        laufsdiagnostik ist, der Manifestierung von
darstufe, wie die internationale Lesekompe-         Schwierigkeiten präventiv vorzubeugen (Deno,
tenzstudie IGLU 2016 in Deutschland aufzeigt        Fuchs, Marston & Shin, 2001). Das kann ge­
(Hußmann et al., 2017). Besorgniserregend ist,      lingen, da Lernende mit besonderen Unter-
dass der Anteil der schwachen Leserinnen und        stützungsbedarfen durch langsam ansteigende
Leser im Vergleich zu den Vorgängerkohorten         oder stagnierende Lernverläufe identifizierbar
2006 und 2011 gewachsen ist (Bos, Valtin, Huß-      sind. Die Tests der Lernverlaufsdiagnostik sind
mann, Wendt & Goy, 2017).                           für einen häufigen Einsatz im Unterricht mög-
                                                    lichst praktikabel konstruiert. Sie zeichnen
Insbesondere Schülerinnen und Schüler mit           sich dadurch aus, dass sie nur wenige Minuten
einem Risiko für Leseschwierigkeiten im inklu-      dauern, zahlreiche Parallelversionen für einen
siven Unterricht oder an der Förderschule be-       wiederholenden Einsatz bereitstellen und leicht
nötigen einen Unterricht, der ihre individuel-      interpretierbar sind, trotzdem aber den Ansprü-
len Lernvoraussetzungen und Lernbedürfnisse         chen einer reliablen Messung im Längsschnitt
berücksichtigt und fördert (Walter, 2008). Das      genügen (Wilbert, 2014).
Ziel des Leseunterrichts ist es, die Lernenden
bei aufkommenden Lernschwierigkeiten früh-          In Anlehnung an amerikanische Forschungser-
zeitig effektiv zu fördern, sodass sich Schwie-     gebnisse wurden einige deutschsprachige Lern-
rigkeiten nicht langfristig manifestieren. Damit    verlaufsdiagnostiken zur Erfassung von Lese-
Schwierigkeiten im Lesen möglichst frühzeitig       kompetenzen in der Grundschule konstruiert
sichtbar werden, werden diagnostische Infor-        (z. B. Gebhardt, Diehl & Mühling, 2016; Voß &
mationen über den Lernstand und die Lernent-        Blumenthal, 2020; Walter, 2010 a; 2013). Lern-
wicklungen der Lernenden in den Unterricht          verlaufstests für das Lesen sind üblicherweise
einbezogen. Hierbei werden diagnostische            als eindimensionale Konstrukte konstruiert. Sie
Instrumente verwendet, welche entweder              messen meist robuste Indikatoren wie die Lese-
den Status quo oder die Lernentwicklung er-         flüssigkeit, die mit einer umfassenden Kompe-
fassen (Hartke, 2017). Während es für den           tenz hoch korrelieren (Deno, Mirkin & Chiang,
deutschsprachigen Raum viele Lesetests gibt,        1982; Fuchs, Fuchs, Hosp & Jenkins, 2001). Die
um den Status quo des Lernstandes festzustel-       Leseflüssigkeit wird häufig durch lautes Vor­

                     2        VHNplus
JANA JUNGJOHANN, MICHAEL SCHURIG, MARKUS GEBHARDT
                                                                               FACHBEITRAG VHN plus
                 Pilotierung von Leseflüssigkeits- und Leseverständnistests

lesen von einzelnen Silben, Wörtern oder zu-           die Prüfung der Testgüte mittels der Item-
sammenhängenden Texten erfasst (ebd.). Diese           Response-Theorie empfohlen (Gebhardt, Heine,
Tests dauern meist 60 Sekunden. Während                Zeuch & Förster, 2015; Wilbert & Linnemann,
der Durchführung bewertet eine Lehrkraft, ob           2011). In der zweiten Stufe wird die technische
die Schülerin oder der Schüler korrekt vorliest.       Einsetzbarkeit der Lernverlaufstests im Längs-
Zur Erfassung des Leseverständnisses werden            schnitt geprüft (Fuchs, 2004). Studien dieser
lückenhafte Sätze oder Texte auf Zeit bearbeitet,      Stufe können mit und ohne Rückmeldung der
bei denen mithilfe von vorgegebenen Antwort-           Ergebnisse an die Lehrkräfte erfolgen. Zum
möglichkeiten die Lücken gefüllt werden (Shin,         zweiten Forschungsstadium zählen auch Un-
Deno & Espin, 2000). Beide Indikatoren wer-            tersuchungen der Änderungssensibilität über
den meist als Speedtest ausgewertet.                   Zuwachsraten mittels linearer Regressionsana-
                                                       lysen. In den Studien von Walter (2011 a) und
Die Anwendung der Lernverlaufsdiagnostik               Shin et al. (2000) wurde zunächst die Paral-
umfasst mehrere Schritte: (1) Auswahl p
                                      ­ assender       leltest-Reliabilität mittels Pearson-Produkt-
Lernverlaufstests, (2) Durchführung mehrerer           Moment-Korrelation zwischen den einzelnen
Messungen, (3) Übertragung der Messergebnis­           Messzeitpunkten anhand von Stichproben
se in einen Lernverlaufsgraphen, (4) Ableitung         ohne Kon­trollgruppe geprüft. Anschließend
von zukünftigen Lernzielen und (5) Planung             wurden die Mittelwerte mit Standardabwei-
und Adaption von Förderungen auf der Basis             chungen zu ­allen Messzeitpunkten auf de-
der Lernverlaufsdaten (data-based decision-            skriptiver Ebene beschrieben und auf signifi-
making; Hosp, Hosp & Howell, 2007). Je nach            kante Mittelwertsunterschiede hin überprüft.
Einsatzzweck variieren die zeitlichen Abstände         Die Sensibilität der Messverfahren wird durch
zwischen den Tests sowie die Häufigkeit der            mehrere aus der Theorie und Empirie abgelei-
Messungen (Deno, 2003). Durch wöchentliche             tete Hypothesen, wie Unterschiede zwischen
Messungen können Lernentwicklungen ein­                Leistungsgruppen, Klassenstufen oder in der
zelner Schülerinnen und Schüler kleinschrittig         Entwicklung, geprüft. In beiden Studien wird
beobachtet werden, um Effekte von intensiven           nicht beschrieben, ob die Lehrkräfte Rückmel-
und zeitaufwendigen Förderungen zu beurtei-            dungen über die Lernverläufe ihrer Schülerin-
len. Messergebnisse von ganzen Schulklassen            nen und Schüler erhielten. In der dritten Stufe
mit größeren Messabständen von mehreren                der Erforschung der Lernverlaufsdiagnostik
Monaten werden hingegen genutzt, um Risiko-            nach Fuchs (2004) werden die Effektivität und
kinder zu identifizieren.                              der prak­tische Nutzen der Lernverlaufsdia-
                                                       gnostik bei ihrer Anwendung durch Lehrkräfte
                                                       im Feld untersucht (Stufe 3). Studien der Stu-
2     Die Erforschung einer                            fen 1 und 2 sind Voraussetzung für die Belast-
      Lernverlaufsdiagnostik                           barkeit der Maße vor einem Praxiseinsatz, die
                                                       stets meh­rere Messzeitpunkte einer abhän-
Zur Erforschung und Erprobung einer Lern-              gigen, meist kleineren Stichprobe enthalten
verlaufsdiagnostik schlägt Fuchs (2004) ein            (Voß & Geb­hardt, 2017). Förster, Kuhn und
dreistufiges Vorgehen vor. Zuerst müssen die           Souvignier (2017) ergänzen die Stufen nach
Reliabilität und die Objektivität im Querschnitt       Fuchs (2004) und beschreiben eine Abhängig-
zu einem Messzeitpunkt anhand einer großen             keit in Nor­mierungsstudien zwischen den spe-
Stichprobe überprüft werden (Stufe 1). Dies            zifischen Bedingungen und dem individuellen
wird häufig gemäß dem Vorgehen der klas­               Einsatzzweck der geprüften Lernverlaufsdia-
sischen Testtheorie gemacht (Jungjohann, Ge-           gnostik. Die Autorengruppe nennt als grundle-
genfurtner & Gebhardt, 2018). Alternativ wird          gende Voraussetzung für eine Übertragbarkeit

                                                                   VHNplus     3
JANA JUNGJOHANN, MICHAEL SCHURIG, MARKUS GEBHARDT
FACHBEITRAG VHN plus
                               Pilotierung von Leseflüssigkeits- und Leseverständnistests

von Vergleichswerten eine möglichst hohe Ver-        Monat (Shin et al., 2000) beschrieben. Für den
gleichbarkeit der schulischen Bedingungen,           Vergleich von Lernentwicklungen werden die
der Testsituation sowie der Art des prakti-          durchschnittlichen Zuwachsraten aller Lernen-
zierten Un­terrichts während der Studien. Nur        den im regulären Unterricht ohne Intervention
wenn in Studien schulalltagsähnliche Bedin-          benötigt. Zur Modellierung von Zuwachsraten
gungen herrschen, werden Erkenntnisse über           werden meist lineare Modelle mit Betrachtung
spezifische Lernverläufe in verschiedenen            der Steigung als unstandardisiertem b-Wert (Re-
schulischen Settings ermöglicht.                     gressionskoeffizient) herangezogen (Deno et al.,
                                                     2001; Graney, Missall, Martínez & Bergstrom,
                                                     2009; Silberglitt & Hintze, 2005; Walter, 2010 b;
2.1 Vergleichswerte im                               2011 a). Alternativ können auf Aggregatebene
    Querschnitt und Längsschnitt                     auch diskontinuierliche Zuwachsraten mittels
                                                     komplexerer Vorgehensweisen abgetragen wer-
Um die Ergebnisse einer Lernverlaufsdiagnos-         den, wie beispielsweise bei Nese et al. (2012)
tik für diagnostische Zwecke im Unterricht           durch hierarchische Modelle. Der Nachteil der
zu nutzen, ziehen Lehrkräfte querschnittliche        Modellierung diskontinuierlicher Zuwachs­
Vergleichswerte zu einem Messzeitpunkt und           raten ist jedoch, dass die Anforderungen an die
durchschnittliche Zuwachsraten einer Kontroll-       Stichprobe höher und die Vorannahmen zum
gruppe im Längsschnitt zwischen mehreren             erwarteten Wachstum umfänglicher sind als
Messzeitpunkten heran (Shinn, 2007). Die Roh-        bei Analysen mittels linearer Modelle. Eine ho-
werte eines Kindes können zur besseren Inter-        he Präzision bei der Schätzung von Wachs-
pretation und zur Beschreibung des Leistungs-        tumskurven erreichen latente Wachstumskur-
niveaus zu normativen Vergleichswerten (engl.        venmodelle unter expliziter Berücksichtigung
benchmark) in Beziehung gesetzt werden (Förs-        der Messfehlertheorie (Yeo, Fearrington &
ter et al., 2017). Häufig werden zur Feststellung    Christ, 2012). Bei diesem Ansatz stellt jeder
des Status quo Vergleichsnormen zu definier-         Messzeitpunkt einen Indikator für die latente
ten Zeitpunkten angeboten. Diese Vergleichs-         Steigung und das Ausgangsniveau der Steigung
normen bestehen aus Ergebnissen einer Quer-          (engl. intercept) dar. Die Anzahl der Messzeit-
schnittsstudie, in der die Schülerinnen und          punkte steht aber im Zusammenhang mit der
Schüler keine spezifische Intervention er-           benötigten Stichprobengröße (Muthén & Cur-
halten. Häufig werden für die Instrumente zu         ran, 1997). Für latente Wachstumskurvenmo-
drei bis vier Messzeitpunkten pro Schuljahr          delle werden generell umfangreichere Stich-
(z. B. Herbst, Winter, Frühjahr, Sommer) Nor-        pro­ben benötigt als bei einer linearen Regres-
men abgeleitet und getrennt nach Klassenstufe        sion. Auch werden nicht individuelle, sondern
deskriptiv beschrieben (Good, Simmons &              mittlere Wachstumswerte geschätzt. Die in-
Kame’enui, 2001; Grapin, Kranzler, Waldron,          dividuellen Werte werden als Abweichungen
Joyce-Beaulieu & Algina, 2017).                      begriffen, deren Schätzung stark von der Re­
                                                     liabilität des mittleren Wachstums abhängt.
Neben den querschnittlichen Normen gibt es           Wenn das mittlere Wachstum eine hohe Va­
auch den Vergleich der Lernentwicklung an-           rianz aufweist, werden individuelle Schätzun-
hand von längsschnittlichen Zuwachsraten             gen ungenauer. Die Schätzung der Lernzuwäch­
(engl. slope). In der Lernverlaufsdiagnostik­        se mittels linearer Regressionen berücksichtigt
forschung werden die Lernentwicklungen der           die Messfehlertheorie weniger stark, muss also
Schülerinnen und Schüler über die Zeit mit           als Vereinfachung gesehen werden. Für die Prü-
festen Messabständen pro Woche (Fuchs, Fuchs,        fung der Änderungssensibilität können linea-
Hamlett, Walz & Germann, 1993) oder pro              re Regressionen als hinreichend praktikable

                      4        VHNplus
JANA JUNGJOHANN, MICHAEL SCHURIG, MARKUS GEBHARDT
                                                                                FACHBEITRAG VHN plus
                 Pilotierung von Leseflüssigkeits- und Leseverständnistests

und reliable Indikatoren verwendet werden              hinweg geringer ausfallen als bei Leseflüssig-
(Walter, 2014). Wie jeder andere Messwert              keitstests und dass mit steigendem Alter der Ler-
sind auch b-Werte fehlerbehaftet und die Grö-          nenden die Zuwachsraten geringer ausfallen
ße des Messfehlers eignet sich zur Einschät-           (Fuchs et al., 1993; Graney et al., 2009; Walter,
zung der Angemessenheit der verwendeten                2010 b; 2011 b). Silberglitt und Hintze (2007)
Werte (Christ, Zopluoglu, Monaghen & Van               untersuchen, ob sich Zuwachsraten in Abhän-
Norman, 2013; Walter, 2014). Fuchs et al. (1993)       gigkeit vom Ausgangsniveau verändern. Sie
empfehlen bei der Analyse von Zuwachsra-               modellieren die Zuwachsraten im Lesen von
ten eine Betrachtung des individuellen Aus-            7544 Lernenden in den Klassenstufen zwei
gangsniveaus, um falsche Erwartungen an zu-            bis sechs über ein Schuljahr zu drei Messzeit-
künftige Lernentwicklungen zu vermeiden.               punkten mittels eines hierarchischen linearen
Denn ohne Berücksichtigung des individu­               Wachstumsmodells. Im Vergleich zur Grup-
ellen Ausgangsniveaus werden von Lernenden             pe der durchschnittlichen Schülerinnen und
mit einem geringen Ausgangsniveau höhere               Schüler (50 – 59 Perzentil) waren beim unters-
Lernzuwächse im gleichen Zeitraum erwartet             ten als auch beim obersten Perzentil signifikant
als von Schülerinnen und Schülern mit einem            geringere Zuwachsraten messbar. Dies bestä-
höheren Ausgangsniveau. Für differenzierte             tigt die Relevanz, Perzentilbereiche in der Pilo­
Betrachtungen von Leistungsgruppen wird oft            tierung von Verfahren getrennt zu analysieren.
eine Unterteilung der Zuwachsraten getrennt            Weitere Einflüsse auf die Abbildung der in­
nach Perzentilen vorgenommen (Hasbrouck                dividuellen Lernentwicklungen können durch
& Tindal, 2006; Walter, 2010 b). Alternativ            die erhobene Kompetenz, das konkret ein­
finden sich Aufteilungen der Zuwachsraten              gesetzte Verfahren und die Erhebungsbedin-
nach den manifesten Ausgangsniveaus (Deno              gungen (z. B. Untersuchungszeitraum, Ort der
et al., 2001).                                         Testung, Testleitung, Testsituation) entstehen
                                                       (Christ et al., 2013).

2.2 Erwartungen über durchschnittliche
    Lernverläufe im Lesen                              3     Forschungsfragen

In Anlehnung an Entwicklungsmodelle des                Jedes neue Instrument der Lernverlaufsdia­
Lesens sind bei einem regulären Leseerwerb             gnostik benötigt eigene evaluierende Studien,
gegen Ende der Grundschule geringere Lern-             da Vergleichswerte und Zuwachsraten testspezi-
zuwächse in der Leseflüssigkeit und höhere             fisch sind und durch viele Faktoren beeinflusst
Lernzuwächse im Leseverständnis zu ­erwarten,          werden. Die Onlineplattform www.levumi.de
da durchschnittliche Leserinnen und Leser in           besteht seit 2015 und bietet browserbasierte di-
dieser Phase bereits routiniert flüssig lesen          gitale Lernverlaufstests zur Messung der Lese-
(Müller, Križan, Hecht, Richter & Ennemo-              flüssigkeit und des basalen Leseverständnisses
ser, 2013). Gleichzeitig zeigen ältere Lernende        in der Grundschule an. In Anlehnung an das
geringere Lernzuwächse in basalen Lesekom­             Vorgehen von Fuchs (2004) liegen bereits Stu-
petenzen als jüngere Lernende zu Beginn des            dienergebnisse für die Stufe 1 vor (Gebhardt
Leseerwerbs (Richter, Isberner, Naumann &              et al., 2016; Jungjohann, DeVries, Gebhardt &
Kutzner, 2012). In nationalen und internatio-          Mühling, 2018; Jungjohann, DeVries, Mühling
nalen Forschungsarbeiten zeigt sich die zen­           & Gebhardt, 2018). In diesen Studien wird die
trale Tendenz, dass bei regulärem Grundschul-          psychometrische Güte der hier eingesetzten
unterricht die Zuwachsraten bei den Verfahren          Tests mittels klassischer Testtheorie sowie der
zum Leseverständnis über alle Jahrgangsstufen          Item-Response-Theorie erfolgreich geprüft.

                                                                   VHNplus      5
JANA JUNGJOHANN, MICHAEL SCHURIG, MARKUS GEBHARDT
FACHBEITRAG VHN plus
                               Pilotierung von Leseflüssigkeits- und Leseverständnistests

Beispielsweise wurden in einer Querschnitts­         ministriert, die pro Messzeitpunkt durch eine
studie mit 132 Schülerinnen und Schülern für         zufällige Ziehung aus einem begrenzten Item-
den Test Silbenlesen N4 eine Reliabilität von        pool für jedes Kind eine neue Parallelform er-
rWLE = 0.90 sowie eine Test-Retest-Reliabilität      stellt (Jungjohann, Diehl, Mühling & Gebhardt,
von r = 0.85 beobachtet (Jungjohann, DeVries,        2018). Für alle Levumi-Lesetests werden Pa­
Gebhardt et al., 2018). Zusätzlich wurde die         ralleltest-Reliabilitäten von mindestens r = .80
Eignung der Tests für den Einsatz im leistungs-      (Döring & Bortz, 2016) erwartet. Zweitens
heterogenen Grundschulunterricht mit Schüle-         werden die beobachteten Punktrohwerte de-
rinnen und Schülern mit unterschiedlichen            skriptiv beschrieben. Es wird vermutet, dass
Personenmerkmalen (z. B. Geschlecht, Migra-          die Schülerinnen und Schüler der vierten Jahr-
tionshintergrund, sonderpädagogischer Förder-        gangsstufe zu jedem Messzeitpunkt mehr Auf-
bedarf) untersucht. Ebenso gibt es eine Studie       gaben lösen als die der dritten Jahrgangsstufe.
mit einer standardisierten Leseintervention          Drittens werden die ­Zuwachsraten im Längs-
über ein Schulhalbjahr, in der mäßige bis hohe       schnitt untersucht. Es wird angenommen, dass
positive Korrelationen zwischen den Levumi-          sich distinkte Entwicklungen mittels Metho-
Tests und einem standardisierten Leseverständ­       den der Lernverlaufsdiagnostik nachzeichnen
nistest (ELFE II, Lenhard, Lenhard & Schnei-         lassen. Die dritte und vierte Klassenstufe wer-
der, 2017) von r = 0.52 – 0.81 beobachtet ­wurden    den dabei getrennt voneinander betrachtet,
(Anderson, Jungjohann & Gebhardt, 2020). Ein         um die Unterschiede in den Lernverläufen
Längsschnitt ohne Intervention über ein Schul-       zwischen den Jahrgängen zu beobachten. In
jahr von mehreren Jahrgangsstufen fehlt für die      Anlehnung an die Argu­mentation von Müller
Lesetests von Levumi und stellt einen nächsten       et al. (2013) wird in der vierten Klassenstufe
Schritt in der Prüfung einer Lernverlaufsdia­        eine geringere Lernentwicklung in der Lese-
gnostik nach Fuchs (2004) dar.                       flüssigkeit und eine höhere im Satz­verständnis
                                                     erwartet. Zusätzlich werden unterschiedlich
In der vorliegenden Pilotstudie werden drei          starke Anstiege in den Lernverläufen auf Ebene
Lernverlaufstests zur Messung der Leseflüssig-       der Schülerinnen und Schüler vermutet. Vier-
keit und ein Test zum Leseverständnis zu vier        tens folgt eine differenzierte Betrachtung der
Messzeitpunkten innerhalb eines Schuljahres          Leseentwicklung unterschiedlicher Leistungs-
an einer Partnergrundschule eingesetzt, um die       gruppen. Für die Untersuchung unterschied-
generelle Einsetzbarkeit der Tests im Längs-         licher Leistungsgruppen werden, angelehnt
schnitt in der dritten und vierten Klassenstufe      an frühere Forschungsarbeiten (Hasbrouck &
erstmalig zu überprüfen. In Anlehnung an             Tindal, 2006; Walter, 2010 b), Perzentilgrup-
Walter (2011 a) und Shin et al. (2000) werden        pen gebildet. In Anlehnung an Silberglitt und
die Reliabilität und die Änderungssensibilität       Hintze (2007) werden in den unteren und obe-
der Levumi-Lesetests im Längsschnitt ohne            ren Perzentilen flachere Entwicklungskurven
Kontrollgruppe geprüft. Das Ziel ist, ­pilotierend   angenommen. Gleichzeitig werden vor dem
Lernverläufe und Zuwachsraten in der Leseflüs­       Hintergrund der Ergebnisse von Walter
sigkeit und dem Leseverständnis im regulären         (2010 b) bei den Schülerinnen und Schülern
leistungsheterogenen Unterricht aufzuzeigen,         mit den schwächsten Leseleistungen gerin-
um auf dieser Basis die grundlegende Einsatz-        gere Lösungshäufigkeiten vermutet. Außer-
fähigkeit der Tests in der dritten und vierten       dem wird erwartet, dass die Tests über die
Klassenstufe zu beurteilen. Dafür wird erstens       Grenzen der Jahrgangsstufen hinweg einsatz-
die Paralleltest-Reliabilität zu allen Mess­         fähig sind. Die Prüfung dieser Kriterien kann
zeitpunkten geprüft. Die eingesetzten Testver-       als Facette einer externalen Validierung begrif-
fahren werden in einer Onlineplattform ad­           fen werden (Klauer, 2011).

                      6        VHNplus
JANA JUNGJOHANN, MICHAEL SCHURIG, MARKUS GEBHARDT
                                                                                      FACHBEITRAG VHN plus
                    Pilotierung von Leseflüssigkeits- und Leseverständnistests

4      Methode                                                eine mögliche formative Wirkung der Lern­
                                                              verlaufsdiagnostik zu verhindern, bekamen die
4.1 Stichprobenbeschreibung                                   teilnehmenden Lehrkräfte während der Test-
                                                              phase keinen Einblick in die Ergebnisse. Nach
An der Studie nahm eine inklusive zweizügi-
                                                              der Studie erhielten die Lehrkräfte die Ergeb-
ge Partnergrundschule in städtischer Lage zur
                                                              nisse ihrer Schülerinnen und Schüler sowie
Erprobung der kostenlosen Onlineplattform
                                                              Fortbildungen. In Absprache mit der Schullei-
­Levumi (Gebhardt et al., 2016) teil. Die Stich­
                                                              tung wurden jeweils die Wochen vor den Ferien
 probe umfasst N = 90 Schülerinnen und Schüler
                                                              als Messwochen definiert, um rückläufige Ef-
 (43 Mädchen und 47 Jungen). Zum ersten Mess-
                                                              fekte durch die Ferien zu vermeiden. Die Mes-
 zeitpunkt (Oktober 2017) waren die teilneh­
                                                              sungen fanden in den Kalenderwochen KW 41
 menden Schülerinnen und Schüler im Schnitt
                                                              (Herbst), KW 50 (Winter), KW 11 (Frühling)
 9.2 (SD = 0.69) Jahre alt. Elf Schülerinnen und
                                                              und KW 24 (Sommer) vormittags während in-
 Schüler hatten einen Migrationshintergrund
                                                              dividualisierter Lernzeiten statt. Jeder Klasse
 (Kind oder mindestens ein Elternteil im Ausland              wurde ein fester Testtag zugeteilt, sodass die
 geboren). Zwei Schülerinnen und Schüler hatten               Messabstände bei allen Kindern gleich waren.
 einen diagnostizierten sonderpädagogischen                   Aus methodischer Sicht wäre ein gleichmäßiger
 Förderbedarf (1 × Lernen, 1 × Sprache), zwei                 Abstand zwischen den Messungen wünschens-
 ­andere hatten einen Fluchthintergrund und be-               wert gewesen. Dies war aber aufgrund der Pla-
  fanden sich zu Beginn der Studie im Deutsch­                nung der Schule sowie der Ferienzeiten nicht
  erwerb. Für alle Teilnehmenden lag das Ein­                 möglich und spiegelt die schulischen Einsatz-
  verständnis der Erziehungsberechtigten vor und              bedingungen der Lernverlaufsdiagnostik wi-
  die Teilnahme war freiwillig. Zwei Drittklässler            der. In den größeren Messabständen lagen mehr
  fehlten bei mehr als der Hälfte der Erhebungen              einzelne Ferientage (Feiertage, Karneval). Im
  und wurden aus der Studie genommen. Die bei-                Schnitt lagen 12 Wochen zwischen den Mess-
  den Jahrgänge (nStufe 3 = 47, nStufe 4 = 41) waren in       zeitpunkten. Pro Klassenverband standen in
  jeweils zwei Klassenverbände aufgeteilt. Um den             den Messwochen jeweils drei Schulstunden und
  Einfluss der Klasse auf die einzelnen Ergebnisse            eine geschulte Testerin zur Verfügung. Zu je-
  nachzuvollziehen und damit mögliche Effekte                 dem Messzeitpunkt bearbeiteten die Teilneh-
  auf der Ebene der Klassenzusammensetzung so­                menden drei aufeinanderfolgende Leseflüssig-
  wie der Lehrkräfte zu kontrollieren, wurden die             keitstests als Einzeltests und einen Gruppentest
  Intra-Klassenkorrelationen (ICC) für alle ver-              zum Leseverständnis im schuleigenen Com­
  wendeten Tests bestimmt. Die ICC ­quantifizieren            puterraum. Die Leseflüssigkeitstests wurden
  die Bedeutsamkeit einer Gruppenzugehörigkeit,               stets in derselben Reihenfolge und in der ver-
  also hier der Zugehörigkeit zu den Klassen (Zur-            mutlichen theoretischen Schwierigkeit steigend
  briggen, 2016). Es zeigt sich, dass im Mittel etwa          (Silben, Wörter, Pseudowörter) administriert.
  20 % (ICCSilbenlesen = 14,5 %, ICCWörterlesen = 28,7 %,
  ICCPseudowörterlesen = 16,4 %, ICCSatzlesen = 17,6 %) der
  individuellen Variabilität der Testergebnisse auf           4.3 Erhebungsinstrumente
  die Klassenzugehörigkeit zurückgeführt werden
  kann, was für relativ starke Klasseneffekte bei             Alle eingesetzten Lernverlaufstests sind in der
  den Leseleistungen spricht.                                 Onlineplattform Levumi kostenlos eingebettet
                                                              und auf mehreren Niveaustufen verfügbar. Die
4.2 Studiendesign                                             Niveaustufen der Lesetests sind nach linguis­
                                                              tischen Regeln definiert und generieren die
Zu Beginn der Studie war die Plattform allen                  Schwierigkeit der Aufgaben. Um die Vergleich-
Lehrkräften und Lernenden unbekannt. Um                       barkeit der vier Tests zu sichern, wurden in der

                                                                         VHNplus       7
JANA JUNGJOHANN, MICHAEL SCHURIG, MARKUS GEBHARDT
FACHBEITRAG VHN plus
                                     Pilotierung von Leseflüssigkeits- und Leseverständnistests

vorliegenden Studie alle auf derselben Niveau-                       Der Test zum Leseverständnis präsentiert ein­
stufe (N4) administriert. Nach der Registrierung                     zelne Sätze hintereinander, in denen jeweils ein
werden die Tests digital im Browser durchge-                         Wort fehlt (Jungjohann, DeVries, Mühling et al.,
führt. Sie sind auch als Papierversion frei ­erhält-                 2018). Der Itempool enthält 60 Items. Mithilfe
lich (Jungjohann, Diehl & Gebhardt, 2019; Jung-                      von vier Auswahlwörtern (1 × richtiges Zielwort,
johann & Gebhardt, 2019). Die digitalen Paral-                       3 × Ablenker) konstruieren die Lesenden den
lel­formen werden über eine zufällige Ziehung                        Sinn der Sätze in Stillarbeit. Berücksichtigt wer-
aus fest definierten Itempools generiert. Dies                       den unterschiedliche Argument-Prädikat-Struk-
­erlaubt eine hohe Anzahl von Testwiederholun-                       turen, um theoriegeleitet syntaktische Schwie-
 gen ohne Erinnerungseffekte (Klauer, 2011).                         rigkeitsstufen der deutschen Sprache zu reprä-
                                                                     sentieren. Zum Zeitpunkt der Studie dauerte der
Die theoriegeleiteten Konstruktionen der Lese-
                                                                     Test acht Minuten. Nach Prüfung der Reliabilität
flüssigkeitstests berücksichtigen je nach Testart
                                                                     wurde der Test unter gleichbleibender Reliabi­
(Silbenlesen, Wörterlesen, Pseudowörterlesen)
                                                                     lität aus ökonomischen Gründen auf fünf Mi­
unterschiedliche Leseteilkompetenzen (Jung­
                                                                     nuten verkürzt. Die übliche Bearbeitungszeit
johann & Gebhardt, 2018). Die Tests dauern
                                                                     pro Item liegt bei etwa 10 bis 15 Sekunden.
60 Sekunden und benötigen eine lesekompeten­
te Person zur Beurteilung von Lesefehlern. In den
unabhängigen Itempools existieren 134 Items
für den Silbentest, 61 Items für den Wörtertest                      5          Ergebnisse
und 189 Items für den Pseudowörtertest. Die
Items werden pro Testdurchführung zufällig                           5.1 Reliabilität der eingesetzten
(ohne Zurücklegen) gezogen, sodass hypothe-                              Lernverlaufstests für die
tisch alle Items bearbeitet werden können. Die                           vorliegende Stichprobe
durchschnittlich Lesenden erreichen am Ende
der Grundschule eine schwierigkeitsabhängi-                          Modellanpassung und Reliabilität für die vor-
ge Bearbeitungszeit von 1,5 bis 3 Sekunden                           liegende Stichprobe werden basierend auf einer
pro Item und bearbeiten somit in 60 Sekunden                         Item-Response-Theorie-Skalierung mit dem
20 bis 40 Items in der Leseflüssigkeit.                              R-Paket pairwise (Heine, 2019) geschätzt. Dabei

Tab. 1 Korrelationen der Lesetests zwischen benachbarten Messzeitpunkten

                                             Stufe 3                                                      Stufe 4

                           T1 / T2             T2 / T3              T3 / 4             T1 / T2             T2 / T3               T3 / 4

                      r (KIlow / KIhigh ) r (KIlow / KIhigh ) r (KIlow / KIhigh ) r (KIlow / KIhigh ) r (KIlow / KIhigh ) r (KIlow / KIhigh )

                          .85***               .80***              .79***              .85***              .72***               .82***
Silbenlesen
                       (0.74 / 0.94)         (.66 / .89)        (0.61 / 0.89)       (0.69 / 0.94)       (0.51 / 0.98)        (0.66 / 0.90)
                          .87***              .87***               .86***              .85***              .77***               .87***
Wörterlesen
                       (0.77 / 0.92)       (0.77 / 0.93)        (0.76 / 0.92)       (0.72 / 0.92)       (0.60 / 0.88)        (0.75 / 0.92)
                          .87***              .84***               .85***              .76***              .89***               .87***
Pseudowörterlesen
                       (0.77 / 0.93)       (0.73 / 0.91)        (0.73 / 0.91)       (0.58 / 0.87)       (0.80 / 0.94)        (0.76 / 0.93)
                          .83***              .89***               .90***              .81***              .81***               .86***
Satzlesen
                       (0.71 / 0.91)       (0.80 / 0.94)        (0.81 / 0.95)       (0.65 / 0.91)       (0.64 / 0.90)        (0.75 / 0.92)

Anmerkung: T1 = Herbst 2017, T2 = Winter 2017, T3 = Frühling 2018, T4 = Sommer 2018, KI = ­Konfidenz-
intervall, * p ≤.05, ** p ≤.01, *** p ≤.001

                       8             VHNplus
JANA JUNGJOHANN, MICHAEL SCHURIG, MARKUS GEBHARDT
                                                                                       FACHBEITRAG VHN plus
                 Pilotierung von Leseflüssigkeits- und Leseverständnistests

wurde ein konditionaler Maximum Likelihood                schreiben, werden die Punktrohwerte der Stich-
Ansatz zur Parameterschätzung verwendet. Zur              proben abgebildet. Dafür wurde die Anzahl
robusten Schätzung von Parametern am Rand                 der richtig gelösten Items (Summenwerte) se-
der Verteilung wurden gewichtete Schätzer                 parat für die einzelnen Tests analysiert. In Ta-
(weighted likelihood estimators; WLE) verwen-             belle 2 sind die arithmetischen Mittel (x–) und
det. In Anlehnung an Adams (2005) weisen die              die Standardabweichung der Summenwerte
Tests zum ersten Messzeitpunkt sehr gerin-                aller vier Lesetests zu den vier M
                                                                                           ­ esszeitpunkten
ge Messfehleranteile auf (WLE-Rel.Silben = .96,           getrennt nach Klassenstufe dargestellt. Zusätz-
WLE-Rel.Wörter = .96, WLE-Rel.Pseudowörter = .92,         lich werden die Effektstärken (Cohen’s d) zwi-
WLE-Rel.Satzlesen = .96).                                 schen dem ersten und vierten Messzeitpunkt
                                                          angeführt, um die Größen der Mittelwerts­
Mittels Pearson-Produkt-Moment-Korrelation                unterschiede zu quantifizieren.
wird die Paralleltest-Reliabilität zwischen den
benachbarten Messzeitpunkten geprüft. In Ta-              Tabelle 2 zeigt, dass das arithmetische Mittel
belle 1 sind die Korrelationen inklusive des obe-         der Summenwerte bis auf eine Ausnahme kon-
ren und unteren Konfidenzintervalls getrennt              tinuierlich über alle Messzeitpunkte in beiden
nach Testart und Klassenstufen abgebildet.                Schulstufen hinweg ansteigt. Die Ausnahme
Alle Korrelationen liegen zwischen r = .72 – .90          stellt der Test Pseudowörterlesen zu den Mess-
und sind mit p < .001 signifikant.                        zeitpunkten Frühling und Sommer 2018 in
                                                          Klassenstufe 3 dar (x–Frühling = 22.93 (SD = 8.77);
                                                          x–Sommer = 22.85 (SD = 8.87)). Hier kann kein Lern-
5.2 Punktrohwerte in der dritten                          anstieg beobachtet werden. Die Effekte für die
    und vierten Jahrgangsstufe                            Tests Silbenlesen, Wörterlesen und Satzlesen
                                                          sind in Klassenstufe 3 höher ausgeprägt als im
Um die Lernentwicklung der Schülerinnen                   vierten Jahrgang. Für das Pseudowörterlesen
und Schüler über das Schuljahr hinweg zu be-              liegt ein höherer Effekt für die Klassenstufe 4 vor.

Tab. 2 Arithmetisches Mittel, Standardabweichung und Effektstärken zu allen vier Messzeitpunk­
ten getrennt nach Klassenstufe

                                     Stufe 3                                          Stufe 4

                 Herbst    Winter Frühling Sommer Effekt-         Herbst    Winter Frühling Sommer Effekt-
                  2017     2017     2018    2018 stärke1           2017     2017     2018    2018  stärke

                 x– (SD)   x– (SD)   x– (SD)   x– (SD)   dCohen   x– (SD)   x– (SD)   x– (SD)   x– (SD)   dCohen

                  34.48     42.46     45.64    47.60               42.92     48.71     55.00     58.95
Silbenlesen                                              1.56                                             1.36
                 (12.52)   (14.52)   (14.02)   (12.8)             (14.55)   (11.58)   (11.74)   (12.03)
                  27.30     31.80     35.48      38.0              40.67     41.82     46.12     48.66
Wörterlesen                                              1.54                                             1.11
                 (12.09)   (13.45)   (13.23)   (12.38)            (11.80)   (10.80)   (10.50)   (11.66)
Pseudowörter-    16.72     19.72     22.93     22.85              22.88     24.80     27.93     30.79
                                                         1.05                                             1.37
lesen            (7.34)    (8.74)    (8.77)    (8.87)             (7.20)    (7.78)    (8.65)    (9.03)
                  27.11     33.55     36.89     41.24              39.00     44.71     51.27    53.85
Satzlesen                                                1.93                                             1.31
                 (13.56)   (15.17)   (15.63)   (14.64)            (14.60)   (11.90)   (10.37)   (9.25)

Anmerkung: 1 Die Effektstärke wurde von Messzeitpunkt 1 (Herbst 2017) auf Messzeitpunkt 4 (Sommer
2018) berechnet.

                                                                       VHNplus         9
JANA JUNGJOHANN, MICHAEL SCHURIG, MARKUS GEBHARDT
FACHBEITRAG VHN plus
                                                                        Pilotierung von Leseflüssigkeits- und Leseverständnistests

Abbildung 1 stellt die Lernverläufe der beiden                                                    Satzlesen t (38) = -12.03, p < .001; Stufe 4: Sil-
Jahrgänge gemessen an den durchschnittlichen                                                      ben t (21) = -6.38, p < .001; Wörter t (36) = -6.72,
Summenwerten (= arithmetisches Mittel) dar.                                                       p < .001; Pseudowörter t (36) = -8.34, p < .001;
Als Fehlerbalken wurde das 95 %-Konfidenz­                                                        Satzlesen t (38) = -8.17, p < .001).
intervall verwendet. Beide Gruppen zeigen über
das Schuljahr einen signifikanten Lernzuwachs                                                     Im Test Satzlesen sind die Unterschiede in den
zwischen dem ersten (Herbst 2017) und letz-                                                       Leistungen deutlich und die Konfidenzinterval­
ten (Sommer 2018) Messzeitpunkt. Der Unter-                                                       le überlappen sich zu keinem Messzeitpunkt.
schied zwischen den Messzeitpunkten wurde                                                         Die Leistungen beim Pseudowörterlesen liegen
mittels robust gepaarter t-Tests berechnet, um                                                    hingegen nahe beieinander. Abbildung 1 zeigt,
die paarweise Änderung darzustellen (Stufe 3:                                                     dass die Lernverläufe überwiegend parallel
Silben t(35) = -9.39, p < .001; Wörter t(44) = -10.35,                                            verlaufen und einen kontinuierlichen Anstieg
p < .001; Pseudowörter t (44) = -7.07, p < .001;                                                  vorweisen.

                                                Silbenlesen                                                                          Wörterlesen

                                           60                                                                                   60
                                                                                              Anzahl richtig gelesener Wörter
   Anzahl richtig gelesener Silben

                                           50                                                                                   50

                                           40                                                                                   40

                                           30                                                                                   30

                                           20                                                                                   20
                                                  Herbst      Winter   Frühling   Sommer                                               Herbst      Winter   Frühling   Sommer
                                                   ’17         ’17        ’18       ’18                                                 ’17         ’17        ’18       ’18
                                                Pseudowörterlesen                                                                    Satzlesen
   Anzahl richtig gelesener Pseudowörter

                                           60                                                                                   60
                                                                                              Anzahl richtig gelesener Sätze

                                           50                                                                                   50

                                           40                                                                                   40

                                           30                                                                                   30

                                           20                                                                                   20
                                                  Herbst      Winter   Frühling   Sommer                                               Herbst      Winter   Frühling   Sommer
                                                   ’17         ’17        ’18       ’18                                                 ’17         ’17        ’18       ’18

Abb. 1 Entwicklung der durchschnittlichen Summenscores mit Fehlerbalken über das Schuljahr
2017/ 18 getrennt nach Klassenstufen
Anmerkungen: Grauer Lernverlauf als Linie = Klassenstufe 3; Schwarzer Lernverlauf als Punktlinie =
Klassenstufe 4

                                                              10        VHNplus
JANA JUNGJOHANN, MICHAEL SCHURIG, MARKUS GEBHARDT
                                                                                                                                                  FACHBEITRAG VHN plus
                                              Pilotierung von Leseflüssigkeits- und Leseverständnistests

5.3 Zuwachsraten innerhalb                                                                 are Regression über die vier Messzeitpunkte
    der Klassenstufen                                                                      pro Test berechnet. Diese erlaubt die Schät-
                                                                                           zung des mittleren substanziellen Lernzu-
Um die Lernverläufe beider Jahrgangsstufen                                                 wach­ses. Die Ergebnisse sind in Tabelle 3
miteinander zu vergleichen, wurde eine li­ne-                                              dargestellt.

Tab. 3 Lineare Regressionen der Lernverläufe nach Klassenstufe

                                                                       Stufe 3                                                                    Stufe 4

                                                      Intercept     Steigung (in     Bestimmt-                                  Intercept      Steigung (in         Bestimmt-
                                                                    12 Wochen)       heitsmaß                                                  12 Wochen)           heitsmaß

                                                       α (SEa )        b (SEb )         R²                                       α (SEa )         b (SEb )             R²

Silbenlesen                                          31.76 (2.49)   4.33*** (0.94)    0.1111                                   37.93 (2.78)    5.41*** (0.98)        0.1797
Wörterlesen                                          24.18 (3.59)   3.59*** (0.84)    0.0918                                   37.28 (2.82)    2.18*** (0.80)        0.0746
Pseudowörterlesen                                    15.15 (1.55)   2.15*** (0.55)    0.0766                                   19.89 (1.59)    2.68*** (0.58)        0.1203
Satzlesen                                            23.30 (2.71)   4.57*** (1.00)    0.1064                                   34.45 (2.29)    5.11*** (0.82)        0.2004

Anmerkungen: * p ≤.05, ** p ≤.01, *** p ≤.001

                                       Silbenlesen                                                                           Wörterlesen
                                  25                                                                                    25
  Steigungskoeffizient (b-Wert)

                                                                                        Steigungskoeffizient (b-Wert)

                                  20                                                                                    20
                                  15                                                                                    15
                                  10                                                                                    10
                                   5                                                                                    5
                                   0                                                                                    0
                                  -5                                                                                    -5

                                                 3                     4                                                                 3                      4
                                                        Klassenstufe                                                                          Klassenstufe
                                       Pseudowörterlesen                                                                     Satzlesen
                                  25                                                                                    25
  Steigungskoeffizient (b-Wert)

                                                                                        Steigungskoeffizient (b-Wert)

                                  20                                                                                    20
                                  15                                                                                    15
                                  10                                                                                    10
                                   5                                                                                    5
                                   0                                                                                    0
                                  -5                                                                                    -5

                                                 3                     4                                                                 3                      4
                                                        Klassenstufe                                                                          Klassenstufe

Abb. 2 Verteilung der Steigungskoeffizienten (b-Werte) auf Ebene der Schülerinnen und Schüler
getrennt nach Klassenstufe und Testart

                                                                                                                                 VHNplus           11
JANA JUNGJOHANN, MICHAEL SCHURIG, MARKUS GEBHARDT
FACHBEITRAG VHN plus
                                           Pilotierung von Leseflüssigkeits- und Leseverständnistests

In allen Tests zeigt die dritte Jahrgangsstufe                        nach Testart und Klassenstufen. Gemessen an
einen signifikant geringeren Ausgangswert als                         den individuellen b-Werten zeigen zwischen
die vierte Jahrgangsstufe. Der Unterschied zwi-                       zwei und sieben Schülerinnen und Schüler pro
schen den Klassenstufen wurde mittels unge-                           Klassenstufe (4.26 – 14.80 %) negative Lernver-
paarter t-Tests berechnet (Silben: t (43.45) = -2.45,                 läufe mit b = -0.8 – -4.0 (Silben: nKlasse 3: 4 (8.51 %),
p < .001; Wörter: t(82.87) = -5.18, p < .01; Pseu-                    nKlasse 4: 5 (12.20 %); Wörter: nKlasse 3: 2 (4.26 %),
dowörter t (82.75) = -3.92, p < .001; Satzlesen                       nKlasse4: 4 (9.76 %); Pseudowörter: nKlasse3: 7 (14.80 %),
t (78.01) = -3.83, p < .001). Die Steigungen der                      nKlasse 4: 4 (9.76 %); Satzlesen: nKlasse 3: 6 (12.77 %),
Lernverläufe sind bei beiden Klassen im Mittel                        nKlasse 4: 4 (9.76 %)).
ähnlich hoch und liegen zwischen 2.23 Pseudo­
wörtern Wachstum in 12 Wochen in der dritten
                                                                      5.4 Entwicklung der Lesefähigkeit
Klasse und 5.49 Silben in 12 Wochen in der
                                                                          nach Leistungsgruppen
vierten Klasse. Die Varianzaufklärung R² deu-
tet aber auf ein uneinheitliches Entwicklungs-                        Für eine differenzierte Betrachtung der Lern-
verlaufsmuster hin.                                                   entwicklungen von unterschiedlich starken Le­
                                                                      serinnen und Lesern sind die Zuwachsraten
Auf der Ebene der Schülerinnen und Schüler                            nach Leistungsperzentilen in Anlehnung an die
zeigen sich in beiden Klassenstufen unterschied-                      Studie von Hasbrouck und Tindal (2006) auf-
lich starke Steigungen in den Lernverläufen,                          geteilt. Dadurch wird zusätzlich das indivi­
deren Verteilungen in Abbildung 2 als Boxplot                         duelle Ausgangsniveau der Schülerinnen und
dargestellt sind. Die Boxplots in Abbildung 2                         Schüler berücksichtigt. Exemplarisch werden
zeigen die Verteilungen der b-Werte getrennt                          die Ergebnisse für den Leseflüssigkeitstest Wör-

Tab. 4 Lineare Regressionen im Test Wörterlesen nach Perzentilgruppen 1 getrennt nach Klassen-
stufe

                                           Stufe 3                                                   Stufe 4

                                               Range   Steigung (in                                      Range   Steigung (in
 Perzentil                  Intercept                                                    Intercept
              NPerzentil                     Intercept 12 Wochen)           NPerzentil                 Intercept 12 Wochen)

                                α (SEa )         α         b (SEb )                       α (SEa )         α        b (SEb )

                                 7.08                      3.47**                         16.55                      2.44
    .10           6                            2 –14                            4                        12 –23
                                (2.68)                    (0.98)                          (4.10)                    (1.47)
                                12.57                      3.94***                        24.58                      4.60**
    .25           7                            16 –18                           6                        24 –35
                                (2.11)                    (0.78)                          (4.33)                    (1.58)
                                18.80                      4.75***                        34.25                      3.18***
    .50          10                            20 –26                          10                        36 –42
                                (2.20)                    (0.81)                          (1.64)                    (0.62)
                                28.20                      2.61*                          39.58                      3.97***
    .75          11                            27 –32                          10                        43 –47
                                (2.67)                    (0.97)                          (2.01)                    (0.73)
                                33.57                      4.24***                        49.65                      1.13
    .90           7                            34 –41                           6                        48 –56
                                (2.96)                    (1.08)                          (2.51)                    (0.93)
                                48.01                      2.74*                          59.25                     -0.85
    1.00          5                            42 –60                           4                        57 –61
                                (3.06)                    (1.15)                          (2.65)                    (0.97)

Anmerkungen: 1 Die Perzentilgruppen wurden anhand des Intercepts zum ersten Messzeitpunkt Herbst
2017 gebildet, * p ≤.05, ** p ≤.01, *** p ≤.001

                           12              VHNplus
JANA JUNGJOHANN, MICHAEL SCHURIG, MARKUS GEBHARDT
                                                                                                    FACHBEITRAG VHN plus
                    Pilotierung von Leseflüssigkeits- und Leseverständnistests

terlesen in Tabelle 4 und für den Leseverständ-                    .50- und .75-Perzentil steigen die Lernzuwäch-
nistest Satzlesen in Tabelle 5 abgebildet. Die                     se dieser Klassenstufe signifikant. In Klassen-
Regressionen in den Tests Silben- und Pseudo­                      stufe 4 werden die geringsten Lernzuwächse in
wörterlesen sind ähnlich wie die des Leseflüssig­                  den Randgruppen beobachtet (b.10-Perzentil = 2.44,
keitstests Wörterlesen, sodass an dieser Stelle                    b.90-Perzentil = 1.13, b1.0-Perzentil = -0.85).
auf eine detaillierte Abbildung verzichtet wird.
Die Leistungsperzentile werden anhand des                          Der Leseverständnistest Satzlesen misst wie der
Intercepts zum ersten Messzeitpunkt gebildet.                      Test Wörterlesen in der dritten Klassenstufe in
Schülerinnen und Schüler ohne Messwert zum                         allen Subgruppen signifikante Lernzuwächse.
ersten Messzeitpunkt wurden nicht mit in die                       In der vierten Klassenstufe zeigen sich signi­
Verteilung nach Perzentilen eingeschlossen.                        fikante Lernentwicklungen im .10- bis zum
                                                                   .75-Perzentil. In den oberen Perzentilgruppen
Der Test Wörterlesen misst in allen Perzentil-                     mit den höchsten Ausgangsniveaus wurden
gruppen der Klassenstufe 3 im Mittel signifikant                   nicht signifikante bzw. keine L     ­ ernentwicklungen
steigende Lernzuwächse. Die geringsten Lernzu-                     beobachtet (b.90-Perzentil = 0.93, b1.0-Perzentil = 0.01).
wächse wurden in dieser Klassenstufe in der .75-                   Die mittleren Ausgangswerte zeigen, dass die
Perzentilgruppe sowie in der 1.0-Perzentilgrup­                    Lernenden bereits zum ersten Messzeitpunkt
pe gemessen (b.75-Perzentil = 2.61, b1.0-Perzentil = 2.74).        fast alle Testitems in der Bearbeitungszeit kor-
In Klassenstufe 4 wurden keine signifikanten                       rekt lösen. In beiden Klassenstufen werden bei
Lernzuwächse in der unteren (.10-Perzentil)                        den Lesenden mit dem höchsten Ausgangs­
und in den beiden oberen Perzentilgruppen                          niveau die geringsten Lernanstiege gemessen
(.90- und 1.0-Perzentil) beobachtet. Im .25-,                      (bKlasse 3 = 2.28, bKlasse 4 = -0.85).

Tab. 5 Lineare Regressionen im Test Satzlesen nach Perzentilgruppen 1 getrennt nach Klassen-
stufe

                                         Stufe 3                                                  Stufe 4

                                             Range   Steigung (in                                     Range   Steigung (in
 Perzentil                   Intercept                                                Intercept
                NPerzentil                 Intercept 12 Wochen)          NPerzentil                 Intercept 12 Wochen)

                              α (SEa )         α        b (SEb )                       α (SEa )           α      b (SEb )

                               4.02                      3.19*                         10.63                      6.03**
     .10            5                        3 –10                           4                        5 –20
                              (2.96)                    (1.11)                         (5.00)                    (1.83)
                               9.58                      5.28***                       17.98                      8.40***
     .25            6                        13 –19                          6                        22 –26
                              (3.43)                    (0.90)                         (3.47)                    (1.26)
                              18.36                      5.26***                       28.17                      7.44***
     .50           11                        20 –26                         12                        29 –40
                              (2.47)                    (0.90)                         (2.19)                    (0.80)
                              22.01                      6.73***                       44.67                      3.12**
     .75           11                        26 –34                          8                        42 –54
                              (3.11)                    (1.17)                         (2.95)                    (1.05)
                              36.58                      5.92***                       54.35                      0.93
     .90            6                        35 –44                          6                        55 –58
                              (2.35)                    (0.86)                         (1.50)                    (0.54)
                              50.48                      2.28*                         59.80                      0.01
    1.00            5                        47 –61                          3                        59 –61
                              (2.52)                    (1.00)                         (0.58)                    (0.21)

Anmerkungen: 1 Die Perzentilgruppen wurden anhand des Intercepts zum ersten Messzeitpunkt Herbst
2017 gebildet, * p ≤.05, ** p ≤.01, *** p ≤.001

                                                                                  VHNplus            13
JANA JUNGJOHANN, MICHAEL SCHURIG, MARKUS GEBHARDT
FACHBEITRAG VHN plus
                                                              Pilotierung von Leseflüssigkeits- und Leseverständnistests

                                  Klassenstufe 3                                                                  Klassenstufe 4
                             60                                                                              60
                                                                                                                        1.0- Perz.
                                                                                                                        0.90- Perz.
                                        1.0 - Perz.
    Richtig gelesene Sätze

                                                                                    Richtig gelesene Sätze
                                                                                                                        0.75- Perz.
                                                  erz.
                                        0.90 - P
                             40                                                                              40                   z.
                                                                                                                             - Per
                                                                                                                        0.50
                                                      .
                                               - Perz                                                                        - Per
                                                                                                                                  z.
                                        0.75
                                               - P erz.                                                                 0.25
                                        0 .5 0
                             20                                                                              20
                                                                                                                               erz.
                                                 erz.                                                                   0.10- P
                                        0.25- P

                                        0.10- Perz.
                             0                                                                               0
                                    1                 2           3         4                                       1                2           3    4
                                                      Messzeitpunkte                                                                 Messzeitpunkte

Abb. 3 Lineare Regressionen im Test Satzlesen nach Perzentilgruppen mit 95 % Konfidenzinter-
vallen pro Messzeitpunkt

Der visuelle Vergleich der Lernverläufe z­ wischen                                    ses in der dritten und vierten Jahrgangsstufe
den Jahrgangsstufen zeigt, dass sich die Mittel-                                      im Längsschnitt eingesetzt werden können. In
werte der vierten Jahrgangsstufe zum ersten                                           den Lernverläufen wurden erwartbare De-
Messzeitpunkt mit denen der dritten Jahrgangs-                                        ckeneffekte beobachtet, welche sich aber durch
stufe zum vierten Messzeitpunkt auf dem glei-                                         die Beschränkung auf eine Niveaustufe erklä-
chen Niveau befinden. Dies verdeutlicht die                                           ren lassen. Eine weitere Limitation stellt der
Abbildung 3 exemplarisch anhand der Regres-                                           pilotierende Charakter der Studie dar, da nur
sionslinien im Test Satzlesen getrennt nach Per-                                      eine Schule gemessen wurde. In den Klassen
zentilgruppen. Bei allen Perzentilgruppen wur-                                        können zwar ähnliche Bedingungen vermutet
de in diesem Test kein signifikanter Unterschied                                      werden, aber die Studie erlaubt keine Kontrol-
zwischen den Mittelwerten der vierten Jahrgangs-                                      le schulspezifischer Einflussfaktoren auf die
stufe zum ersten Messzeitpunkt und den Mittel-                                        Lernentwicklungen. Daher muss festgehalten
werten der dritten Jahrgangsstufe zum vierten                                         werden, dass die dargestellten Ergebnisse nicht
Messzeitpunkt gefunden (.10-Perzentil: t(6) = 0.57,                                   generalisierbar sind, da der Stichprobenum-
p > .05; .25-Perzentil: t (10) = 1.51, p > .05; .50-                                  fang und die Untersuchungsbedingungen dies
Perzentil: t (21) = 1.337, p > .05; .75-Perzentil:                                    nicht zulassen. Die Pilotstudie bekräftigt aber
t (15) = 0.83, p > .05; .90-Perzentil: t (10)=1.93,                                   die generelle Konstruktionsweise der vorgeleg-
p > .05; 1.0-Perzentil: t (4) = -1.23, p > .05). Es                                   ten Lernverlaufsdiagnostiktests und zeigt, dass
kann somit von einer guten jahrgangsübergrei-                                         diese stabil sind und auch geringe Lernfort-
fenden Anschlussfähigkeit ausgegangen wer-                                            schritte im unteren Leistungsbereich messen.
den, wenn der ausgewählte Test das jeweilige                                          Daher können die Tests zukünftig bei größeren
Leistungsspektrum der Lesenden abdeckt.
                                                                                      Studien eingesetzt und geprüft werden, um
                                                                                      grundsätzliche Fragen zur Lernentwicklung
6                            Diskussion                                               über die Zeit zu klären.

Die vorliegende Pilotstudie zeigt, dass standar-                                      Die Studienergebnisse sprechen für eine längs-
disierte Lernverlaufstests zur Messung der Le-                                        schnittliche Einsetzbarkeit der Tests in der
seflüssigkeit und des basalen Leseverständnis-                                        zweiten Hälfte der Grundschule. Die Paral­-

                                                  14          VHNplus
JANA JUNGJOHANN, MICHAEL SCHURIG, MARKUS GEBHARDT
                                                                                   FACHBEITRAG VHN plus
                   Pilotierung von Leseflüssigkeits- und Leseverständnistests

leltest-Reliabilität zeigt akzeptable bis hohe            zusätzlich den Abruf aus dem mentalen Le­
Reliabilitäten (r = .72 – .90). Diese Ergebnisse          xikon mit ein und beim Pseudowörterlesen
ähneln den Befunden von Walter (2011 a), der              wird die Lesesynthese mit Silbensegmentie-
Korrelationswerte zwischen r = .74 – .84 einer            rung beansprucht (Jungjohann & Gebhardt,
papierbasierten Lernverlaufsdiagnostik in der             2018). Beim Wörter- und Pseudowörterle-
dritten und vierten Klassenstufe berichtet. Im            sen bestehen die Items überwiegend aus Wör-
Einklang mit den Ergebnissen von Müller et al.            tern mit zwei Silben und sind somit länger als
(2013) und Landerl und Wimmer (2008) wur-                 die Items des Tests Silbenlesen. Für alle drei
den in dieser Studie in der dritten ­Klassenstufe         Leseflüssigkeitstests ergeben sich daher unter-
im Mittel geringere Summenwerte bei allen                 schiedliche Bearbeitungszeiten pro Item, was
Messzeitpunkten und Testarten erwartet und                zu größeren Lernanstiegen bei gleicher Bear-
beobachtet als bei den Lernenden der vierten              beitungszeit führen kann. Diese Beobachtun-
Klassenstufe. Bei den Lernenden der vierten               gen stärken die Argumente von Christ et al.
Klassenstufe wurden zudem größere Lern­                   (2013), dass die Testkonstruktion bei der Inter-
zuwächse im Leseverständnis als bei den jün-              pretation der Zuwachsraten berücksichtigt
geren Lernenden gefunden, wie es ebenfalls                werden muss.
Walter (2011 a) beobachtet. Die mittleren Lern-
zuwächse fielen in beiden Klassenstufen im                Bemerkenswert ist, dass in allen Klassen bei bis
Test Satzlesen größer aus als beim Wort- und              zu 15 % der Schülerinnen und Schüler n   ­ eutrale
Pseudoworttest. Auch dies wurde in nationalen             oder negative Lernverläufe beobachtet wurden.
und internationalen Studien von Zuwachs­ra­               Neutrale und negative Lernverläufe werden häu-
ten im Leseverständnis und der ­Leseflüssigkeit           fig in äußeren Leistungsperzentilen berich-
zuvor beobachtet (Fuchs et al., 1993; Graney              tet (Fuchs et al., 1993; Walter, 2011 a). Sowohl
et al., 2009; Walter, 2010 b; 2011 a). Die Ähn-           Silberglitt und Hintze (2007) als auch Walter
lichkeit zwischen den Studienergebnissen so-              (2010 b) berichten in ihren Studien, dass in den
wie die zuvor geprüfte Homogenität der Items              äußeren Leistungsperzentilen geringere Lern-
(Jungjohann, DeVries, Mühling et al., 2018;               zuwächse gemessen wurden als in den mittle-
Mühling, Jungjohann & Gebhardt, 2019) deu-                ren Perzentilen. Das ist in dieser Studie in der
ten darauf hin, dass die Levumi-Testverfah-               dritten Klassenstufe erkennbar, wo es höhere
ren für die Beobachtung von Lernverläufen in              Lernanstiege in den mittleren Perzentilen gibt
der Zielgruppe reliabel und sensibel messen               als in den äußeren. Trotzdem waren alle An-
können.                                                   stiege signifikant. In der vierten Klassenstufe
                                                          wurden nur in den oberen beiden Perzentilen
Abweichende Studienergebnisse wurden bei den              Deckeneffekte beobachtet. Die Erklärungs­
mittleren Zuwachsraten im Test Silbenlesen                ansätze sind je nach Test unterschiedlich. Im
beobachtet. In beiden Klassenstufen erreichen             Satzlesen lösten die oberen beiden Perzentil-
die Lernenden ähnlich hohe Zuwachsraten wie               gruppen der vierten Klasse bereits zum ersten
beim Satzlesen (Klassenstufe 3: bSilbenlesen = 4.27,      Messzeitpunkt fast alle zur Verfügung stehen-
bSatzlesen = 4.29; Klassenstufe 4: bSilbenlesen = 5.49,   den Items. Für diese Lernenden entstehen die
bSatzlesen = 5.06). Die hohen Zuwachsraten beim           Deckeneffekte vermutlich testbedingt aufgrund
Silbentest können über die Itemkonstruktion               der Testkonstruktion als Speedtest. Im Wörter-
der Levumi-Tests begründet werden. Der Test               lesen erreichen die Lernenden zum ersten
Silbenlesen misst das phonologische Rekodie-              Messzeitpunkt der Studie mit 50 bis 60 Items
ren anhand von einzelnen Silben (Jungjohann               eine hohe und kaum verbesserungsfähige Vor-
et al., 2019). Der Test Wörterlesen schließt              lesegeschwindigkeit.

                                                                      VHNplus       15
JANA JUNGJOHANN, MICHAEL SCHURIG, MARKUS GEBHARDT
    FACHBEITRAG VHN plus
                                  Pilotierung von Leseflüssigkeits- und Leseverständnistests

In Klassen mit einer breiten Leistungshetero­           Literatur
genität sind bei einem engen Lernverlaufsdia­
gnostiktest Deckeneffekte wahrscheinlich. Im            Adams, R. J. (2005). Reliability as a measurement
Testsystem Levumi existieren zum einen Tests              design effect. Studies in Educational ­Evaluation,
verschiedener Niveaustufen und zum ande-                  31 (2 –3), 162 –172. https://doi.org/10.1016/j.stu
                                                          educ.2005.05.008
ren alternative Testbereiche mit komplexeren
                                                        Anderson, S., Jungjohann, J. & Gebhardt, M. (2020).
Kompetenzansprüchen. Für diese Untersuchung               Effects of using curriculum-based ­measurement
wurde zur besseren Vergleichbarkeit nur eine              (CBM) for progress monitoring in reading and an
feste Niveaustufe gewählt. Im Feld wählen zu-             additive reading instruction in second classes.
meist die Lehrkräfte eine Lernverlaufsdiagnostik          Zeitschrift für Grundschulforschung, 13, 151 –166.
für die einzelnen Lernenden aus. Bei auftreten-           https://doi.org/10.1007/s42278-019-00072-5
den Deckeneffekten wären Hinweise auf die An-           Bos, W., Valtin, R., Hußmann, A., Wendt, H. & Goy,
schlussfähigkeit zwischen den Niveaustufen in             M. (2017). IGLU 2016: Wichtige Ergebnisse im
                                                          Überblick. In A. Hußmann et al. (Hrsg.), IGLU
der Praxis hilfreich. Entsprechende Studien und
                                                          2016. Lesekompetenzen von ­Grundschulkindern
Analysen stehen bisher noch aus. Während eine
                                                          in Deutschland im internationalen Vergleich,
händische Auswahl den Lehrkräften mehr Frei-              13 –28. Münster: Waxmann Verlag.
heiten lässt, wäre auch eine adaptive Verbindung        Christ, T. J., Zopluoglu, C., Monaghen, B. D. & Van
der Niveaustufen durch einen breiteren Test               Norman, E. R. (2013). Curriculum-based measure-
möglich. Anstelle einzelner Lesetests mit engen           ment of oral reading: Multi-study evaluation of
Itempools würde der adaptive Test dann Zugriff            schedule, duration, and dataset quality on pro-
auf mehrere Itempools in unterschiedlichen Ni-            gress monitoring outcomes. Journal of School
                                                          Psychology, 51 (1), 19 –57. https://doi.org/10.10
veaustufen haben, aus denen adaptiv gezogen
                                                          16/j.jsp.2012.11.001
wird. Alle Levumi-Lesetests bereiten ein adapti-
                                                        Deno, S. L. (1985). Curriculum-based measurement:
ves Testen vor, da pro Testart mehrere Itempools          The emerging alternative. Exceptional Children,
in unterschiedlichen Niveaustufen existieren.             52 (3), 219 –232. https://doi.org/10.1177/00144
Im Fall von Deckeneffekten könnten zukünftig              0298505200303
schwierigere Items aus höheren Niveaustufen             Deno, S. L. (2003). Developments in curriculum-
automatisch ausgewählt und somit der Test an              based measurement. The Journal of Special Edu-
die Kompetenzen der Lernenden angepasst wer-              cation, 37 (3), 184 –192. https://doi.org/10.1177/
                                                          00224669030370030801
den. Ein solches adaptives Testen könnte ins­
                                                        Deno, S. L., Mirkin, P. K. & Chiang, B. (1982). Identi­
besondere im inklusiven Unterricht mit großen
                                                          fying valid measures of reading. Exceptional
Leistungsunterschieden (Gebhardt, 2015) zwi-              Children, 49 (1), 36 –45.
schen den Lernenden den Einsatz einer Lern­             Deno, S. L., Fuchs, L. S., Marston, D. & Shin, J. (2001).
verlaufsdiagnostik für die Lehrkräfte erleichtern.        Using curriculum-based measurement to es-
                                                          tablish growth standards for students with
                                                          learning disabilities. School Psychology Review,
Anmerkung                                                 30 (4), 507 –524.
                                                        Döring, N. & Bortz, J. (2016). Forschungsmethoden
I
     Zu dem vorliegenden Beitrag sind der verwen-         und Evaluation in den Sozial- und Humanwis-
     dete Datensatz sowie Syntax für R unter fol-         senschaften. Berlin: Springer. https://doi.org/10.
     gender Zitierung veröffentlicht: Jungjohann, J.,     1007/978-3-642-41089-5
     Schurig, M. & Gebhardt, M. (2021). Pilotierung     Förster, N., Kuhn, J.-T. & Souvignier, E. (2017). Nor-
     von Leseflüssigkeits- und ­Leseverständnistests      mierung von Verfahren zur Lernverlaufsdia­
     zur Entwicklung von Instrumenten der Lernver-        gnostik. Empirische Sonderpädagogik, 9 (2),
     laufsdiagnostik. Ergebnisse einer Längsschnitt­      116 –122.
     studie in der 3ten und 4ten Jahrgangsstufe /       Fuchs, L. S. (2004). The past, present, and future of
     Data & Syntax. https://doi.org/10.17605/OSF.IO/      curriculum-based measurement research. School
     4SZY5                                                Psychology Review, 33 (2), 188 –192.

                       16         VHNplus
Sie können auch lesen