Pilotierung von Leseflüssigkeits- und Leseverständnistests zur Entwicklung von Instrumenten der Lernverlaufsdiagnostik - Publikationsserver der ...

Die Seite wird erstellt Georg-Thomas Menzel

Lebensstil

Deutsch

Like
Teilen
Einbetten
Vollbild
Folien
HTML Herunterladen
PDF Herunterladen
Missbrauch

←

WEITER LESEN

→

Transkription von Seiteninhalten

Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten

FACHBEITRAG VHN plus

Pilotierung von Leseflüssigkeits- und
Leseverständnistests zur Entwicklung von
Instrumenten der Lernverlaufsdiagnostik
Ergebnisse einer Längsschnittstudie
in der 3ten und 4ten Jahrgangsstufe I
Jana Jungjohann 1, Michael Schurig 2, Markus Gebhardt 1
1
Universität Regensburg
2
Technische Universität Dortmund

Zusammenfassung: Individuelle Lernverläufe im Lesen können mittels Lernverlaufsdiagnostik
im Längsschnitt beobachtet werden. Die Lernverlaufstests müssen dafür auch über die Zeit
reliabel und änderungssensibel messen. Dieser pilotierende Beitrag prüft erstmalig die Relia-
bilität sowie die Änderungssensibilität von bereits im Querschnitt evaluierten Lernverlaufs-
tests zur Messung der Leseflüssigkeit und des basalen Leseverständnisses im Längsschnitt.
Zu vier Messzeitpunkten innerhalb eines Schuljahres wurden Lernende des dritten und vierten
Jahrgangs einer regulären Grundschule (N = 90) mit drei Leseflüssigkeitstests (Silben, Wörter,
Pseudowörter) sowie einem Satzverständnistest von externen Testerinnen in der Onlineplatt-
form www.levumi.de getestet. Die Lehrkräfte erhielten am Ende der Studie die Ergebnisse.
Die Ergebnisse zeigen für beide Klassenstufen und alle Messzeitpunkte zufriedenstellende
Paralleltest-Reliabilitätswerte (r = .72 –.90). Im Schnitt steigen die Leseleistungen in 12 Wo-
chen zwischen 2.15 (0.55) und 5.41 (0.98) Items. 4.26 –14.80 % der Lernenden zeigen negative
Lernverläufe (b = -0.8 –-4.0), die anteilig durch studiendesignbedingte Deckeneffekte erklärt
werden können. Die Befunde der Pilotstudie deuten auf eine grundsätzliche Einsatzmöglich-
keit der Tests im Feld hin, sodass sie bei größeren Studien Verwendung finden können.
Schlüsselbegriffe: Leseentwicklung, Lernverlaufsdiagnostik, Leseflüssigkeit, Leseverständnis,
Grundschule
Piloting Reading Fluency and Reading Comprehension Tests
for the Development of Instruments for Curriculum-Based Measurement.
Results of a Longitudinal Study in 3rd and 4th Grade
Summary: Individual learning progress in reading can be longitudinally monitored by curri-
culum-based measurement. For this purpose, the learning progress tests must measure
reliably and change sensitively over time. For the first time, this pilot paper examines the
reliability as well as the change sensitivity of curriculum-based measurement for quantifying
reading fluency and reading comprehension in the second half of primary school over a
school year. To this end, reading developments in the 3rd and 4th grades (N = 90) were
measured at four measurement points in time. For each measurement point, the learners
were tested with three reading fluency tests (syllables, words, pseudowords) and a sentence
comprehension test from the online platform www.levumi.de. The teachers received the
results at the end of the study. The results show satisfactory parallel test reliability values
(r = .72 –.90) for both grades levels and all measurement points. On average, the reading
performance increases between 2.15 (0.55) and 5.41 (0.98) items in 12 weeks. 4.26 –14.80 %
of the learners show negative slopes (b = -0.8 –-4.0), which can be proportionally explained
by design-related ceiling effects. The findings of the pilot study indicate that the tests can
basically be used in the field so that they can be applied in larger studies.
Keywords: Curriculum-based measurement, primary school, reading comprehension, reading
development, reading fluency

VHNplus, 90. Jg. (2021) DOI 10.2378/vhn2021.art12d 1
© Ernst Reinhardt Verlag

JANA JUNGJOHANN, MICHAEL SCHURIG, MARKUS GEBHARDT
FACHBEITRAG VHN plus
                              Pilotierung von Leseflüssigkeits- und Leseverständnistests

1    Lernverlaufsdiagnostik                         len (Mayer, 2016; Hesse & Latzko, 2011), stehen
     im Bereich Lesen                               bisher nur wenige geprüfte Tests zur Erfassung
                                                    der Lernentwicklung zur Verfügung (Jung
Der Erwerb basaler Lesekompetenzen aller Ler-       johann, Gegenfurtner & Gebhardt, 2018).
nenden ist ein zentrales Ziel der Grundschule,
um eigenständig und sicher Informationen            Der Ansatz der Lernverlaufsdiagnostik wurde
aus Texten konstruieren zu können (Scheerer-        unter starkem Einfluss des US-amerikanischen
Neumann, 2015). Zu den bedeutendsten Schrit-        Konzepts curriculum-based measurement (CBM;
ten des Leseerwerbs in der Grundschule zählen       Deno, 1985) in Deutschland verbreitet. Er er-
die Entwicklung einer angemessenen schnellen        möglicht durch leicht handhabbare Tests mit
Leseflüssigkeit sowie ein sicheres basales Lese-    kurzer Durchführungsdauer das Abbilden von
verständnis (Klicpera, Schabmann, Gasteiger-        individuellen Lernverläufen als Kurven im
Klicpera & Schmidt, 2017; Lenhard & Artelt,         zeitlichen Verlauf (Klauer, 2011). Diese Lern-
2009; Rosebrock & Nix, 2017). Allerdings ge-        verläufe können Lehrkräften eine Rückmeldung
lingt der Leseerwerb bei einzelnen Schülerin-       geben, ob und in welchem Ausmaß ihre Schü-
nen und Schülern unterschiedlich gut. Ca. 20 %      lerinnen und Schüler vom angebotenen Un
verlassen die Grundschule ohne ausreichende         terricht profitieren. Die Intention der Lernver-
Lesekompetenzen für das Lernen in der Sekun-        laufsdiagnostik ist, der Manifestierung von
darstufe, wie die internationale Lesekompe-         Schwierigkeiten präventiv vorzubeugen (Deno,
tenzstudie IGLU 2016 in Deutschland aufzeigt        Fuchs, Marston & Shin, 2001). Das kann ge
(Hußmann et al., 2017). Besorgniserregend ist,      lingen, da Lernende mit besonderen Unter-
dass der Anteil der schwachen Leserinnen und        stützungsbedarfen durch langsam ansteigende
Leser im Vergleich zu den Vorgängerkohorten         oder stagnierende Lernverläufe identifizierbar
2006 und 2011 gewachsen ist (Bos, Valtin, Huß-      sind. Die Tests der Lernverlaufsdiagnostik sind
mann, Wendt & Goy, 2017).                           für einen häufigen Einsatz im Unterricht mög-
                                                    lichst praktikabel konstruiert. Sie zeichnen
Insbesondere Schülerinnen und Schüler mit           sich dadurch aus, dass sie nur wenige Minuten
einem Risiko für Leseschwierigkeiten im inklu-      dauern, zahlreiche Parallelversionen für einen
siven Unterricht oder an der Förderschule be-       wiederholenden Einsatz bereitstellen und leicht
nötigen einen Unterricht, der ihre individuel-      interpretierbar sind, trotzdem aber den Ansprü-
len Lernvoraussetzungen und Lernbedürfnisse         chen einer reliablen Messung im Längsschnitt
berücksichtigt und fördert (Walter, 2008). Das      genügen (Wilbert, 2014).
Ziel des Leseunterrichts ist es, die Lernenden
bei aufkommenden Lernschwierigkeiten früh-          In Anlehnung an amerikanische Forschungser-
zeitig effektiv zu fördern, sodass sich Schwie-     gebnisse wurden einige deutschsprachige Lern-
rigkeiten nicht langfristig manifestieren. Damit    verlaufsdiagnostiken zur Erfassung von Lese-
Schwierigkeiten im Lesen möglichst frühzeitig       kompetenzen in der Grundschule konstruiert
sichtbar werden, werden diagnostische Infor-        (z. B. Gebhardt, Diehl & Mühling, 2016; Voß &
mationen über den Lernstand und die Lernent-        Blumenthal, 2020; Walter, 2010 a; 2013). Lern-
wicklungen der Lernenden in den Unterricht          verlaufstests für das Lesen sind üblicherweise
einbezogen. Hierbei werden diagnostische            als eindimensionale Konstrukte konstruiert. Sie
Instrumente verwendet, welche entweder              messen meist robuste Indikatoren wie die Lese-
den Status quo oder die Lernentwicklung er-         flüssigkeit, die mit einer umfassenden Kompe-
fassen (Hartke, 2017). Während es für den           tenz hoch korrelieren (Deno, Mirkin & Chiang,
deutschsprachigen Raum viele Lesetests gibt,        1982; Fuchs, Fuchs, Hosp & Jenkins, 2001). Die
um den Status quo des Lernstandes festzustel-       Leseflüssigkeit wird häufig durch lautes Vor

                     2        VHNplus

JANA JUNGJOHANN, MICHAEL SCHURIG, MARKUS GEBHARDT
                                                                               FACHBEITRAG VHN plus
                 Pilotierung von Leseflüssigkeits- und Leseverständnistests

lesen von einzelnen Silben, Wörtern oder zu-           die Prüfung der Testgüte mittels der Item-
sammenhängenden Texten erfasst (ebd.). Diese           Response-Theorie empfohlen (Gebhardt, Heine,
Tests dauern meist 60 Sekunden. Während                Zeuch & Förster, 2015; Wilbert & Linnemann,
der Durchführung bewertet eine Lehrkraft, ob           2011). In der zweiten Stufe wird die technische
die Schülerin oder der Schüler korrekt vorliest.       Einsetzbarkeit der Lernverlaufstests im Längs-
Zur Erfassung des Leseverständnisses werden            schnitt geprüft (Fuchs, 2004). Studien dieser
lückenhafte Sätze oder Texte auf Zeit bearbeitet,      Stufe können mit und ohne Rückmeldung der
bei denen mithilfe von vorgegebenen Antwort-           Ergebnisse an die Lehrkräfte erfolgen. Zum
möglichkeiten die Lücken gefüllt werden (Shin,         zweiten Forschungsstadium zählen auch Un-
Deno & Espin, 2000). Beide Indikatoren wer-            tersuchungen der Änderungssensibilität über
den meist als Speedtest ausgewertet.                   Zuwachsraten mittels linearer Regressionsana-
                                                       lysen. In den Studien von Walter (2011 a) und
Die Anwendung der Lernverlaufsdiagnostik               Shin et al. (2000) wurde zunächst die Paral-
umfasst mehrere Schritte: (1) Auswahl p
                                       assender       leltest-Reliabilität mittels Pearson-Produkt-
Lernverlaufstests, (2) Durchführung mehrerer           Moment-Korrelation zwischen den einzelnen
Messungen, (3) Übertragung der Messergebnis           Messzeitpunkten anhand von Stichproben
se in einen Lernverlaufsgraphen, (4) Ableitung         ohne Kontrollgruppe geprüft. Anschließend
von zukünftigen Lernzielen und (5) Planung             wurden die Mittelwerte mit Standardabwei-
und Adaption von Förderungen auf der Basis             chungen zu allen Messzeitpunkten auf de-
der Lernverlaufsdaten (data-based decision-            skriptiver Ebene beschrieben und auf signifi-
making; Hosp, Hosp & Howell, 2007). Je nach            kante Mittelwertsunterschiede hin überprüft.
Einsatzzweck variieren die zeitlichen Abstände         Die Sensibilität der Messverfahren wird durch
zwischen den Tests sowie die Häufigkeit der            mehrere aus der Theorie und Empirie abgelei-
Messungen (Deno, 2003). Durch wöchentliche             tete Hypothesen, wie Unterschiede zwischen
Messungen können Lernentwicklungen ein                Leistungsgruppen, Klassenstufen oder in der
zelner Schülerinnen und Schüler kleinschrittig         Entwicklung, geprüft. In beiden Studien wird
beobachtet werden, um Effekte von intensiven           nicht beschrieben, ob die Lehrkräfte Rückmel-
und zeitaufwendigen Förderungen zu beurtei-            dungen über die Lernverläufe ihrer Schülerin-
len. Messergebnisse von ganzen Schulklassen            nen und Schüler erhielten. In der dritten Stufe
mit größeren Messabständen von mehreren                der Erforschung der Lernverlaufsdiagnostik
Monaten werden hingegen genutzt, um Risiko-            nach Fuchs (2004) werden die Effektivität und
kinder zu identifizieren.                              der praktische Nutzen der Lernverlaufsdia-
                                                       gnostik bei ihrer Anwendung durch Lehrkräfte
                                                       im Feld untersucht (Stufe 3). Studien der Stu-
2     Die Erforschung einer                            fen 1 und 2 sind Voraussetzung für die Belast-
      Lernverlaufsdiagnostik                           barkeit der Maße vor einem Praxiseinsatz, die
                                                       stets mehrere Messzeitpunkte einer abhän-
Zur Erforschung und Erprobung einer Lern-              gigen, meist kleineren Stichprobe enthalten
verlaufsdiagnostik schlägt Fuchs (2004) ein            (Voß & Gebhardt, 2017). Förster, Kuhn und
dreistufiges Vorgehen vor. Zuerst müssen die           Souvignier (2017) ergänzen die Stufen nach
Reliabilität und die Objektivität im Querschnitt       Fuchs (2004) und beschreiben eine Abhängig-
zu einem Messzeitpunkt anhand einer großen             keit in Normierungsstudien zwischen den spe-
Stichprobe überprüft werden (Stufe 1). Dies            zifischen Bedingungen und dem individuellen
wird häufig gemäß dem Vorgehen der klas               Einsatzzweck der geprüften Lernverlaufsdia-
sischen Testtheorie gemacht (Jungjohann, Ge-           gnostik. Die Autorengruppe nennt als grundle-
genfurtner & Gebhardt, 2018). Alternativ wird          gende Voraussetzung für eine Übertragbarkeit

                                                                   VHNplus     3

JANA JUNGJOHANN, MICHAEL SCHURIG, MARKUS GEBHARDT
FACHBEITRAG VHN plus
Pilotierung von Leseflüssigkeits- und Leseverständnistests

von Vergleichswerten eine möglichst hohe Ver- Monat (Shin et al., 2000) beschrieben. Für den
gleichbarkeit der schulischen Bedingungen, Vergleich von Lernentwicklungen werden die
der Testsituation sowie der Art des prakti- durchschnittlichen Zuwachsraten aller Lernen-
zierten Unterrichts während der Studien. Nur den im regulären Unterricht ohne Intervention
wenn in Studien schulalltagsähnliche Bedin- benötigt. Zur Modellierung von Zuwachsraten
gungen herrschen, werden Erkenntnisse über werden meist lineare Modelle mit Betrachtung
spezifische Lernverläufe in verschiedenen der Steigung als unstandardisiertem b-Wert (Re-
schulischen Settings ermöglicht. gressionskoeffizient) herangezogen (Deno et al.,
2001; Graney, Missall, Martínez & Bergstrom,
2009; Silberglitt & Hintze, 2005; Walter, 2010 b;
2.1 Vergleichswerte im 2011 a). Alternativ können auf Aggregatebene
Querschnitt und Längsschnitt auch diskontinuierliche Zuwachsraten mittels
komplexerer Vorgehensweisen abgetragen wer-
Um die Ergebnisse einer Lernverlaufsdiagnos- den, wie beispielsweise bei Nese et al. (2012)
tik für diagnostische Zwecke im Unterricht durch hierarchische Modelle. Der Nachteil der
zu nutzen, ziehen Lehrkräfte querschnittliche Modellierung diskontinuierlicher Zuwachs
Vergleichswerte zu einem Messzeitpunkt und raten ist jedoch, dass die Anforderungen an die
durchschnittliche Zuwachsraten einer Kontroll- Stichprobe höher und die Vorannahmen zum
gruppe im Längsschnitt zwischen mehreren erwarteten Wachstum umfänglicher sind als
Messzeitpunkten heran (Shinn, 2007). Die Roh- bei Analysen mittels linearer Modelle. Eine ho-
werte eines Kindes können zur besseren Inter- he Präzision bei der Schätzung von Wachs-
pretation und zur Beschreibung des Leistungs- tumskurven erreichen latente Wachstumskur-
niveaus zu normativen Vergleichswerten (engl. venmodelle unter expliziter Berücksichtigung
benchmark) in Beziehung gesetzt werden (Förs- der Messfehlertheorie (Yeo, Fearrington &
ter et al., 2017). Häufig werden zur Feststellung Christ, 2012). Bei diesem Ansatz stellt jeder
des Status quo Vergleichsnormen zu definier- Messzeitpunkt einen Indikator für die latente
ten Zeitpunkten angeboten. Diese Vergleichs- Steigung und das Ausgangsniveau der Steigung
normen bestehen aus Ergebnissen einer Quer- (engl. intercept) dar. Die Anzahl der Messzeit-
schnittsstudie, in der die Schülerinnen und punkte steht aber im Zusammenhang mit der
Schüler keine spezifische Intervention er- benötigten Stichprobengröße (Muthén & Cur-
halten. Häufig werden für die Instrumente zu ran, 1997). Für latente Wachstumskurvenmo-
drei bis vier Messzeitpunkten pro Schuljahr delle werden generell umfangreichere Stich-
(z. B. Herbst, Winter, Frühjahr, Sommer) Nor- proben benötigt als bei einer linearen Regres-
men abgeleitet und getrennt nach Klassenstufe sion. Auch werden nicht individuelle, sondern
deskriptiv beschrieben (Good, Simmons & mittlere Wachstumswerte geschätzt. Die in-
Kame’enui, 2001; Grapin, Kranzler, Waldron, dividuellen Werte werden als Abweichungen
Joyce-Beaulieu & Algina, 2017). begriffen, deren Schätzung stark von der Re
liabilität des mittleren Wachstums abhängt.
Neben den querschnittlichen Normen gibt es Wenn das mittlere Wachstum eine hohe Va
auch den Vergleich der Lernentwicklung an- rianz aufweist, werden individuelle Schätzun-
hand von längsschnittlichen Zuwachsraten gen ungenauer. Die Schätzung der Lernzuwäch
(engl. slope). In der Lernverlaufsdiagnostik se mittels linearer Regressionen berücksichtigt
forschung werden die Lernentwicklungen der die Messfehlertheorie weniger stark, muss also
Schülerinnen und Schüler über die Zeit mit als Vereinfachung gesehen werden. Für die Prü-
festen Messabständen pro Woche (Fuchs, Fuchs, fung der Änderungssensibilität können linea-
Hamlett, Walz & Germann, 1993) oder pro re Regressionen als hinreichend praktikable

4 VHNplus

JANA JUNGJOHANN, MICHAEL SCHURIG, MARKUS GEBHARDT
                                                                                FACHBEITRAG VHN plus
                 Pilotierung von Leseflüssigkeits- und Leseverständnistests

und reliable Indikatoren verwendet werden              hinweg geringer ausfallen als bei Leseflüssig-
(Walter, 2014). Wie jeder andere Messwert              keitstests und dass mit steigendem Alter der Ler-
sind auch b-Werte fehlerbehaftet und die Grö-          nenden die Zuwachsraten geringer ausfallen
ße des Messfehlers eignet sich zur Einschät-           (Fuchs et al., 1993; Graney et al., 2009; Walter,
zung der Angemessenheit der verwendeten                2010 b; 2011 b). Silberglitt und Hintze (2007)
Werte (Christ, Zopluoglu, Monaghen & Van               untersuchen, ob sich Zuwachsraten in Abhän-
Norman, 2013; Walter, 2014). Fuchs et al. (1993)       gigkeit vom Ausgangsniveau verändern. Sie
empfehlen bei der Analyse von Zuwachsra-               modellieren die Zuwachsraten im Lesen von
ten eine Betrachtung des individuellen Aus-            7544 Lernenden in den Klassenstufen zwei
gangsniveaus, um falsche Erwartungen an zu-            bis sechs über ein Schuljahr zu drei Messzeit-
künftige Lernentwicklungen zu vermeiden.               punkten mittels eines hierarchischen linearen
Denn ohne Berücksichtigung des individu               Wachstumsmodells. Im Vergleich zur Grup-
ellen Ausgangsniveaus werden von Lernenden             pe der durchschnittlichen Schülerinnen und
mit einem geringen Ausgangsniveau höhere               Schüler (50 – 59 Perzentil) waren beim unters-
Lernzuwächse im gleichen Zeitraum erwartet             ten als auch beim obersten Perzentil signifikant
als von Schülerinnen und Schülern mit einem            geringere Zuwachsraten messbar. Dies bestä-
höheren Ausgangsniveau. Für differenzierte             tigt die Relevanz, Perzentilbereiche in der Pilo
Betrachtungen von Leistungsgruppen wird oft            tierung von Verfahren getrennt zu analysieren.
eine Unterteilung der Zuwachsraten getrennt            Weitere Einflüsse auf die Abbildung der in
nach Perzentilen vorgenommen (Hasbrouck                dividuellen Lernentwicklungen können durch
& Tindal, 2006; Walter, 2010 b). Alternativ            die erhobene Kompetenz, das konkret ein
finden sich Aufteilungen der Zuwachsraten              gesetzte Verfahren und die Erhebungsbedin-
nach den manifesten Ausgangsniveaus (Deno              gungen (z. B. Untersuchungszeitraum, Ort der
et al., 2001).                                         Testung, Testleitung, Testsituation) entstehen
                                                       (Christ et al., 2013).

2.2 Erwartungen über durchschnittliche
    Lernverläufe im Lesen                              3     Forschungsfragen

In Anlehnung an Entwicklungsmodelle des                Jedes neue Instrument der Lernverlaufsdia
Lesens sind bei einem regulären Leseerwerb             gnostik benötigt eigene evaluierende Studien,
gegen Ende der Grundschule geringere Lern-             da Vergleichswerte und Zuwachsraten testspezi-
zuwächse in der Leseflüssigkeit und höhere             fisch sind und durch viele Faktoren beeinflusst
Lernzuwächse im Leseverständnis zu erwarten,          werden. Die Onlineplattform www.levumi.de
da durchschnittliche Leserinnen und Leser in           besteht seit 2015 und bietet browserbasierte di-
dieser Phase bereits routiniert flüssig lesen          gitale Lernverlaufstests zur Messung der Lese-
(Müller, Križan, Hecht, Richter & Ennemo-              flüssigkeit und des basalen Leseverständnisses
ser, 2013). Gleichzeitig zeigen ältere Lernende        in der Grundschule an. In Anlehnung an das
geringere Lernzuwächse in basalen Lesekom             Vorgehen von Fuchs (2004) liegen bereits Stu-
petenzen als jüngere Lernende zu Beginn des            dienergebnisse für die Stufe 1 vor (Gebhardt
Leseerwerbs (Richter, Isberner, Naumann &              et al., 2016; Jungjohann, DeVries, Gebhardt &
Kutzner, 2012). In nationalen und internatio-          Mühling, 2018; Jungjohann, DeVries, Mühling
nalen Forschungsarbeiten zeigt sich die zen           & Gebhardt, 2018). In diesen Studien wird die
trale Tendenz, dass bei regulärem Grundschul-          psychometrische Güte der hier eingesetzten
unterricht die Zuwachsraten bei den Verfahren          Tests mittels klassischer Testtheorie sowie der
zum Leseverständnis über alle Jahrgangsstufen          Item-Response-Theorie erfolgreich geprüft.

                                                                   VHNplus      5

JANA JUNGJOHANN, MICHAEL SCHURIG, MARKUS GEBHARDT
FACHBEITRAG VHN plus
Pilotierung von Leseflüssigkeits- und Leseverständnistests

Beispielsweise wurden in einer Querschnitts ministriert, die pro Messzeitpunkt durch eine
studie mit 132 Schülerinnen und Schülern für zufällige Ziehung aus einem begrenzten Item-
den Test Silbenlesen N4 eine Reliabilität von pool für jedes Kind eine neue Parallelform er-
rWLE = 0.90 sowie eine Test-Retest-Reliabilität stellt (Jungjohann, Diehl, Mühling & Gebhardt,
von r = 0.85 beobachtet (Jungjohann, DeVries, 2018). Für alle Levumi-Lesetests werden Pa
Gebhardt et al., 2018). Zusätzlich wurde die ralleltest-Reliabilitäten von mindestens r = .80
Eignung der Tests für den Einsatz im leistungs- (Döring & Bortz, 2016) erwartet. Zweitens
heterogenen Grundschulunterricht mit Schüle- werden die beobachteten Punktrohwerte de-
rinnen und Schülern mit unterschiedlichen skriptiv beschrieben. Es wird vermutet, dass
Personenmerkmalen (z. B. Geschlecht, Migra- die Schülerinnen und Schüler der vierten Jahr-
tionshintergrund, sonderpädagogischer Förder- gangsstufe zu jedem Messzeitpunkt mehr Auf-
bedarf) untersucht. Ebenso gibt es eine Studie gaben lösen als die der dritten Jahrgangsstufe.
mit einer standardisierten Leseintervention Drittens werden die Zuwachsraten im Längs-
über ein Schulhalbjahr, in der mäßige bis hohe schnitt untersucht. Es wird angenommen, dass
positive Korrelationen zwischen den Levumi- sich distinkte Entwicklungen mittels Metho-
Tests und einem standardisierten Leseverständ den der Lernverlaufsdiagnostik nachzeichnen
nistest (ELFE II, Lenhard, Lenhard & Schnei- lassen. Die dritte und vierte Klassenstufe wer-
der, 2017) von r = 0.52 – 0.81 beobachtet wurden den dabei getrennt voneinander betrachtet,
(Anderson, Jungjohann & Gebhardt, 2020). Ein um die Unterschiede in den Lernverläufen
Längsschnitt ohne Intervention über ein Schul- zwischen den Jahrgängen zu beobachten. In
jahr von mehreren Jahrgangsstufen fehlt für die Anlehnung an die Argumentation von Müller
Lesetests von Levumi und stellt einen nächsten et al. (2013) wird in der vierten Klassenstufe
Schritt in der Prüfung einer Lernverlaufsdia eine geringere Lernentwicklung in der Lese-
gnostik nach Fuchs (2004) dar. flüssigkeit und eine höhere im Satzverständnis
erwartet. Zusätzlich werden unterschiedlich
In der vorliegenden Pilotstudie werden drei starke Anstiege in den Lernverläufen auf Ebene
Lernverlaufstests zur Messung der Leseflüssig- der Schülerinnen und Schüler vermutet. Vier-
keit und ein Test zum Leseverständnis zu vier tens folgt eine differenzierte Betrachtung der
Messzeitpunkten innerhalb eines Schuljahres Leseentwicklung unterschiedlicher Leistungs-
an einer Partnergrundschule eingesetzt, um die gruppen. Für die Untersuchung unterschied-
generelle Einsetzbarkeit der Tests im Längs- licher Leistungsgruppen werden, angelehnt
schnitt in der dritten und vierten Klassenstufe an frühere Forschungsarbeiten (Hasbrouck &
erstmalig zu überprüfen. In Anlehnung an Tindal, 2006; Walter, 2010 b), Perzentilgrup-
Walter (2011 a) und Shin et al. (2000) werden pen gebildet. In Anlehnung an Silberglitt und
die Reliabilität und die Änderungssensibilität Hintze (2007) werden in den unteren und obe-
der Levumi-Lesetests im Längsschnitt ohne ren Perzentilen flachere Entwicklungskurven
Kontrollgruppe geprüft. Das Ziel ist, pilotierend angenommen. Gleichzeitig werden vor dem
Lernverläufe und Zuwachsraten in der Leseflüs Hintergrund der Ergebnisse von Walter
sigkeit und dem Leseverständnis im regulären (2010 b) bei den Schülerinnen und Schülern
leistungsheterogenen Unterricht aufzuzeigen, mit den schwächsten Leseleistungen gerin-
um auf dieser Basis die grundlegende Einsatz- gere Lösungshäufigkeiten vermutet. Außer-
fähigkeit der Tests in der dritten und vierten dem wird erwartet, dass die Tests über die
Klassenstufe zu beurteilen. Dafür wird erstens Grenzen der Jahrgangsstufen hinweg einsatz-
die Paralleltest-Reliabilität zu allen Mess fähig sind. Die Prüfung dieser Kriterien kann
zeitpunkten geprüft. Die eingesetzten Testver- als Facette einer externalen Validierung begrif-
fahren werden in einer Onlineplattform ad fen werden (Klauer, 2011).

6 VHNplus

JANA JUNGJOHANN, MICHAEL SCHURIG, MARKUS GEBHARDT
                                                                                      FACHBEITRAG VHN plus
                    Pilotierung von Leseflüssigkeits- und Leseverständnistests

4      Methode                                                eine mögliche formative Wirkung der Lern
                                                              verlaufsdiagnostik zu verhindern, bekamen die
4.1 Stichprobenbeschreibung                                   teilnehmenden Lehrkräfte während der Test-
                                                              phase keinen Einblick in die Ergebnisse. Nach
An der Studie nahm eine inklusive zweizügi-
                                                              der Studie erhielten die Lehrkräfte die Ergeb-
ge Partnergrundschule in städtischer Lage zur
                                                              nisse ihrer Schülerinnen und Schüler sowie
Erprobung der kostenlosen Onlineplattform
                                                              Fortbildungen. In Absprache mit der Schullei-
Levumi (Gebhardt et al., 2016) teil. Die Stich
                                                              tung wurden jeweils die Wochen vor den Ferien
 probe umfasst N = 90 Schülerinnen und Schüler
                                                              als Messwochen definiert, um rückläufige Ef-
 (43 Mädchen und 47 Jungen). Zum ersten Mess-
                                                              fekte durch die Ferien zu vermeiden. Die Mes-
 zeitpunkt (Oktober 2017) waren die teilneh
                                                              sungen fanden in den Kalenderwochen KW 41
 menden Schülerinnen und Schüler im Schnitt
                                                              (Herbst), KW 50 (Winter), KW 11 (Frühling)
 9.2 (SD = 0.69) Jahre alt. Elf Schülerinnen und
                                                              und KW 24 (Sommer) vormittags während in-
 Schüler hatten einen Migrationshintergrund
                                                              dividualisierter Lernzeiten statt. Jeder Klasse
 (Kind oder mindestens ein Elternteil im Ausland              wurde ein fester Testtag zugeteilt, sodass die
 geboren). Zwei Schülerinnen und Schüler hatten               Messabstände bei allen Kindern gleich waren.
 einen diagnostizierten sonderpädagogischen                   Aus methodischer Sicht wäre ein gleichmäßiger
 Förderbedarf (1 × Lernen, 1 × Sprache), zwei                 Abstand zwischen den Messungen wünschens-
 andere hatten einen Fluchthintergrund und be-               wert gewesen. Dies war aber aufgrund der Pla-
  fanden sich zu Beginn der Studie im Deutsch                nung der Schule sowie der Ferienzeiten nicht
  erwerb. Für alle Teilnehmenden lag das Ein                 möglich und spiegelt die schulischen Einsatz-
  verständnis der Erziehungsberechtigten vor und              bedingungen der Lernverlaufsdiagnostik wi-
  die Teilnahme war freiwillig. Zwei Drittklässler            der. In den größeren Messabständen lagen mehr
  fehlten bei mehr als der Hälfte der Erhebungen              einzelne Ferientage (Feiertage, Karneval). Im
  und wurden aus der Studie genommen. Die bei-                Schnitt lagen 12 Wochen zwischen den Mess-
  den Jahrgänge (nStufe 3 = 47, nStufe 4 = 41) waren in       zeitpunkten. Pro Klassenverband standen in
  jeweils zwei Klassenverbände aufgeteilt. Um den             den Messwochen jeweils drei Schulstunden und
  Einfluss der Klasse auf die einzelnen Ergebnisse            eine geschulte Testerin zur Verfügung. Zu je-
  nachzuvollziehen und damit mögliche Effekte                 dem Messzeitpunkt bearbeiteten die Teilneh-
  auf der Ebene der Klassenzusammensetzung so                menden drei aufeinanderfolgende Leseflüssig-
  wie der Lehrkräfte zu kontrollieren, wurden die             keitstests als Einzeltests und einen Gruppentest
  Intra-Klassenkorrelationen (ICC) für alle ver-              zum Leseverständnis im schuleigenen Com
  wendeten Tests bestimmt. Die ICC quantifizieren            puterraum. Die Leseflüssigkeitstests wurden
  die Bedeutsamkeit einer Gruppenzugehörigkeit,               stets in derselben Reihenfolge und in der ver-
  also hier der Zugehörigkeit zu den Klassen (Zur-            mutlichen theoretischen Schwierigkeit steigend
  briggen, 2016). Es zeigt sich, dass im Mittel etwa          (Silben, Wörter, Pseudowörter) administriert.
  20 % (ICCSilbenlesen = 14,5 %, ICCWörterlesen = 28,7 %,
  ICCPseudowörterlesen = 16,4 %, ICCSatzlesen = 17,6 %) der
  individuellen Variabilität der Testergebnisse auf           4.3 Erhebungsinstrumente
  die Klassenzugehörigkeit zurückgeführt werden
  kann, was für relativ starke Klasseneffekte bei             Alle eingesetzten Lernverlaufstests sind in der
  den Leseleistungen spricht.                                 Onlineplattform Levumi kostenlos eingebettet
                                                              und auf mehreren Niveaustufen verfügbar. Die
4.2 Studiendesign                                             Niveaustufen der Lesetests sind nach linguis
                                                              tischen Regeln definiert und generieren die
Zu Beginn der Studie war die Plattform allen                  Schwierigkeit der Aufgaben. Um die Vergleich-
Lehrkräften und Lernenden unbekannt. Um                       barkeit der vier Tests zu sichern, wurden in der

                                                                         VHNplus       7

JANA JUNGJOHANN, MICHAEL SCHURIG, MARKUS GEBHARDT
FACHBEITRAG VHN plus
                                     Pilotierung von Leseflüssigkeits- und Leseverständnistests

vorliegenden Studie alle auf derselben Niveau-                       Der Test zum Leseverständnis präsentiert ein
stufe (N4) administriert. Nach der Registrierung                     zelne Sätze hintereinander, in denen jeweils ein
werden die Tests digital im Browser durchge-                         Wort fehlt (Jungjohann, DeVries, Mühling et al.,
führt. Sie sind auch als Papierversion frei erhält-                 2018). Der Itempool enthält 60 Items. Mithilfe
lich (Jungjohann, Diehl & Gebhardt, 2019; Jung-                      von vier Auswahlwörtern (1 × richtiges Zielwort,
johann & Gebhardt, 2019). Die digitalen Paral-                       3 × Ablenker) konstruieren die Lesenden den
lelformen werden über eine zufällige Ziehung                        Sinn der Sätze in Stillarbeit. Berücksichtigt wer-
aus fest definierten Itempools generiert. Dies                       den unterschiedliche Argument-Prädikat-Struk-
erlaubt eine hohe Anzahl von Testwiederholun-                       turen, um theoriegeleitet syntaktische Schwie-
 gen ohne Erinnerungseffekte (Klauer, 2011).                         rigkeitsstufen der deutschen Sprache zu reprä-
                                                                     sentieren. Zum Zeitpunkt der Studie dauerte der
Die theoriegeleiteten Konstruktionen der Lese-
                                                                     Test acht Minuten. Nach Prüfung der Reliabilität
flüssigkeitstests berücksichtigen je nach Testart
                                                                     wurde der Test unter gleichbleibender Reliabi
(Silbenlesen, Wörterlesen, Pseudowörterlesen)
                                                                     lität aus ökonomischen Gründen auf fünf Mi
unterschiedliche Leseteilkompetenzen (Jung
                                                                     nuten verkürzt. Die übliche Bearbeitungszeit
johann & Gebhardt, 2018). Die Tests dauern
                                                                     pro Item liegt bei etwa 10 bis 15 Sekunden.
60 Sekunden und benötigen eine lesekompeten
te Person zur Beurteilung von Lesefehlern. In den
unabhängigen Itempools existieren 134 Items
für den Silbentest, 61 Items für den Wörtertest                      5          Ergebnisse
und 189 Items für den Pseudowörtertest. Die
Items werden pro Testdurchführung zufällig                           5.1 Reliabilität der eingesetzten
(ohne Zurücklegen) gezogen, sodass hypothe-                              Lernverlaufstests für die
tisch alle Items bearbeitet werden können. Die                           vorliegende Stichprobe
durchschnittlich Lesenden erreichen am Ende
der Grundschule eine schwierigkeitsabhängi-                          Modellanpassung und Reliabilität für die vor-
ge Bearbeitungszeit von 1,5 bis 3 Sekunden                           liegende Stichprobe werden basierend auf einer
pro Item und bearbeiten somit in 60 Sekunden                         Item-Response-Theorie-Skalierung mit dem
20 bis 40 Items in der Leseflüssigkeit.                              R-Paket pairwise (Heine, 2019) geschätzt. Dabei

Tab. 1 Korrelationen der Lesetests zwischen benachbarten Messzeitpunkten

                                             Stufe 3                                                      Stufe 4

                           T1 / T2             T2 / T3              T3 / 4             T1 / T2             T2 / T3               T3 / 4

                      r (KIlow / KIhigh ) r (KIlow / KIhigh ) r (KIlow / KIhigh ) r (KIlow / KIhigh ) r (KIlow / KIhigh ) r (KIlow / KIhigh )

                          .85***               .80***              .79***              .85***              .72***               .82***
Silbenlesen
                       (0.74 / 0.94)         (.66 / .89)        (0.61 / 0.89)       (0.69 / 0.94)       (0.51 / 0.98)        (0.66 / 0.90)
                          .87***              .87***               .86***              .85***              .77***               .87***
Wörterlesen
                       (0.77 / 0.92)       (0.77 / 0.93)        (0.76 / 0.92)       (0.72 / 0.92)       (0.60 / 0.88)        (0.75 / 0.92)
                          .87***              .84***               .85***              .76***              .89***               .87***
Pseudowörterlesen
                       (0.77 / 0.93)       (0.73 / 0.91)        (0.73 / 0.91)       (0.58 / 0.87)       (0.80 / 0.94)        (0.76 / 0.93)
                          .83***              .89***               .90***              .81***              .81***               .86***
Satzlesen
                       (0.71 / 0.91)       (0.80 / 0.94)        (0.81 / 0.95)       (0.65 / 0.91)       (0.64 / 0.90)        (0.75 / 0.92)

Anmerkung: T1 = Herbst 2017, T2 = Winter 2017, T3 = Frühling 2018, T4 = Sommer 2018, KI = Konfidenz-
intervall, * p ≤.05, ** p ≤.01, *** p ≤.001

                       8             VHNplus

JANA JUNGJOHANN, MICHAEL SCHURIG, MARKUS GEBHARDT
                                                                                       FACHBEITRAG VHN plus
                 Pilotierung von Leseflüssigkeits- und Leseverständnistests

wurde ein konditionaler Maximum Likelihood                schreiben, werden die Punktrohwerte der Stich-
Ansatz zur Parameterschätzung verwendet. Zur              proben abgebildet. Dafür wurde die Anzahl
robusten Schätzung von Parametern am Rand                 der richtig gelösten Items (Summenwerte) se-
der Verteilung wurden gewichtete Schätzer                 parat für die einzelnen Tests analysiert. In Ta-
(weighted likelihood estimators; WLE) verwen-             belle 2 sind die arithmetischen Mittel (x–) und
det. In Anlehnung an Adams (2005) weisen die              die Standardabweichung der Summenwerte
Tests zum ersten Messzeitpunkt sehr gerin-                aller vier Lesetests zu den vier M
                                                                                            esszeitpunkten
ge Messfehleranteile auf (WLE-Rel.Silben = .96,           getrennt nach Klassenstufe dargestellt. Zusätz-
WLE-Rel.Wörter = .96, WLE-Rel.Pseudowörter = .92,         lich werden die Effektstärken (Cohen’s d) zwi-
WLE-Rel.Satzlesen = .96).                                 schen dem ersten und vierten Messzeitpunkt
                                                          angeführt, um die Größen der Mittelwerts
Mittels Pearson-Produkt-Moment-Korrelation                unterschiede zu quantifizieren.
wird die Paralleltest-Reliabilität zwischen den
benachbarten Messzeitpunkten geprüft. In Ta-              Tabelle 2 zeigt, dass das arithmetische Mittel
belle 1 sind die Korrelationen inklusive des obe-         der Summenwerte bis auf eine Ausnahme kon-
ren und unteren Konfidenzintervalls getrennt              tinuierlich über alle Messzeitpunkte in beiden
nach Testart und Klassenstufen abgebildet.                Schulstufen hinweg ansteigt. Die Ausnahme
Alle Korrelationen liegen zwischen r = .72 – .90          stellt der Test Pseudowörterlesen zu den Mess-
und sind mit p < .001 signifikant.                        zeitpunkten Frühling und Sommer 2018 in
                                                          Klassenstufe 3 dar (x–Frühling = 22.93 (SD = 8.77);
                                                          x–Sommer = 22.85 (SD = 8.87)). Hier kann kein Lern-
5.2 Punktrohwerte in der dritten                          anstieg beobachtet werden. Die Effekte für die
    und vierten Jahrgangsstufe                            Tests Silbenlesen, Wörterlesen und Satzlesen
                                                          sind in Klassenstufe 3 höher ausgeprägt als im
Um die Lernentwicklung der Schülerinnen                   vierten Jahrgang. Für das Pseudowörterlesen
und Schüler über das Schuljahr hinweg zu be-              liegt ein höherer Effekt für die Klassenstufe 4 vor.

Tab. 2 Arithmetisches Mittel, Standardabweichung und Effektstärken zu allen vier Messzeitpunk
ten getrennt nach Klassenstufe

                                     Stufe 3                                          Stufe 4

                 Herbst    Winter Frühling Sommer Effekt-         Herbst    Winter Frühling Sommer Effekt-
                  2017     2017     2018    2018 stärke1           2017     2017     2018    2018  stärke

                 x– (SD)   x– (SD)   x– (SD)   x– (SD)   dCohen   x– (SD)   x– (SD)   x– (SD)   x– (SD)   dCohen

                  34.48     42.46     45.64    47.60               42.92     48.71     55.00     58.95
Silbenlesen                                              1.56                                             1.36
                 (12.52)   (14.52)   (14.02)   (12.8)             (14.55)   (11.58)   (11.74)   (12.03)
                  27.30     31.80     35.48      38.0              40.67     41.82     46.12     48.66
Wörterlesen                                              1.54                                             1.11
                 (12.09)   (13.45)   (13.23)   (12.38)            (11.80)   (10.80)   (10.50)   (11.66)
Pseudowörter-    16.72     19.72     22.93     22.85              22.88     24.80     27.93     30.79
                                                         1.05                                             1.37
lesen            (7.34)    (8.74)    (8.77)    (8.87)             (7.20)    (7.78)    (8.65)    (9.03)
                  27.11     33.55     36.89     41.24              39.00     44.71     51.27    53.85
Satzlesen                                                1.93                                             1.31
                 (13.56)   (15.17)   (15.63)   (14.64)            (14.60)   (11.90)   (10.37)   (9.25)

Anmerkung: 1 Die Effektstärke wurde von Messzeitpunkt 1 (Herbst 2017) auf Messzeitpunkt 4 (Sommer
2018) berechnet.

                                                                       VHNplus         9

JANA JUNGJOHANN, MICHAEL SCHURIG, MARKUS GEBHARDT
FACHBEITRAG VHN plus
                                                                        Pilotierung von Leseflüssigkeits- und Leseverständnistests

Abbildung 1 stellt die Lernverläufe der beiden                                                    Satzlesen t (38) = -12.03, p < .001; Stufe 4: Sil-
Jahrgänge gemessen an den durchschnittlichen                                                      ben t (21) = -6.38, p < .001; Wörter t (36) = -6.72,
Summenwerten (= arithmetisches Mittel) dar.                                                       p < .001; Pseudowörter t (36) = -8.34, p < .001;
Als Fehlerbalken wurde das 95 %-Konfidenz                                                        Satzlesen t (38) = -8.17, p < .001).
intervall verwendet. Beide Gruppen zeigen über
das Schuljahr einen signifikanten Lernzuwachs                                                     Im Test Satzlesen sind die Unterschiede in den
zwischen dem ersten (Herbst 2017) und letz-                                                       Leistungen deutlich und die Konfidenzinterval
ten (Sommer 2018) Messzeitpunkt. Der Unter-                                                       le überlappen sich zu keinem Messzeitpunkt.
schied zwischen den Messzeitpunkten wurde                                                         Die Leistungen beim Pseudowörterlesen liegen
mittels robust gepaarter t-Tests berechnet, um                                                    hingegen nahe beieinander. Abbildung 1 zeigt,
die paarweise Änderung darzustellen (Stufe 3:                                                     dass die Lernverläufe überwiegend parallel
Silben t(35) = -9.39, p < .001; Wörter t(44) = -10.35,                                            verlaufen und einen kontinuierlichen Anstieg
p < .001; Pseudowörter t (44) = -7.07, p < .001;                                                  vorweisen.

                                                Silbenlesen                                                                          Wörterlesen

                                           60                                                                                   60
                                                                                              Anzahl richtig gelesener Wörter
   Anzahl richtig gelesener Silben

                                           50                                                                                   50

                                           40                                                                                   40

                                           30                                                                                   30

                                           20                                                                                   20
                                                  Herbst      Winter   Frühling   Sommer                                               Herbst      Winter   Frühling   Sommer
                                                   ’17         ’17        ’18       ’18                                                 ’17         ’17        ’18       ’18
                                                Pseudowörterlesen                                                                    Satzlesen
   Anzahl richtig gelesener Pseudowörter

                                           60                                                                                   60
                                                                                              Anzahl richtig gelesener Sätze

                                           50                                                                                   50

                                           40                                                                                   40

                                           30                                                                                   30

                                           20                                                                                   20
                                                  Herbst      Winter   Frühling   Sommer                                               Herbst      Winter   Frühling   Sommer
                                                   ’17         ’17        ’18       ’18                                                 ’17         ’17        ’18       ’18

Abb. 1 Entwicklung der durchschnittlichen Summenscores mit Fehlerbalken über das Schuljahr
2017/ 18 getrennt nach Klassenstufen
Anmerkungen: Grauer Lernverlauf als Linie = Klassenstufe 3; Schwarzer Lernverlauf als Punktlinie =
Klassenstufe 4

                                                              10        VHNplus

JANA JUNGJOHANN, MICHAEL SCHURIG, MARKUS GEBHARDT
                                                                                                                                                  FACHBEITRAG VHN plus
                                              Pilotierung von Leseflüssigkeits- und Leseverständnistests

5.3 Zuwachsraten innerhalb                                                                 are Regression über die vier Messzeitpunkte
    der Klassenstufen                                                                      pro Test berechnet. Diese erlaubt die Schät-
                                                                                           zung des mittleren substanziellen Lernzu-
Um die Lernverläufe beider Jahrgangsstufen                                                 wachses. Die Ergebnisse sind in Tabelle 3
miteinander zu vergleichen, wurde eine line-                                              dargestellt.

Tab. 3 Lineare Regressionen der Lernverläufe nach Klassenstufe

                                                                       Stufe 3                                                                    Stufe 4

                                                      Intercept     Steigung (in     Bestimmt-                                  Intercept      Steigung (in         Bestimmt-
                                                                    12 Wochen)       heitsmaß                                                  12 Wochen)           heitsmaß

                                                       α (SEa )        b (SEb )         R²                                       α (SEa )         b (SEb )             R²

Silbenlesen                                          31.76 (2.49)   4.33*** (0.94)    0.1111                                   37.93 (2.78)    5.41*** (0.98)        0.1797
Wörterlesen                                          24.18 (3.59)   3.59*** (0.84)    0.0918                                   37.28 (2.82)    2.18*** (0.80)        0.0746
Pseudowörterlesen                                    15.15 (1.55)   2.15*** (0.55)    0.0766                                   19.89 (1.59)    2.68*** (0.58)        0.1203
Satzlesen                                            23.30 (2.71)   4.57*** (1.00)    0.1064                                   34.45 (2.29)    5.11*** (0.82)        0.2004

Anmerkungen: * p ≤.05, ** p ≤.01, *** p ≤.001

                                       Silbenlesen                                                                           Wörterlesen
                                  25                                                                                    25
  Steigungskoeffizient (b-Wert)

                                                                                        Steigungskoeffizient (b-Wert)

                                  20                                                                                    20
                                  15                                                                                    15
                                  10                                                                                    10
                                   5                                                                                    5
                                   0                                                                                    0
                                  -5                                                                                    -5

                                                 3                     4                                                                 3                      4
                                                        Klassenstufe                                                                          Klassenstufe
                                       Pseudowörterlesen                                                                     Satzlesen
                                  25                                                                                    25
  Steigungskoeffizient (b-Wert)

                                                                                        Steigungskoeffizient (b-Wert)

                                  20                                                                                    20
                                  15                                                                                    15
                                  10                                                                                    10
                                   5                                                                                    5
                                   0                                                                                    0
                                  -5                                                                                    -5

                                                 3                     4                                                                 3                      4
                                                        Klassenstufe                                                                          Klassenstufe

Abb. 2 Verteilung der Steigungskoeffizienten (b-Werte) auf Ebene der Schülerinnen und Schüler
getrennt nach Klassenstufe und Testart

                                                                                                                                 VHNplus           11

JANA JUNGJOHANN, MICHAEL SCHURIG, MARKUS GEBHARDT
FACHBEITRAG VHN plus
                                           Pilotierung von Leseflüssigkeits- und Leseverständnistests

In allen Tests zeigt die dritte Jahrgangsstufe                        nach Testart und Klassenstufen. Gemessen an
einen signifikant geringeren Ausgangswert als                         den individuellen b-Werten zeigen zwischen
die vierte Jahrgangsstufe. Der Unterschied zwi-                       zwei und sieben Schülerinnen und Schüler pro
schen den Klassenstufen wurde mittels unge-                           Klassenstufe (4.26 – 14.80 %) negative Lernver-
paarter t-Tests berechnet (Silben: t (43.45) = -2.45,                 läufe mit b = -0.8 – -4.0 (Silben: nKlasse 3: 4 (8.51 %),
p < .001; Wörter: t(82.87) = -5.18, p < .01; Pseu-                    nKlasse 4: 5 (12.20 %); Wörter: nKlasse 3: 2 (4.26 %),
dowörter t (82.75) = -3.92, p < .001; Satzlesen                       nKlasse4: 4 (9.76 %); Pseudowörter: nKlasse3: 7 (14.80 %),
t (78.01) = -3.83, p < .001). Die Steigungen der                      nKlasse 4: 4 (9.76 %); Satzlesen: nKlasse 3: 6 (12.77 %),
Lernverläufe sind bei beiden Klassen im Mittel                        nKlasse 4: 4 (9.76 %)).
ähnlich hoch und liegen zwischen 2.23 Pseudo
wörtern Wachstum in 12 Wochen in der dritten
                                                                      5.4 Entwicklung der Lesefähigkeit
Klasse und 5.49 Silben in 12 Wochen in der
                                                                          nach Leistungsgruppen
vierten Klasse. Die Varianzaufklärung R² deu-
tet aber auf ein uneinheitliches Entwicklungs-                        Für eine differenzierte Betrachtung der Lern-
verlaufsmuster hin.                                                   entwicklungen von unterschiedlich starken Le
                                                                      serinnen und Lesern sind die Zuwachsraten
Auf der Ebene der Schülerinnen und Schüler                            nach Leistungsperzentilen in Anlehnung an die
zeigen sich in beiden Klassenstufen unterschied-                      Studie von Hasbrouck und Tindal (2006) auf-
lich starke Steigungen in den Lernverläufen,                          geteilt. Dadurch wird zusätzlich das indivi
deren Verteilungen in Abbildung 2 als Boxplot                         duelle Ausgangsniveau der Schülerinnen und
dargestellt sind. Die Boxplots in Abbildung 2                         Schüler berücksichtigt. Exemplarisch werden
zeigen die Verteilungen der b-Werte getrennt                          die Ergebnisse für den Leseflüssigkeitstest Wör-

Tab. 4 Lineare Regressionen im Test Wörterlesen nach Perzentilgruppen 1 getrennt nach Klassen-
stufe

                                           Stufe 3                                                   Stufe 4

                                               Range   Steigung (in                                      Range   Steigung (in
 Perzentil                  Intercept                                                    Intercept
              NPerzentil                     Intercept 12 Wochen)           NPerzentil                 Intercept 12 Wochen)

                                α (SEa )         α         b (SEb )                       α (SEa )         α        b (SEb )

                                 7.08                      3.47**                         16.55                      2.44
    .10           6                            2 –14                            4                        12 –23
                                (2.68)                    (0.98)                          (4.10)                    (1.47)
                                12.57                      3.94***                        24.58                      4.60**
    .25           7                            16 –18                           6                        24 –35
                                (2.11)                    (0.78)                          (4.33)                    (1.58)
                                18.80                      4.75***                        34.25                      3.18***
    .50          10                            20 –26                          10                        36 –42
                                (2.20)                    (0.81)                          (1.64)                    (0.62)
                                28.20                      2.61*                          39.58                      3.97***
    .75          11                            27 –32                          10                        43 –47
                                (2.67)                    (0.97)                          (2.01)                    (0.73)
                                33.57                      4.24***                        49.65                      1.13
    .90           7                            34 –41                           6                        48 –56
                                (2.96)                    (1.08)                          (2.51)                    (0.93)
                                48.01                      2.74*                          59.25                     -0.85
    1.00          5                            42 –60                           4                        57 –61
                                (3.06)                    (1.15)                          (2.65)                    (0.97)

Anmerkungen: 1 Die Perzentilgruppen wurden anhand des Intercepts zum ersten Messzeitpunkt Herbst
2017 gebildet, * p ≤.05, ** p ≤.01, *** p ≤.001

                           12              VHNplus

JANA JUNGJOHANN, MICHAEL SCHURIG, MARKUS GEBHARDT
                                                                                                    FACHBEITRAG VHN plus
                    Pilotierung von Leseflüssigkeits- und Leseverständnistests

terlesen in Tabelle 4 und für den Leseverständ-                    .50- und .75-Perzentil steigen die Lernzuwäch-
nistest Satzlesen in Tabelle 5 abgebildet. Die                     se dieser Klassenstufe signifikant. In Klassen-
Regressionen in den Tests Silben- und Pseudo                      stufe 4 werden die geringsten Lernzuwächse in
wörterlesen sind ähnlich wie die des Leseflüssig                  den Randgruppen beobachtet (b.10-Perzentil = 2.44,
keitstests Wörterlesen, sodass an dieser Stelle                    b.90-Perzentil = 1.13, b1.0-Perzentil = -0.85).
auf eine detaillierte Abbildung verzichtet wird.
Die Leistungsperzentile werden anhand des                          Der Leseverständnistest Satzlesen misst wie der
Intercepts zum ersten Messzeitpunkt gebildet.                      Test Wörterlesen in der dritten Klassenstufe in
Schülerinnen und Schüler ohne Messwert zum                         allen Subgruppen signifikante Lernzuwächse.
ersten Messzeitpunkt wurden nicht mit in die                       In der vierten Klassenstufe zeigen sich signi
Verteilung nach Perzentilen eingeschlossen.                        fikante Lernentwicklungen im .10- bis zum
                                                                   .75-Perzentil. In den oberen Perzentilgruppen
Der Test Wörterlesen misst in allen Perzentil-                     mit den höchsten Ausgangsniveaus wurden
gruppen der Klassenstufe 3 im Mittel signifikant                   nicht signifikante bzw. keine L      ernentwicklungen
steigende Lernzuwächse. Die geringsten Lernzu-                     beobachtet (b.90-Perzentil = 0.93, b1.0-Perzentil = 0.01).
wächse wurden in dieser Klassenstufe in der .75-                   Die mittleren Ausgangswerte zeigen, dass die
Perzentilgruppe sowie in der 1.0-Perzentilgrup                    Lernenden bereits zum ersten Messzeitpunkt
pe gemessen (b.75-Perzentil = 2.61, b1.0-Perzentil = 2.74).        fast alle Testitems in der Bearbeitungszeit kor-
In Klassenstufe 4 wurden keine signifikanten                       rekt lösen. In beiden Klassenstufen werden bei
Lernzuwächse in der unteren (.10-Perzentil)                        den Lesenden mit dem höchsten Ausgangs
und in den beiden oberen Perzentilgruppen                          niveau die geringsten Lernanstiege gemessen
(.90- und 1.0-Perzentil) beobachtet. Im .25-,                      (bKlasse 3 = 2.28, bKlasse 4 = -0.85).

Tab. 5 Lineare Regressionen im Test Satzlesen nach Perzentilgruppen 1 getrennt nach Klassen-
stufe

                                         Stufe 3                                                  Stufe 4

                                             Range   Steigung (in                                     Range   Steigung (in
 Perzentil                   Intercept                                                Intercept
                NPerzentil                 Intercept 12 Wochen)          NPerzentil                 Intercept 12 Wochen)

                              α (SEa )         α        b (SEb )                       α (SEa )           α      b (SEb )

                               4.02                      3.19*                         10.63                      6.03**
     .10            5                        3 –10                           4                        5 –20
                              (2.96)                    (1.11)                         (5.00)                    (1.83)
                               9.58                      5.28***                       17.98                      8.40***
     .25            6                        13 –19                          6                        22 –26
                              (3.43)                    (0.90)                         (3.47)                    (1.26)
                              18.36                      5.26***                       28.17                      7.44***
     .50           11                        20 –26                         12                        29 –40
                              (2.47)                    (0.90)                         (2.19)                    (0.80)
                              22.01                      6.73***                       44.67                      3.12**
     .75           11                        26 –34                          8                        42 –54
                              (3.11)                    (1.17)                         (2.95)                    (1.05)
                              36.58                      5.92***                       54.35                      0.93
     .90            6                        35 –44                          6                        55 –58
                              (2.35)                    (0.86)                         (1.50)                    (0.54)
                              50.48                      2.28*                         59.80                      0.01
    1.00            5                        47 –61                          3                        59 –61
                              (2.52)                    (1.00)                         (0.58)                    (0.21)

Anmerkungen: 1 Die Perzentilgruppen wurden anhand des Intercepts zum ersten Messzeitpunkt Herbst
2017 gebildet, * p ≤.05, ** p ≤.01, *** p ≤.001

                                                                                  VHNplus            13

JANA JUNGJOHANN, MICHAEL SCHURIG, MARKUS GEBHARDT
FACHBEITRAG VHN plus
                                                              Pilotierung von Leseflüssigkeits- und Leseverständnistests

                                  Klassenstufe 3                                                                  Klassenstufe 4
                             60                                                                              60
                                                                                                                        1.0- Perz.
                                                                                                                        0.90- Perz.
                                        1.0 - Perz.
    Richtig gelesene Sätze

                                                                                    Richtig gelesene Sätze
                                                                                                                        0.75- Perz.
                                                  erz.
                                        0.90 - P
                             40                                                                              40                   z.
                                                                                                                             - Per
                                                                                                                        0.50
                                                      .
                                               - Perz                                                                        - Per
                                                                                                                                  z.
                                        0.75
                                               - P erz.                                                                 0.25
                                        0 .5 0
                             20                                                                              20
                                                                                                                               erz.
                                                 erz.                                                                   0.10- P
                                        0.25- P

                                        0.10- Perz.
                             0                                                                               0
                                    1                 2           3         4                                       1                2           3    4
                                                      Messzeitpunkte                                                                 Messzeitpunkte

Abb. 3 Lineare Regressionen im Test Satzlesen nach Perzentilgruppen mit 95 % Konfidenzinter-
vallen pro Messzeitpunkt

Der visuelle Vergleich der Lernverläufe z wischen                                    ses in der dritten und vierten Jahrgangsstufe
den Jahrgangsstufen zeigt, dass sich die Mittel-                                      im Längsschnitt eingesetzt werden können. In
werte der vierten Jahrgangsstufe zum ersten                                           den Lernverläufen wurden erwartbare De-
Messzeitpunkt mit denen der dritten Jahrgangs-                                        ckeneffekte beobachtet, welche sich aber durch
stufe zum vierten Messzeitpunkt auf dem glei-                                         die Beschränkung auf eine Niveaustufe erklä-
chen Niveau befinden. Dies verdeutlicht die                                           ren lassen. Eine weitere Limitation stellt der
Abbildung 3 exemplarisch anhand der Regres-                                           pilotierende Charakter der Studie dar, da nur
sionslinien im Test Satzlesen getrennt nach Per-                                      eine Schule gemessen wurde. In den Klassen
zentilgruppen. Bei allen Perzentilgruppen wur-                                        können zwar ähnliche Bedingungen vermutet
de in diesem Test kein signifikanter Unterschied                                      werden, aber die Studie erlaubt keine Kontrol-
zwischen den Mittelwerten der vierten Jahrgangs-                                      le schulspezifischer Einflussfaktoren auf die
stufe zum ersten Messzeitpunkt und den Mittel-                                        Lernentwicklungen. Daher muss festgehalten
werten der dritten Jahrgangsstufe zum vierten                                         werden, dass die dargestellten Ergebnisse nicht
Messzeitpunkt gefunden (.10-Perzentil: t(6) = 0.57,                                   generalisierbar sind, da der Stichprobenum-
p > .05; .25-Perzentil: t (10) = 1.51, p > .05; .50-                                  fang und die Untersuchungsbedingungen dies
Perzentil: t (21) = 1.337, p > .05; .75-Perzentil:                                    nicht zulassen. Die Pilotstudie bekräftigt aber
t (15) = 0.83, p > .05; .90-Perzentil: t (10)=1.93,                                   die generelle Konstruktionsweise der vorgeleg-
p > .05; 1.0-Perzentil: t (4) = -1.23, p > .05). Es                                   ten Lernverlaufsdiagnostiktests und zeigt, dass
kann somit von einer guten jahrgangsübergrei-                                         diese stabil sind und auch geringe Lernfort-
fenden Anschlussfähigkeit ausgegangen wer-                                            schritte im unteren Leistungsbereich messen.
den, wenn der ausgewählte Test das jeweilige                                          Daher können die Tests zukünftig bei größeren
Leistungsspektrum der Lesenden abdeckt.
                                                                                      Studien eingesetzt und geprüft werden, um
                                                                                      grundsätzliche Fragen zur Lernentwicklung
6                            Diskussion                                               über die Zeit zu klären.

Die vorliegende Pilotstudie zeigt, dass standar-                                      Die Studienergebnisse sprechen für eine längs-
disierte Lernverlaufstests zur Messung der Le-                                        schnittliche Einsetzbarkeit der Tests in der
seflüssigkeit und des basalen Leseverständnis-                                        zweiten Hälfte der Grundschule. Die Paral-

                                                  14          VHNplus

JANA JUNGJOHANN, MICHAEL SCHURIG, MARKUS GEBHARDT
FACHBEITRAG VHN plus
Pilotierung von Leseflüssigkeits- und Leseverständnistests

leltest-Reliabilität zeigt akzeptable bis hohe zusätzlich den Abruf aus dem mentalen Le
Reliabilitäten (r = .72 – .90). Diese Ergebnisse xikon mit ein und beim Pseudowörterlesen
ähneln den Befunden von Walter (2011 a), der wird die Lesesynthese mit Silbensegmentie-
Korrelationswerte zwischen r = .74 – .84 einer rung beansprucht (Jungjohann & Gebhardt,
papierbasierten Lernverlaufsdiagnostik in der 2018). Beim Wörter- und Pseudowörterle-
dritten und vierten Klassenstufe berichtet. Im sen bestehen die Items überwiegend aus Wör-
Einklang mit den Ergebnissen von Müller et al. tern mit zwei Silben und sind somit länger als
(2013) und Landerl und Wimmer (2008) wur- die Items des Tests Silbenlesen. Für alle drei
den in dieser Studie in der dritten Klassenstufe Leseflüssigkeitstests ergeben sich daher unter-
im Mittel geringere Summenwerte bei allen schiedliche Bearbeitungszeiten pro Item, was
Messzeitpunkten und Testarten erwartet und zu größeren Lernanstiegen bei gleicher Bear-
beobachtet als bei den Lernenden der vierten beitungszeit führen kann. Diese Beobachtun-
Klassenstufe. Bei den Lernenden der vierten gen stärken die Argumente von Christ et al.
Klassenstufe wurden zudem größere Lern (2013), dass die Testkonstruktion bei der Inter-
zuwächse im Leseverständnis als bei den jün- pretation der Zuwachsraten berücksichtigt
geren Lernenden gefunden, wie es ebenfalls werden muss.
Walter (2011 a) beobachtet. Die mittleren Lern-
zuwächse fielen in beiden Klassenstufen im Bemerkenswert ist, dass in allen Klassen bei bis
Test Satzlesen größer aus als beim Wort- und zu 15 % der Schülerinnen und Schüler n eutrale
Pseudoworttest. Auch dies wurde in nationalen oder negative Lernverläufe beobachtet wurden.
und internationalen Studien von Zuwachsra Neutrale und negative Lernverläufe werden häu-
ten im Leseverständnis und der Leseflüssigkeit fig in äußeren Leistungsperzentilen berich-
zuvor beobachtet (Fuchs et al., 1993; Graney tet (Fuchs et al., 1993; Walter, 2011 a). Sowohl
et al., 2009; Walter, 2010 b; 2011 a). Die Ähn- Silberglitt und Hintze (2007) als auch Walter
lichkeit zwischen den Studienergebnissen so- (2010 b) berichten in ihren Studien, dass in den
wie die zuvor geprüfte Homogenität der Items äußeren Leistungsperzentilen geringere Lern-
(Jungjohann, DeVries, Mühling et al., 2018; zuwächse gemessen wurden als in den mittle-
Mühling, Jungjohann & Gebhardt, 2019) deu- ren Perzentilen. Das ist in dieser Studie in der
ten darauf hin, dass die Levumi-Testverfah- dritten Klassenstufe erkennbar, wo es höhere
ren für die Beobachtung von Lernverläufen in Lernanstiege in den mittleren Perzentilen gibt
der Zielgruppe reliabel und sensibel messen als in den äußeren. Trotzdem waren alle An-
können. stiege signifikant. In der vierten Klassenstufe
wurden nur in den oberen beiden Perzentilen
Abweichende Studienergebnisse wurden bei den Deckeneffekte beobachtet. Die Erklärungs
mittleren Zuwachsraten im Test Silbenlesen ansätze sind je nach Test unterschiedlich. Im
beobachtet. In beiden Klassenstufen erreichen Satzlesen lösten die oberen beiden Perzentil-
die Lernenden ähnlich hohe Zuwachsraten wie gruppen der vierten Klasse bereits zum ersten
beim Satzlesen (Klassenstufe 3: bSilbenlesen = 4.27, Messzeitpunkt fast alle zur Verfügung stehen-
bSatzlesen = 4.29; Klassenstufe 4: bSilbenlesen = 5.49, den Items. Für diese Lernenden entstehen die
bSatzlesen = 5.06). Die hohen Zuwachsraten beim Deckeneffekte vermutlich testbedingt aufgrund
Silbentest können über die Itemkonstruktion der Testkonstruktion als Speedtest. Im Wörter-
der Levumi-Tests begründet werden. Der Test lesen erreichen die Lernenden zum ersten
Silbenlesen misst das phonologische Rekodie- Messzeitpunkt der Studie mit 50 bis 60 Items
ren anhand von einzelnen Silben (Jungjohann eine hohe und kaum verbesserungsfähige Vor-
et al., 2019). Der Test Wörterlesen schließt lesegeschwindigkeit.

VHNplus 15

JANA JUNGJOHANN, MICHAEL SCHURIG, MARKUS GEBHARDT
FACHBEITRAG VHN plus
Pilotierung von Leseflüssigkeits- und Leseverständnistests

In Klassen mit einer breiten Leistungshetero Literatur
genität sind bei einem engen Lernverlaufsdia
gnostiktest Deckeneffekte wahrscheinlich. Im Adams, R. J. (2005). Reliability as a measurement
Testsystem Levumi existieren zum einen Tests design effect. Studies in Educational Evaluation,
verschiedener Niveaustufen und zum ande- 31 (2 –3), 162 –172. https://doi.org/10.1016/j.stu
educ.2005.05.008
ren alternative Testbereiche mit komplexeren
Anderson, S., Jungjohann, J. & Gebhardt, M. (2020).
Kompetenzansprüchen. Für diese Untersuchung Effects of using curriculum-based measurement
wurde zur besseren Vergleichbarkeit nur eine (CBM) for progress monitoring in reading and an
feste Niveaustufe gewählt. Im Feld wählen zu- additive reading instruction in second classes.
meist die Lehrkräfte eine Lernverlaufsdiagnostik Zeitschrift für Grundschulforschung, 13, 151 –166.
für die einzelnen Lernenden aus. Bei auftreten- https://doi.org/10.1007/s42278-019-00072-5
den Deckeneffekten wären Hinweise auf die An- Bos, W., Valtin, R., Hußmann, A., Wendt, H. & Goy,
schlussfähigkeit zwischen den Niveaustufen in M. (2017). IGLU 2016: Wichtige Ergebnisse im
Überblick. In A. Hußmann et al. (Hrsg.), IGLU
der Praxis hilfreich. Entsprechende Studien und
2016. Lesekompetenzen von Grundschulkindern
Analysen stehen bisher noch aus. Während eine
in Deutschland im internationalen Vergleich,
händische Auswahl den Lehrkräften mehr Frei- 13 –28. Münster: Waxmann Verlag.
heiten lässt, wäre auch eine adaptive Verbindung Christ, T. J., Zopluoglu, C., Monaghen, B. D. & Van
der Niveaustufen durch einen breiteren Test Norman, E. R. (2013). Curriculum-based measure-
möglich. Anstelle einzelner Lesetests mit engen ment of oral reading: Multi-study evaluation of
Itempools würde der adaptive Test dann Zugriff schedule, duration, and dataset quality on pro-
auf mehrere Itempools in unterschiedlichen Ni- gress monitoring outcomes. Journal of School
Psychology, 51 (1), 19 –57. https://doi.org/10.10
veaustufen haben, aus denen adaptiv gezogen
16/j.jsp.2012.11.001
wird. Alle Levumi-Lesetests bereiten ein adapti-
Deno, S. L. (1985). Curriculum-based measurement:
ves Testen vor, da pro Testart mehrere Itempools The emerging alternative. Exceptional Children,
in unterschiedlichen Niveaustufen existieren. 52 (3), 219 –232. https://doi.org/10.1177/00144
Im Fall von Deckeneffekten könnten zukünftig 0298505200303
schwierigere Items aus höheren Niveaustufen Deno, S. L. (2003). Developments in curriculum-
automatisch ausgewählt und somit der Test an based measurement. The Journal of Special Edu-
die Kompetenzen der Lernenden angepasst wer- cation, 37 (3), 184 –192. https://doi.org/10.1177/
00224669030370030801
den. Ein solches adaptives Testen könnte ins
Deno, S. L., Mirkin, P. K. & Chiang, B. (1982). Identi
besondere im inklusiven Unterricht mit großen
fying valid measures of reading. Exceptional
Leistungsunterschieden (Gebhardt, 2015) zwi- Children, 49 (1), 36 –45.
schen den Lernenden den Einsatz einer Lern Deno, S. L., Fuchs, L. S., Marston, D. & Shin, J. (2001).
verlaufsdiagnostik für die Lehrkräfte erleichtern. Using curriculum-based measurement to es-
tablish growth standards for students with
learning disabilities. School Psychology Review,
Anmerkung 30 (4), 507 –524.
Döring, N. & Bortz, J. (2016). Forschungsmethoden
I
Zu dem vorliegenden Beitrag sind der verwen- und Evaluation in den Sozial- und Humanwis-
dete Datensatz sowie Syntax für R unter fol- senschaften. Berlin: Springer. https://doi.org/10.
gender Zitierung veröffentlicht: Jungjohann, J., 1007/978-3-642-41089-5
Schurig, M. & Gebhardt, M. (2021). Pilotierung Förster, N., Kuhn, J.-T. & Souvignier, E. (2017). Nor-
von Leseflüssigkeits- und Leseverständnistests mierung von Verfahren zur Lernverlaufsdia
zur Entwicklung von Instrumenten der Lernver- gnostik. Empirische Sonderpädagogik, 9 (2),
laufsdiagnostik. Ergebnisse einer Längsschnitt 116 –122.
studie in der 3ten und 4ten Jahrgangsstufe / Fuchs, L. S. (2004). The past, present, and future of
Data & Syntax. https://doi.org/10.17605/OSF.IO/ curriculum-based measurement research. School
4SZY5 Psychology Review, 33 (2), 188 –192.

16 VHNplus

Sie können auch lesen