Pilotierung von Leseflüssigkeits- und Leseverständnistests zur Entwicklung von Instrumenten der Lernverlaufsdiagnostik - Publikationsserver der ...
←
→
Transkription von Seiteninhalten
Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten
FACHBEITRAG VHN plus Pilotierung von Leseflüssigkeits- und Leseverständnistests zur Entwicklung von Instrumenten der Lernverlaufsdiagnostik Ergebnisse einer Längsschnittstudie in der 3ten und 4ten Jahrgangsstufe I Jana Jungjohann 1, Michael Schurig 2, Markus Gebhardt 1 1 Universität Regensburg 2 Technische Universität Dortmund Zusammenfassung: Individuelle Lernverläufe im Lesen können mittels Lernverlaufsdiagnostik im Längsschnitt beobachtet werden. Die Lernverlaufstests müssen dafür auch über die Zeit reliabel und änderungssensibel messen. Dieser pilotierende Beitrag prüft erstmalig die Relia- bilität sowie die Änderungssensibilität von bereits im Querschnitt evaluierten Lernverlaufs- tests zur Messung der Leseflüssigkeit und des basalen Leseverständnisses im Längsschnitt. Zu vier Messzeitpunkten innerhalb eines Schuljahres wurden Lernende des dritten und vierten Jahrgangs einer regulären Grundschule (N = 90) mit drei Leseflüssigkeitstests (Silben, Wörter, Pseudowörter) sowie einem Satzverständnistest von externen Testerinnen in der Onlineplatt- form www.levumi.de getestet. Die Lehrkräfte erhielten am Ende der Studie die Ergebnisse. Die Ergebnisse zeigen für beide Klassenstufen und alle Messzeitpunkte zufriedenstellende Paralleltest-Reliabilitätswerte (r = .72 –.90). Im Schnitt steigen die Leseleistungen in 12 Wo- chen zwischen 2.15 (0.55) und 5.41 (0.98) Items. 4.26 –14.80 % der Lernenden zeigen negative Lernverläufe (b = -0.8 –-4.0), die anteilig durch studiendesignbedingte Deckeneffekte erklärt werden können. Die Befunde der Pilotstudie deuten auf eine grundsätzliche Einsatzmöglich- keit der Tests im Feld hin, sodass sie bei größeren Studien Verwendung finden können. Schlüsselbegriffe: Leseentwicklung, Lernverlaufsdiagnostik, Leseflüssigkeit, Leseverständnis, Grundschule Piloting Reading Fluency and Reading Comprehension Tests for the Development of Instruments for Curriculum-Based Measurement. Results of a Longitudinal Study in 3rd and 4th Grade Summary: Individual learning progress in reading can be longitudinally monitored by curri- culum-based measurement. For this purpose, the learning progress tests must measure reliably and change sensitively over time. For the first time, this pilot paper examines the reliability as well as the change sensitivity of curriculum-based measurement for quantifying reading fluency and reading comprehension in the second half of primary school over a school year. To this end, reading developments in the 3rd and 4th grades (N = 90) were measured at four measurement points in time. For each measurement point, the learners were tested with three reading fluency tests (syllables, words, pseudowords) and a sentence comprehension test from the online platform www.levumi.de. The teachers received the results at the end of the study. The results show satisfactory parallel test reliability values (r = .72 –.90) for both grades levels and all measurement points. On average, the reading performance increases between 2.15 (0.55) and 5.41 (0.98) items in 12 weeks. 4.26 –14.80 % of the learners show negative slopes (b = -0.8 –-4.0), which can be proportionally explained by design-related ceiling effects. The findings of the pilot study indicate that the tests can basically be used in the field so that they can be applied in larger studies. Keywords: Curriculum-based measurement, primary school, reading comprehension, reading development, reading fluency VHNplus, 90. Jg. (2021) DOI 10.2378/vhn2021.art12d 1 © Ernst Reinhardt Verlag
JANA JUNGJOHANN, MICHAEL SCHURIG, MARKUS GEBHARDT FACHBEITRAG VHN plus Pilotierung von Leseflüssigkeits- und Leseverständnistests 1 Lernverlaufsdiagnostik len (Mayer, 2016; Hesse & Latzko, 2011), stehen im Bereich Lesen bisher nur wenige geprüfte Tests zur Erfassung der Lernentwicklung zur Verfügung (Jung Der Erwerb basaler Lesekompetenzen aller Ler- johann, Gegenfurtner & Gebhardt, 2018). nenden ist ein zentrales Ziel der Grundschule, um eigenständig und sicher Informationen Der Ansatz der Lernverlaufsdiagnostik wurde aus Texten konstruieren zu können (Scheerer- unter starkem Einfluss des US-amerikanischen Neumann, 2015). Zu den bedeutendsten Schrit- Konzepts curriculum-based measurement (CBM; ten des Leseerwerbs in der Grundschule zählen Deno, 1985) in Deutschland verbreitet. Er er- die Entwicklung einer angemessenen schnellen möglicht durch leicht handhabbare Tests mit Leseflüssigkeit sowie ein sicheres basales Lese- kurzer Durchführungsdauer das Abbilden von verständnis (Klicpera, Schabmann, Gasteiger- individuellen Lernverläufen als Kurven im Klicpera & Schmidt, 2017; Lenhard & Artelt, zeitlichen Verlauf (Klauer, 2011). Diese Lern- 2009; Rosebrock & Nix, 2017). Allerdings ge- verläufe können Lehrkräften eine Rückmeldung lingt der Leseerwerb bei einzelnen Schülerin- geben, ob und in welchem Ausmaß ihre Schü- nen und Schülern unterschiedlich gut. Ca. 20 % lerinnen und Schüler vom angebotenen Un verlassen die Grundschule ohne ausreichende terricht profitieren. Die Intention der Lernver- Lesekompetenzen für das Lernen in der Sekun- laufsdiagnostik ist, der Manifestierung von darstufe, wie die internationale Lesekompe- Schwierigkeiten präventiv vorzubeugen (Deno, tenzstudie IGLU 2016 in Deutschland aufzeigt Fuchs, Marston & Shin, 2001). Das kann ge (Hußmann et al., 2017). Besorgniserregend ist, lingen, da Lernende mit besonderen Unter- dass der Anteil der schwachen Leserinnen und stützungsbedarfen durch langsam ansteigende Leser im Vergleich zu den Vorgängerkohorten oder stagnierende Lernverläufe identifizierbar 2006 und 2011 gewachsen ist (Bos, Valtin, Huß- sind. Die Tests der Lernverlaufsdiagnostik sind mann, Wendt & Goy, 2017). für einen häufigen Einsatz im Unterricht mög- lichst praktikabel konstruiert. Sie zeichnen Insbesondere Schülerinnen und Schüler mit sich dadurch aus, dass sie nur wenige Minuten einem Risiko für Leseschwierigkeiten im inklu- dauern, zahlreiche Parallelversionen für einen siven Unterricht oder an der Förderschule be- wiederholenden Einsatz bereitstellen und leicht nötigen einen Unterricht, der ihre individuel- interpretierbar sind, trotzdem aber den Ansprü- len Lernvoraussetzungen und Lernbedürfnisse chen einer reliablen Messung im Längsschnitt berücksichtigt und fördert (Walter, 2008). Das genügen (Wilbert, 2014). Ziel des Leseunterrichts ist es, die Lernenden bei aufkommenden Lernschwierigkeiten früh- In Anlehnung an amerikanische Forschungser- zeitig effektiv zu fördern, sodass sich Schwie- gebnisse wurden einige deutschsprachige Lern- rigkeiten nicht langfristig manifestieren. Damit verlaufsdiagnostiken zur Erfassung von Lese- Schwierigkeiten im Lesen möglichst frühzeitig kompetenzen in der Grundschule konstruiert sichtbar werden, werden diagnostische Infor- (z. B. Gebhardt, Diehl & Mühling, 2016; Voß & mationen über den Lernstand und die Lernent- Blumenthal, 2020; Walter, 2010 a; 2013). Lern- wicklungen der Lernenden in den Unterricht verlaufstests für das Lesen sind üblicherweise einbezogen. Hierbei werden diagnostische als eindimensionale Konstrukte konstruiert. Sie Instrumente verwendet, welche entweder messen meist robuste Indikatoren wie die Lese- den Status quo oder die Lernentwicklung er- flüssigkeit, die mit einer umfassenden Kompe- fassen (Hartke, 2017). Während es für den tenz hoch korrelieren (Deno, Mirkin & Chiang, deutschsprachigen Raum viele Lesetests gibt, 1982; Fuchs, Fuchs, Hosp & Jenkins, 2001). Die um den Status quo des Lernstandes festzustel- Leseflüssigkeit wird häufig durch lautes Vor 2 VHNplus
JANA JUNGJOHANN, MICHAEL SCHURIG, MARKUS GEBHARDT FACHBEITRAG VHN plus Pilotierung von Leseflüssigkeits- und Leseverständnistests lesen von einzelnen Silben, Wörtern oder zu- die Prüfung der Testgüte mittels der Item- sammenhängenden Texten erfasst (ebd.). Diese Response-Theorie empfohlen (Gebhardt, Heine, Tests dauern meist 60 Sekunden. Während Zeuch & Förster, 2015; Wilbert & Linnemann, der Durchführung bewertet eine Lehrkraft, ob 2011). In der zweiten Stufe wird die technische die Schülerin oder der Schüler korrekt vorliest. Einsetzbarkeit der Lernverlaufstests im Längs- Zur Erfassung des Leseverständnisses werden schnitt geprüft (Fuchs, 2004). Studien dieser lückenhafte Sätze oder Texte auf Zeit bearbeitet, Stufe können mit und ohne Rückmeldung der bei denen mithilfe von vorgegebenen Antwort- Ergebnisse an die Lehrkräfte erfolgen. Zum möglichkeiten die Lücken gefüllt werden (Shin, zweiten Forschungsstadium zählen auch Un- Deno & Espin, 2000). Beide Indikatoren wer- tersuchungen der Änderungssensibilität über den meist als Speedtest ausgewertet. Zuwachsraten mittels linearer Regressionsana- lysen. In den Studien von Walter (2011 a) und Die Anwendung der Lernverlaufsdiagnostik Shin et al. (2000) wurde zunächst die Paral- umfasst mehrere Schritte: (1) Auswahl p assender leltest-Reliabilität mittels Pearson-Produkt- Lernverlaufstests, (2) Durchführung mehrerer Moment-Korrelation zwischen den einzelnen Messungen, (3) Übertragung der Messergebnis Messzeitpunkten anhand von Stichproben se in einen Lernverlaufsgraphen, (4) Ableitung ohne Kontrollgruppe geprüft. Anschließend von zukünftigen Lernzielen und (5) Planung wurden die Mittelwerte mit Standardabwei- und Adaption von Förderungen auf der Basis chungen zu allen Messzeitpunkten auf de- der Lernverlaufsdaten (data-based decision- skriptiver Ebene beschrieben und auf signifi- making; Hosp, Hosp & Howell, 2007). Je nach kante Mittelwertsunterschiede hin überprüft. Einsatzzweck variieren die zeitlichen Abstände Die Sensibilität der Messverfahren wird durch zwischen den Tests sowie die Häufigkeit der mehrere aus der Theorie und Empirie abgelei- Messungen (Deno, 2003). Durch wöchentliche tete Hypothesen, wie Unterschiede zwischen Messungen können Lernentwicklungen ein Leistungsgruppen, Klassenstufen oder in der zelner Schülerinnen und Schüler kleinschrittig Entwicklung, geprüft. In beiden Studien wird beobachtet werden, um Effekte von intensiven nicht beschrieben, ob die Lehrkräfte Rückmel- und zeitaufwendigen Förderungen zu beurtei- dungen über die Lernverläufe ihrer Schülerin- len. Messergebnisse von ganzen Schulklassen nen und Schüler erhielten. In der dritten Stufe mit größeren Messabständen von mehreren der Erforschung der Lernverlaufsdiagnostik Monaten werden hingegen genutzt, um Risiko- nach Fuchs (2004) werden die Effektivität und kinder zu identifizieren. der praktische Nutzen der Lernverlaufsdia- gnostik bei ihrer Anwendung durch Lehrkräfte im Feld untersucht (Stufe 3). Studien der Stu- 2 Die Erforschung einer fen 1 und 2 sind Voraussetzung für die Belast- Lernverlaufsdiagnostik barkeit der Maße vor einem Praxiseinsatz, die stets mehrere Messzeitpunkte einer abhän- Zur Erforschung und Erprobung einer Lern- gigen, meist kleineren Stichprobe enthalten verlaufsdiagnostik schlägt Fuchs (2004) ein (Voß & Gebhardt, 2017). Förster, Kuhn und dreistufiges Vorgehen vor. Zuerst müssen die Souvignier (2017) ergänzen die Stufen nach Reliabilität und die Objektivität im Querschnitt Fuchs (2004) und beschreiben eine Abhängig- zu einem Messzeitpunkt anhand einer großen keit in Normierungsstudien zwischen den spe- Stichprobe überprüft werden (Stufe 1). Dies zifischen Bedingungen und dem individuellen wird häufig gemäß dem Vorgehen der klas Einsatzzweck der geprüften Lernverlaufsdia- sischen Testtheorie gemacht (Jungjohann, Ge- gnostik. Die Autorengruppe nennt als grundle- genfurtner & Gebhardt, 2018). Alternativ wird gende Voraussetzung für eine Übertragbarkeit VHNplus 3
JANA JUNGJOHANN, MICHAEL SCHURIG, MARKUS GEBHARDT FACHBEITRAG VHN plus Pilotierung von Leseflüssigkeits- und Leseverständnistests von Vergleichswerten eine möglichst hohe Ver- Monat (Shin et al., 2000) beschrieben. Für den gleichbarkeit der schulischen Bedingungen, Vergleich von Lernentwicklungen werden die der Testsituation sowie der Art des prakti- durchschnittlichen Zuwachsraten aller Lernen- zierten Unterrichts während der Studien. Nur den im regulären Unterricht ohne Intervention wenn in Studien schulalltagsähnliche Bedin- benötigt. Zur Modellierung von Zuwachsraten gungen herrschen, werden Erkenntnisse über werden meist lineare Modelle mit Betrachtung spezifische Lernverläufe in verschiedenen der Steigung als unstandardisiertem b-Wert (Re- schulischen Settings ermöglicht. gressionskoeffizient) herangezogen (Deno et al., 2001; Graney, Missall, Martínez & Bergstrom, 2009; Silberglitt & Hintze, 2005; Walter, 2010 b; 2.1 Vergleichswerte im 2011 a). Alternativ können auf Aggregatebene Querschnitt und Längsschnitt auch diskontinuierliche Zuwachsraten mittels komplexerer Vorgehensweisen abgetragen wer- Um die Ergebnisse einer Lernverlaufsdiagnos- den, wie beispielsweise bei Nese et al. (2012) tik für diagnostische Zwecke im Unterricht durch hierarchische Modelle. Der Nachteil der zu nutzen, ziehen Lehrkräfte querschnittliche Modellierung diskontinuierlicher Zuwachs Vergleichswerte zu einem Messzeitpunkt und raten ist jedoch, dass die Anforderungen an die durchschnittliche Zuwachsraten einer Kontroll- Stichprobe höher und die Vorannahmen zum gruppe im Längsschnitt zwischen mehreren erwarteten Wachstum umfänglicher sind als Messzeitpunkten heran (Shinn, 2007). Die Roh- bei Analysen mittels linearer Modelle. Eine ho- werte eines Kindes können zur besseren Inter- he Präzision bei der Schätzung von Wachs- pretation und zur Beschreibung des Leistungs- tumskurven erreichen latente Wachstumskur- niveaus zu normativen Vergleichswerten (engl. venmodelle unter expliziter Berücksichtigung benchmark) in Beziehung gesetzt werden (Förs- der Messfehlertheorie (Yeo, Fearrington & ter et al., 2017). Häufig werden zur Feststellung Christ, 2012). Bei diesem Ansatz stellt jeder des Status quo Vergleichsnormen zu definier- Messzeitpunkt einen Indikator für die latente ten Zeitpunkten angeboten. Diese Vergleichs- Steigung und das Ausgangsniveau der Steigung normen bestehen aus Ergebnissen einer Quer- (engl. intercept) dar. Die Anzahl der Messzeit- schnittsstudie, in der die Schülerinnen und punkte steht aber im Zusammenhang mit der Schüler keine spezifische Intervention er- benötigten Stichprobengröße (Muthén & Cur- halten. Häufig werden für die Instrumente zu ran, 1997). Für latente Wachstumskurvenmo- drei bis vier Messzeitpunkten pro Schuljahr delle werden generell umfangreichere Stich- (z. B. Herbst, Winter, Frühjahr, Sommer) Nor- proben benötigt als bei einer linearen Regres- men abgeleitet und getrennt nach Klassenstufe sion. Auch werden nicht individuelle, sondern deskriptiv beschrieben (Good, Simmons & mittlere Wachstumswerte geschätzt. Die in- Kame’enui, 2001; Grapin, Kranzler, Waldron, dividuellen Werte werden als Abweichungen Joyce-Beaulieu & Algina, 2017). begriffen, deren Schätzung stark von der Re liabilität des mittleren Wachstums abhängt. Neben den querschnittlichen Normen gibt es Wenn das mittlere Wachstum eine hohe Va auch den Vergleich der Lernentwicklung an- rianz aufweist, werden individuelle Schätzun- hand von längsschnittlichen Zuwachsraten gen ungenauer. Die Schätzung der Lernzuwäch (engl. slope). In der Lernverlaufsdiagnostik se mittels linearer Regressionen berücksichtigt forschung werden die Lernentwicklungen der die Messfehlertheorie weniger stark, muss also Schülerinnen und Schüler über die Zeit mit als Vereinfachung gesehen werden. Für die Prü- festen Messabständen pro Woche (Fuchs, Fuchs, fung der Änderungssensibilität können linea- Hamlett, Walz & Germann, 1993) oder pro re Regressionen als hinreichend praktikable 4 VHNplus
JANA JUNGJOHANN, MICHAEL SCHURIG, MARKUS GEBHARDT FACHBEITRAG VHN plus Pilotierung von Leseflüssigkeits- und Leseverständnistests und reliable Indikatoren verwendet werden hinweg geringer ausfallen als bei Leseflüssig- (Walter, 2014). Wie jeder andere Messwert keitstests und dass mit steigendem Alter der Ler- sind auch b-Werte fehlerbehaftet und die Grö- nenden die Zuwachsraten geringer ausfallen ße des Messfehlers eignet sich zur Einschät- (Fuchs et al., 1993; Graney et al., 2009; Walter, zung der Angemessenheit der verwendeten 2010 b; 2011 b). Silberglitt und Hintze (2007) Werte (Christ, Zopluoglu, Monaghen & Van untersuchen, ob sich Zuwachsraten in Abhän- Norman, 2013; Walter, 2014). Fuchs et al. (1993) gigkeit vom Ausgangsniveau verändern. Sie empfehlen bei der Analyse von Zuwachsra- modellieren die Zuwachsraten im Lesen von ten eine Betrachtung des individuellen Aus- 7544 Lernenden in den Klassenstufen zwei gangsniveaus, um falsche Erwartungen an zu- bis sechs über ein Schuljahr zu drei Messzeit- künftige Lernentwicklungen zu vermeiden. punkten mittels eines hierarchischen linearen Denn ohne Berücksichtigung des individu Wachstumsmodells. Im Vergleich zur Grup- ellen Ausgangsniveaus werden von Lernenden pe der durchschnittlichen Schülerinnen und mit einem geringen Ausgangsniveau höhere Schüler (50 – 59 Perzentil) waren beim unters- Lernzuwächse im gleichen Zeitraum erwartet ten als auch beim obersten Perzentil signifikant als von Schülerinnen und Schülern mit einem geringere Zuwachsraten messbar. Dies bestä- höheren Ausgangsniveau. Für differenzierte tigt die Relevanz, Perzentilbereiche in der Pilo Betrachtungen von Leistungsgruppen wird oft tierung von Verfahren getrennt zu analysieren. eine Unterteilung der Zuwachsraten getrennt Weitere Einflüsse auf die Abbildung der in nach Perzentilen vorgenommen (Hasbrouck dividuellen Lernentwicklungen können durch & Tindal, 2006; Walter, 2010 b). Alternativ die erhobene Kompetenz, das konkret ein finden sich Aufteilungen der Zuwachsraten gesetzte Verfahren und die Erhebungsbedin- nach den manifesten Ausgangsniveaus (Deno gungen (z. B. Untersuchungszeitraum, Ort der et al., 2001). Testung, Testleitung, Testsituation) entstehen (Christ et al., 2013). 2.2 Erwartungen über durchschnittliche Lernverläufe im Lesen 3 Forschungsfragen In Anlehnung an Entwicklungsmodelle des Jedes neue Instrument der Lernverlaufsdia Lesens sind bei einem regulären Leseerwerb gnostik benötigt eigene evaluierende Studien, gegen Ende der Grundschule geringere Lern- da Vergleichswerte und Zuwachsraten testspezi- zuwächse in der Leseflüssigkeit und höhere fisch sind und durch viele Faktoren beeinflusst Lernzuwächse im Leseverständnis zu erwarten, werden. Die Onlineplattform www.levumi.de da durchschnittliche Leserinnen und Leser in besteht seit 2015 und bietet browserbasierte di- dieser Phase bereits routiniert flüssig lesen gitale Lernverlaufstests zur Messung der Lese- (Müller, Križan, Hecht, Richter & Ennemo- flüssigkeit und des basalen Leseverständnisses ser, 2013). Gleichzeitig zeigen ältere Lernende in der Grundschule an. In Anlehnung an das geringere Lernzuwächse in basalen Lesekom Vorgehen von Fuchs (2004) liegen bereits Stu- petenzen als jüngere Lernende zu Beginn des dienergebnisse für die Stufe 1 vor (Gebhardt Leseerwerbs (Richter, Isberner, Naumann & et al., 2016; Jungjohann, DeVries, Gebhardt & Kutzner, 2012). In nationalen und internatio- Mühling, 2018; Jungjohann, DeVries, Mühling nalen Forschungsarbeiten zeigt sich die zen & Gebhardt, 2018). In diesen Studien wird die trale Tendenz, dass bei regulärem Grundschul- psychometrische Güte der hier eingesetzten unterricht die Zuwachsraten bei den Verfahren Tests mittels klassischer Testtheorie sowie der zum Leseverständnis über alle Jahrgangsstufen Item-Response-Theorie erfolgreich geprüft. VHNplus 5
JANA JUNGJOHANN, MICHAEL SCHURIG, MARKUS GEBHARDT FACHBEITRAG VHN plus Pilotierung von Leseflüssigkeits- und Leseverständnistests Beispielsweise wurden in einer Querschnitts ministriert, die pro Messzeitpunkt durch eine studie mit 132 Schülerinnen und Schülern für zufällige Ziehung aus einem begrenzten Item- den Test Silbenlesen N4 eine Reliabilität von pool für jedes Kind eine neue Parallelform er- rWLE = 0.90 sowie eine Test-Retest-Reliabilität stellt (Jungjohann, Diehl, Mühling & Gebhardt, von r = 0.85 beobachtet (Jungjohann, DeVries, 2018). Für alle Levumi-Lesetests werden Pa Gebhardt et al., 2018). Zusätzlich wurde die ralleltest-Reliabilitäten von mindestens r = .80 Eignung der Tests für den Einsatz im leistungs- (Döring & Bortz, 2016) erwartet. Zweitens heterogenen Grundschulunterricht mit Schüle- werden die beobachteten Punktrohwerte de- rinnen und Schülern mit unterschiedlichen skriptiv beschrieben. Es wird vermutet, dass Personenmerkmalen (z. B. Geschlecht, Migra- die Schülerinnen und Schüler der vierten Jahr- tionshintergrund, sonderpädagogischer Förder- gangsstufe zu jedem Messzeitpunkt mehr Auf- bedarf) untersucht. Ebenso gibt es eine Studie gaben lösen als die der dritten Jahrgangsstufe. mit einer standardisierten Leseintervention Drittens werden die Zuwachsraten im Längs- über ein Schulhalbjahr, in der mäßige bis hohe schnitt untersucht. Es wird angenommen, dass positive Korrelationen zwischen den Levumi- sich distinkte Entwicklungen mittels Metho- Tests und einem standardisierten Leseverständ den der Lernverlaufsdiagnostik nachzeichnen nistest (ELFE II, Lenhard, Lenhard & Schnei- lassen. Die dritte und vierte Klassenstufe wer- der, 2017) von r = 0.52 – 0.81 beobachtet wurden den dabei getrennt voneinander betrachtet, (Anderson, Jungjohann & Gebhardt, 2020). Ein um die Unterschiede in den Lernverläufen Längsschnitt ohne Intervention über ein Schul- zwischen den Jahrgängen zu beobachten. In jahr von mehreren Jahrgangsstufen fehlt für die Anlehnung an die Argumentation von Müller Lesetests von Levumi und stellt einen nächsten et al. (2013) wird in der vierten Klassenstufe Schritt in der Prüfung einer Lernverlaufsdia eine geringere Lernentwicklung in der Lese- gnostik nach Fuchs (2004) dar. flüssigkeit und eine höhere im Satzverständnis erwartet. Zusätzlich werden unterschiedlich In der vorliegenden Pilotstudie werden drei starke Anstiege in den Lernverläufen auf Ebene Lernverlaufstests zur Messung der Leseflüssig- der Schülerinnen und Schüler vermutet. Vier- keit und ein Test zum Leseverständnis zu vier tens folgt eine differenzierte Betrachtung der Messzeitpunkten innerhalb eines Schuljahres Leseentwicklung unterschiedlicher Leistungs- an einer Partnergrundschule eingesetzt, um die gruppen. Für die Untersuchung unterschied- generelle Einsetzbarkeit der Tests im Längs- licher Leistungsgruppen werden, angelehnt schnitt in der dritten und vierten Klassenstufe an frühere Forschungsarbeiten (Hasbrouck & erstmalig zu überprüfen. In Anlehnung an Tindal, 2006; Walter, 2010 b), Perzentilgrup- Walter (2011 a) und Shin et al. (2000) werden pen gebildet. In Anlehnung an Silberglitt und die Reliabilität und die Änderungssensibilität Hintze (2007) werden in den unteren und obe- der Levumi-Lesetests im Längsschnitt ohne ren Perzentilen flachere Entwicklungskurven Kontrollgruppe geprüft. Das Ziel ist, pilotierend angenommen. Gleichzeitig werden vor dem Lernverläufe und Zuwachsraten in der Leseflüs Hintergrund der Ergebnisse von Walter sigkeit und dem Leseverständnis im regulären (2010 b) bei den Schülerinnen und Schülern leistungsheterogenen Unterricht aufzuzeigen, mit den schwächsten Leseleistungen gerin- um auf dieser Basis die grundlegende Einsatz- gere Lösungshäufigkeiten vermutet. Außer- fähigkeit der Tests in der dritten und vierten dem wird erwartet, dass die Tests über die Klassenstufe zu beurteilen. Dafür wird erstens Grenzen der Jahrgangsstufen hinweg einsatz- die Paralleltest-Reliabilität zu allen Mess fähig sind. Die Prüfung dieser Kriterien kann zeitpunkten geprüft. Die eingesetzten Testver- als Facette einer externalen Validierung begrif- fahren werden in einer Onlineplattform ad fen werden (Klauer, 2011). 6 VHNplus
JANA JUNGJOHANN, MICHAEL SCHURIG, MARKUS GEBHARDT FACHBEITRAG VHN plus Pilotierung von Leseflüssigkeits- und Leseverständnistests 4 Methode eine mögliche formative Wirkung der Lern verlaufsdiagnostik zu verhindern, bekamen die 4.1 Stichprobenbeschreibung teilnehmenden Lehrkräfte während der Test- phase keinen Einblick in die Ergebnisse. Nach An der Studie nahm eine inklusive zweizügi- der Studie erhielten die Lehrkräfte die Ergeb- ge Partnergrundschule in städtischer Lage zur nisse ihrer Schülerinnen und Schüler sowie Erprobung der kostenlosen Onlineplattform Fortbildungen. In Absprache mit der Schullei- Levumi (Gebhardt et al., 2016) teil. Die Stich tung wurden jeweils die Wochen vor den Ferien probe umfasst N = 90 Schülerinnen und Schüler als Messwochen definiert, um rückläufige Ef- (43 Mädchen und 47 Jungen). Zum ersten Mess- fekte durch die Ferien zu vermeiden. Die Mes- zeitpunkt (Oktober 2017) waren die teilneh sungen fanden in den Kalenderwochen KW 41 menden Schülerinnen und Schüler im Schnitt (Herbst), KW 50 (Winter), KW 11 (Frühling) 9.2 (SD = 0.69) Jahre alt. Elf Schülerinnen und und KW 24 (Sommer) vormittags während in- Schüler hatten einen Migrationshintergrund dividualisierter Lernzeiten statt. Jeder Klasse (Kind oder mindestens ein Elternteil im Ausland wurde ein fester Testtag zugeteilt, sodass die geboren). Zwei Schülerinnen und Schüler hatten Messabstände bei allen Kindern gleich waren. einen diagnostizierten sonderpädagogischen Aus methodischer Sicht wäre ein gleichmäßiger Förderbedarf (1 × Lernen, 1 × Sprache), zwei Abstand zwischen den Messungen wünschens- andere hatten einen Fluchthintergrund und be- wert gewesen. Dies war aber aufgrund der Pla- fanden sich zu Beginn der Studie im Deutsch nung der Schule sowie der Ferienzeiten nicht erwerb. Für alle Teilnehmenden lag das Ein möglich und spiegelt die schulischen Einsatz- verständnis der Erziehungsberechtigten vor und bedingungen der Lernverlaufsdiagnostik wi- die Teilnahme war freiwillig. Zwei Drittklässler der. In den größeren Messabständen lagen mehr fehlten bei mehr als der Hälfte der Erhebungen einzelne Ferientage (Feiertage, Karneval). Im und wurden aus der Studie genommen. Die bei- Schnitt lagen 12 Wochen zwischen den Mess- den Jahrgänge (nStufe 3 = 47, nStufe 4 = 41) waren in zeitpunkten. Pro Klassenverband standen in jeweils zwei Klassenverbände aufgeteilt. Um den den Messwochen jeweils drei Schulstunden und Einfluss der Klasse auf die einzelnen Ergebnisse eine geschulte Testerin zur Verfügung. Zu je- nachzuvollziehen und damit mögliche Effekte dem Messzeitpunkt bearbeiteten die Teilneh- auf der Ebene der Klassenzusammensetzung so menden drei aufeinanderfolgende Leseflüssig- wie der Lehrkräfte zu kontrollieren, wurden die keitstests als Einzeltests und einen Gruppentest Intra-Klassenkorrelationen (ICC) für alle ver- zum Leseverständnis im schuleigenen Com wendeten Tests bestimmt. Die ICC quantifizieren puterraum. Die Leseflüssigkeitstests wurden die Bedeutsamkeit einer Gruppenzugehörigkeit, stets in derselben Reihenfolge und in der ver- also hier der Zugehörigkeit zu den Klassen (Zur- mutlichen theoretischen Schwierigkeit steigend briggen, 2016). Es zeigt sich, dass im Mittel etwa (Silben, Wörter, Pseudowörter) administriert. 20 % (ICCSilbenlesen = 14,5 %, ICCWörterlesen = 28,7 %, ICCPseudowörterlesen = 16,4 %, ICCSatzlesen = 17,6 %) der individuellen Variabilität der Testergebnisse auf 4.3 Erhebungsinstrumente die Klassenzugehörigkeit zurückgeführt werden kann, was für relativ starke Klasseneffekte bei Alle eingesetzten Lernverlaufstests sind in der den Leseleistungen spricht. Onlineplattform Levumi kostenlos eingebettet und auf mehreren Niveaustufen verfügbar. Die 4.2 Studiendesign Niveaustufen der Lesetests sind nach linguis tischen Regeln definiert und generieren die Zu Beginn der Studie war die Plattform allen Schwierigkeit der Aufgaben. Um die Vergleich- Lehrkräften und Lernenden unbekannt. Um barkeit der vier Tests zu sichern, wurden in der VHNplus 7
JANA JUNGJOHANN, MICHAEL SCHURIG, MARKUS GEBHARDT FACHBEITRAG VHN plus Pilotierung von Leseflüssigkeits- und Leseverständnistests vorliegenden Studie alle auf derselben Niveau- Der Test zum Leseverständnis präsentiert ein stufe (N4) administriert. Nach der Registrierung zelne Sätze hintereinander, in denen jeweils ein werden die Tests digital im Browser durchge- Wort fehlt (Jungjohann, DeVries, Mühling et al., führt. Sie sind auch als Papierversion frei erhält- 2018). Der Itempool enthält 60 Items. Mithilfe lich (Jungjohann, Diehl & Gebhardt, 2019; Jung- von vier Auswahlwörtern (1 × richtiges Zielwort, johann & Gebhardt, 2019). Die digitalen Paral- 3 × Ablenker) konstruieren die Lesenden den lelformen werden über eine zufällige Ziehung Sinn der Sätze in Stillarbeit. Berücksichtigt wer- aus fest definierten Itempools generiert. Dies den unterschiedliche Argument-Prädikat-Struk- erlaubt eine hohe Anzahl von Testwiederholun- turen, um theoriegeleitet syntaktische Schwie- gen ohne Erinnerungseffekte (Klauer, 2011). rigkeitsstufen der deutschen Sprache zu reprä- sentieren. Zum Zeitpunkt der Studie dauerte der Die theoriegeleiteten Konstruktionen der Lese- Test acht Minuten. Nach Prüfung der Reliabilität flüssigkeitstests berücksichtigen je nach Testart wurde der Test unter gleichbleibender Reliabi (Silbenlesen, Wörterlesen, Pseudowörterlesen) lität aus ökonomischen Gründen auf fünf Mi unterschiedliche Leseteilkompetenzen (Jung nuten verkürzt. Die übliche Bearbeitungszeit johann & Gebhardt, 2018). Die Tests dauern pro Item liegt bei etwa 10 bis 15 Sekunden. 60 Sekunden und benötigen eine lesekompeten te Person zur Beurteilung von Lesefehlern. In den unabhängigen Itempools existieren 134 Items für den Silbentest, 61 Items für den Wörtertest 5 Ergebnisse und 189 Items für den Pseudowörtertest. Die Items werden pro Testdurchführung zufällig 5.1 Reliabilität der eingesetzten (ohne Zurücklegen) gezogen, sodass hypothe- Lernverlaufstests für die tisch alle Items bearbeitet werden können. Die vorliegende Stichprobe durchschnittlich Lesenden erreichen am Ende der Grundschule eine schwierigkeitsabhängi- Modellanpassung und Reliabilität für die vor- ge Bearbeitungszeit von 1,5 bis 3 Sekunden liegende Stichprobe werden basierend auf einer pro Item und bearbeiten somit in 60 Sekunden Item-Response-Theorie-Skalierung mit dem 20 bis 40 Items in der Leseflüssigkeit. R-Paket pairwise (Heine, 2019) geschätzt. Dabei Tab. 1 Korrelationen der Lesetests zwischen benachbarten Messzeitpunkten Stufe 3 Stufe 4 T1 / T2 T2 / T3 T3 / 4 T1 / T2 T2 / T3 T3 / 4 r (KIlow / KIhigh ) r (KIlow / KIhigh ) r (KIlow / KIhigh ) r (KIlow / KIhigh ) r (KIlow / KIhigh ) r (KIlow / KIhigh ) .85*** .80*** .79*** .85*** .72*** .82*** Silbenlesen (0.74 / 0.94) (.66 / .89) (0.61 / 0.89) (0.69 / 0.94) (0.51 / 0.98) (0.66 / 0.90) .87*** .87*** .86*** .85*** .77*** .87*** Wörterlesen (0.77 / 0.92) (0.77 / 0.93) (0.76 / 0.92) (0.72 / 0.92) (0.60 / 0.88) (0.75 / 0.92) .87*** .84*** .85*** .76*** .89*** .87*** Pseudowörterlesen (0.77 / 0.93) (0.73 / 0.91) (0.73 / 0.91) (0.58 / 0.87) (0.80 / 0.94) (0.76 / 0.93) .83*** .89*** .90*** .81*** .81*** .86*** Satzlesen (0.71 / 0.91) (0.80 / 0.94) (0.81 / 0.95) (0.65 / 0.91) (0.64 / 0.90) (0.75 / 0.92) Anmerkung: T1 = Herbst 2017, T2 = Winter 2017, T3 = Frühling 2018, T4 = Sommer 2018, KI = Konfidenz- intervall, * p ≤.05, ** p ≤.01, *** p ≤.001 8 VHNplus
JANA JUNGJOHANN, MICHAEL SCHURIG, MARKUS GEBHARDT FACHBEITRAG VHN plus Pilotierung von Leseflüssigkeits- und Leseverständnistests wurde ein konditionaler Maximum Likelihood schreiben, werden die Punktrohwerte der Stich- Ansatz zur Parameterschätzung verwendet. Zur proben abgebildet. Dafür wurde die Anzahl robusten Schätzung von Parametern am Rand der richtig gelösten Items (Summenwerte) se- der Verteilung wurden gewichtete Schätzer parat für die einzelnen Tests analysiert. In Ta- (weighted likelihood estimators; WLE) verwen- belle 2 sind die arithmetischen Mittel (x–) und det. In Anlehnung an Adams (2005) weisen die die Standardabweichung der Summenwerte Tests zum ersten Messzeitpunkt sehr gerin- aller vier Lesetests zu den vier M esszeitpunkten ge Messfehleranteile auf (WLE-Rel.Silben = .96, getrennt nach Klassenstufe dargestellt. Zusätz- WLE-Rel.Wörter = .96, WLE-Rel.Pseudowörter = .92, lich werden die Effektstärken (Cohen’s d) zwi- WLE-Rel.Satzlesen = .96). schen dem ersten und vierten Messzeitpunkt angeführt, um die Größen der Mittelwerts Mittels Pearson-Produkt-Moment-Korrelation unterschiede zu quantifizieren. wird die Paralleltest-Reliabilität zwischen den benachbarten Messzeitpunkten geprüft. In Ta- Tabelle 2 zeigt, dass das arithmetische Mittel belle 1 sind die Korrelationen inklusive des obe- der Summenwerte bis auf eine Ausnahme kon- ren und unteren Konfidenzintervalls getrennt tinuierlich über alle Messzeitpunkte in beiden nach Testart und Klassenstufen abgebildet. Schulstufen hinweg ansteigt. Die Ausnahme Alle Korrelationen liegen zwischen r = .72 – .90 stellt der Test Pseudowörterlesen zu den Mess- und sind mit p < .001 signifikant. zeitpunkten Frühling und Sommer 2018 in Klassenstufe 3 dar (x–Frühling = 22.93 (SD = 8.77); x–Sommer = 22.85 (SD = 8.87)). Hier kann kein Lern- 5.2 Punktrohwerte in der dritten anstieg beobachtet werden. Die Effekte für die und vierten Jahrgangsstufe Tests Silbenlesen, Wörterlesen und Satzlesen sind in Klassenstufe 3 höher ausgeprägt als im Um die Lernentwicklung der Schülerinnen vierten Jahrgang. Für das Pseudowörterlesen und Schüler über das Schuljahr hinweg zu be- liegt ein höherer Effekt für die Klassenstufe 4 vor. Tab. 2 Arithmetisches Mittel, Standardabweichung und Effektstärken zu allen vier Messzeitpunk ten getrennt nach Klassenstufe Stufe 3 Stufe 4 Herbst Winter Frühling Sommer Effekt- Herbst Winter Frühling Sommer Effekt- 2017 2017 2018 2018 stärke1 2017 2017 2018 2018 stärke x– (SD) x– (SD) x– (SD) x– (SD) dCohen x– (SD) x– (SD) x– (SD) x– (SD) dCohen 34.48 42.46 45.64 47.60 42.92 48.71 55.00 58.95 Silbenlesen 1.56 1.36 (12.52) (14.52) (14.02) (12.8) (14.55) (11.58) (11.74) (12.03) 27.30 31.80 35.48 38.0 40.67 41.82 46.12 48.66 Wörterlesen 1.54 1.11 (12.09) (13.45) (13.23) (12.38) (11.80) (10.80) (10.50) (11.66) Pseudowörter- 16.72 19.72 22.93 22.85 22.88 24.80 27.93 30.79 1.05 1.37 lesen (7.34) (8.74) (8.77) (8.87) (7.20) (7.78) (8.65) (9.03) 27.11 33.55 36.89 41.24 39.00 44.71 51.27 53.85 Satzlesen 1.93 1.31 (13.56) (15.17) (15.63) (14.64) (14.60) (11.90) (10.37) (9.25) Anmerkung: 1 Die Effektstärke wurde von Messzeitpunkt 1 (Herbst 2017) auf Messzeitpunkt 4 (Sommer 2018) berechnet. VHNplus 9
JANA JUNGJOHANN, MICHAEL SCHURIG, MARKUS GEBHARDT FACHBEITRAG VHN plus Pilotierung von Leseflüssigkeits- und Leseverständnistests Abbildung 1 stellt die Lernverläufe der beiden Satzlesen t (38) = -12.03, p < .001; Stufe 4: Sil- Jahrgänge gemessen an den durchschnittlichen ben t (21) = -6.38, p < .001; Wörter t (36) = -6.72, Summenwerten (= arithmetisches Mittel) dar. p < .001; Pseudowörter t (36) = -8.34, p < .001; Als Fehlerbalken wurde das 95 %-Konfidenz Satzlesen t (38) = -8.17, p < .001). intervall verwendet. Beide Gruppen zeigen über das Schuljahr einen signifikanten Lernzuwachs Im Test Satzlesen sind die Unterschiede in den zwischen dem ersten (Herbst 2017) und letz- Leistungen deutlich und die Konfidenzinterval ten (Sommer 2018) Messzeitpunkt. Der Unter- le überlappen sich zu keinem Messzeitpunkt. schied zwischen den Messzeitpunkten wurde Die Leistungen beim Pseudowörterlesen liegen mittels robust gepaarter t-Tests berechnet, um hingegen nahe beieinander. Abbildung 1 zeigt, die paarweise Änderung darzustellen (Stufe 3: dass die Lernverläufe überwiegend parallel Silben t(35) = -9.39, p < .001; Wörter t(44) = -10.35, verlaufen und einen kontinuierlichen Anstieg p < .001; Pseudowörter t (44) = -7.07, p < .001; vorweisen. Silbenlesen Wörterlesen 60 60 Anzahl richtig gelesener Wörter Anzahl richtig gelesener Silben 50 50 40 40 30 30 20 20 Herbst Winter Frühling Sommer Herbst Winter Frühling Sommer ’17 ’17 ’18 ’18 ’17 ’17 ’18 ’18 Pseudowörterlesen Satzlesen Anzahl richtig gelesener Pseudowörter 60 60 Anzahl richtig gelesener Sätze 50 50 40 40 30 30 20 20 Herbst Winter Frühling Sommer Herbst Winter Frühling Sommer ’17 ’17 ’18 ’18 ’17 ’17 ’18 ’18 Abb. 1 Entwicklung der durchschnittlichen Summenscores mit Fehlerbalken über das Schuljahr 2017/ 18 getrennt nach Klassenstufen Anmerkungen: Grauer Lernverlauf als Linie = Klassenstufe 3; Schwarzer Lernverlauf als Punktlinie = Klassenstufe 4 10 VHNplus
JANA JUNGJOHANN, MICHAEL SCHURIG, MARKUS GEBHARDT FACHBEITRAG VHN plus Pilotierung von Leseflüssigkeits- und Leseverständnistests 5.3 Zuwachsraten innerhalb are Regression über die vier Messzeitpunkte der Klassenstufen pro Test berechnet. Diese erlaubt die Schät- zung des mittleren substanziellen Lernzu- Um die Lernverläufe beider Jahrgangsstufen wachses. Die Ergebnisse sind in Tabelle 3 miteinander zu vergleichen, wurde eine line- dargestellt. Tab. 3 Lineare Regressionen der Lernverläufe nach Klassenstufe Stufe 3 Stufe 4 Intercept Steigung (in Bestimmt- Intercept Steigung (in Bestimmt- 12 Wochen) heitsmaß 12 Wochen) heitsmaß α (SEa ) b (SEb ) R² α (SEa ) b (SEb ) R² Silbenlesen 31.76 (2.49) 4.33*** (0.94) 0.1111 37.93 (2.78) 5.41*** (0.98) 0.1797 Wörterlesen 24.18 (3.59) 3.59*** (0.84) 0.0918 37.28 (2.82) 2.18*** (0.80) 0.0746 Pseudowörterlesen 15.15 (1.55) 2.15*** (0.55) 0.0766 19.89 (1.59) 2.68*** (0.58) 0.1203 Satzlesen 23.30 (2.71) 4.57*** (1.00) 0.1064 34.45 (2.29) 5.11*** (0.82) 0.2004 Anmerkungen: * p ≤.05, ** p ≤.01, *** p ≤.001 Silbenlesen Wörterlesen 25 25 Steigungskoeffizient (b-Wert) Steigungskoeffizient (b-Wert) 20 20 15 15 10 10 5 5 0 0 -5 -5 3 4 3 4 Klassenstufe Klassenstufe Pseudowörterlesen Satzlesen 25 25 Steigungskoeffizient (b-Wert) Steigungskoeffizient (b-Wert) 20 20 15 15 10 10 5 5 0 0 -5 -5 3 4 3 4 Klassenstufe Klassenstufe Abb. 2 Verteilung der Steigungskoeffizienten (b-Werte) auf Ebene der Schülerinnen und Schüler getrennt nach Klassenstufe und Testart VHNplus 11
JANA JUNGJOHANN, MICHAEL SCHURIG, MARKUS GEBHARDT FACHBEITRAG VHN plus Pilotierung von Leseflüssigkeits- und Leseverständnistests In allen Tests zeigt die dritte Jahrgangsstufe nach Testart und Klassenstufen. Gemessen an einen signifikant geringeren Ausgangswert als den individuellen b-Werten zeigen zwischen die vierte Jahrgangsstufe. Der Unterschied zwi- zwei und sieben Schülerinnen und Schüler pro schen den Klassenstufen wurde mittels unge- Klassenstufe (4.26 – 14.80 %) negative Lernver- paarter t-Tests berechnet (Silben: t (43.45) = -2.45, läufe mit b = -0.8 – -4.0 (Silben: nKlasse 3: 4 (8.51 %), p < .001; Wörter: t(82.87) = -5.18, p < .01; Pseu- nKlasse 4: 5 (12.20 %); Wörter: nKlasse 3: 2 (4.26 %), dowörter t (82.75) = -3.92, p < .001; Satzlesen nKlasse4: 4 (9.76 %); Pseudowörter: nKlasse3: 7 (14.80 %), t (78.01) = -3.83, p < .001). Die Steigungen der nKlasse 4: 4 (9.76 %); Satzlesen: nKlasse 3: 6 (12.77 %), Lernverläufe sind bei beiden Klassen im Mittel nKlasse 4: 4 (9.76 %)). ähnlich hoch und liegen zwischen 2.23 Pseudo wörtern Wachstum in 12 Wochen in der dritten 5.4 Entwicklung der Lesefähigkeit Klasse und 5.49 Silben in 12 Wochen in der nach Leistungsgruppen vierten Klasse. Die Varianzaufklärung R² deu- tet aber auf ein uneinheitliches Entwicklungs- Für eine differenzierte Betrachtung der Lern- verlaufsmuster hin. entwicklungen von unterschiedlich starken Le serinnen und Lesern sind die Zuwachsraten Auf der Ebene der Schülerinnen und Schüler nach Leistungsperzentilen in Anlehnung an die zeigen sich in beiden Klassenstufen unterschied- Studie von Hasbrouck und Tindal (2006) auf- lich starke Steigungen in den Lernverläufen, geteilt. Dadurch wird zusätzlich das indivi deren Verteilungen in Abbildung 2 als Boxplot duelle Ausgangsniveau der Schülerinnen und dargestellt sind. Die Boxplots in Abbildung 2 Schüler berücksichtigt. Exemplarisch werden zeigen die Verteilungen der b-Werte getrennt die Ergebnisse für den Leseflüssigkeitstest Wör- Tab. 4 Lineare Regressionen im Test Wörterlesen nach Perzentilgruppen 1 getrennt nach Klassen- stufe Stufe 3 Stufe 4 Range Steigung (in Range Steigung (in Perzentil Intercept Intercept NPerzentil Intercept 12 Wochen) NPerzentil Intercept 12 Wochen) α (SEa ) α b (SEb ) α (SEa ) α b (SEb ) 7.08 3.47** 16.55 2.44 .10 6 2 –14 4 12 –23 (2.68) (0.98) (4.10) (1.47) 12.57 3.94*** 24.58 4.60** .25 7 16 –18 6 24 –35 (2.11) (0.78) (4.33) (1.58) 18.80 4.75*** 34.25 3.18*** .50 10 20 –26 10 36 –42 (2.20) (0.81) (1.64) (0.62) 28.20 2.61* 39.58 3.97*** .75 11 27 –32 10 43 –47 (2.67) (0.97) (2.01) (0.73) 33.57 4.24*** 49.65 1.13 .90 7 34 –41 6 48 –56 (2.96) (1.08) (2.51) (0.93) 48.01 2.74* 59.25 -0.85 1.00 5 42 –60 4 57 –61 (3.06) (1.15) (2.65) (0.97) Anmerkungen: 1 Die Perzentilgruppen wurden anhand des Intercepts zum ersten Messzeitpunkt Herbst 2017 gebildet, * p ≤.05, ** p ≤.01, *** p ≤.001 12 VHNplus
JANA JUNGJOHANN, MICHAEL SCHURIG, MARKUS GEBHARDT FACHBEITRAG VHN plus Pilotierung von Leseflüssigkeits- und Leseverständnistests terlesen in Tabelle 4 und für den Leseverständ- .50- und .75-Perzentil steigen die Lernzuwäch- nistest Satzlesen in Tabelle 5 abgebildet. Die se dieser Klassenstufe signifikant. In Klassen- Regressionen in den Tests Silben- und Pseudo stufe 4 werden die geringsten Lernzuwächse in wörterlesen sind ähnlich wie die des Leseflüssig den Randgruppen beobachtet (b.10-Perzentil = 2.44, keitstests Wörterlesen, sodass an dieser Stelle b.90-Perzentil = 1.13, b1.0-Perzentil = -0.85). auf eine detaillierte Abbildung verzichtet wird. Die Leistungsperzentile werden anhand des Der Leseverständnistest Satzlesen misst wie der Intercepts zum ersten Messzeitpunkt gebildet. Test Wörterlesen in der dritten Klassenstufe in Schülerinnen und Schüler ohne Messwert zum allen Subgruppen signifikante Lernzuwächse. ersten Messzeitpunkt wurden nicht mit in die In der vierten Klassenstufe zeigen sich signi Verteilung nach Perzentilen eingeschlossen. fikante Lernentwicklungen im .10- bis zum .75-Perzentil. In den oberen Perzentilgruppen Der Test Wörterlesen misst in allen Perzentil- mit den höchsten Ausgangsniveaus wurden gruppen der Klassenstufe 3 im Mittel signifikant nicht signifikante bzw. keine L ernentwicklungen steigende Lernzuwächse. Die geringsten Lernzu- beobachtet (b.90-Perzentil = 0.93, b1.0-Perzentil = 0.01). wächse wurden in dieser Klassenstufe in der .75- Die mittleren Ausgangswerte zeigen, dass die Perzentilgruppe sowie in der 1.0-Perzentilgrup Lernenden bereits zum ersten Messzeitpunkt pe gemessen (b.75-Perzentil = 2.61, b1.0-Perzentil = 2.74). fast alle Testitems in der Bearbeitungszeit kor- In Klassenstufe 4 wurden keine signifikanten rekt lösen. In beiden Klassenstufen werden bei Lernzuwächse in der unteren (.10-Perzentil) den Lesenden mit dem höchsten Ausgangs und in den beiden oberen Perzentilgruppen niveau die geringsten Lernanstiege gemessen (.90- und 1.0-Perzentil) beobachtet. Im .25-, (bKlasse 3 = 2.28, bKlasse 4 = -0.85). Tab. 5 Lineare Regressionen im Test Satzlesen nach Perzentilgruppen 1 getrennt nach Klassen- stufe Stufe 3 Stufe 4 Range Steigung (in Range Steigung (in Perzentil Intercept Intercept NPerzentil Intercept 12 Wochen) NPerzentil Intercept 12 Wochen) α (SEa ) α b (SEb ) α (SEa ) α b (SEb ) 4.02 3.19* 10.63 6.03** .10 5 3 –10 4 5 –20 (2.96) (1.11) (5.00) (1.83) 9.58 5.28*** 17.98 8.40*** .25 6 13 –19 6 22 –26 (3.43) (0.90) (3.47) (1.26) 18.36 5.26*** 28.17 7.44*** .50 11 20 –26 12 29 –40 (2.47) (0.90) (2.19) (0.80) 22.01 6.73*** 44.67 3.12** .75 11 26 –34 8 42 –54 (3.11) (1.17) (2.95) (1.05) 36.58 5.92*** 54.35 0.93 .90 6 35 –44 6 55 –58 (2.35) (0.86) (1.50) (0.54) 50.48 2.28* 59.80 0.01 1.00 5 47 –61 3 59 –61 (2.52) (1.00) (0.58) (0.21) Anmerkungen: 1 Die Perzentilgruppen wurden anhand des Intercepts zum ersten Messzeitpunkt Herbst 2017 gebildet, * p ≤.05, ** p ≤.01, *** p ≤.001 VHNplus 13
JANA JUNGJOHANN, MICHAEL SCHURIG, MARKUS GEBHARDT FACHBEITRAG VHN plus Pilotierung von Leseflüssigkeits- und Leseverständnistests Klassenstufe 3 Klassenstufe 4 60 60 1.0- Perz. 0.90- Perz. 1.0 - Perz. Richtig gelesene Sätze Richtig gelesene Sätze 0.75- Perz. erz. 0.90 - P 40 40 z. - Per 0.50 . - Perz - Per z. 0.75 - P erz. 0.25 0 .5 0 20 20 erz. erz. 0.10- P 0.25- P 0.10- Perz. 0 0 1 2 3 4 1 2 3 4 Messzeitpunkte Messzeitpunkte Abb. 3 Lineare Regressionen im Test Satzlesen nach Perzentilgruppen mit 95 % Konfidenzinter- vallen pro Messzeitpunkt Der visuelle Vergleich der Lernverläufe z wischen ses in der dritten und vierten Jahrgangsstufe den Jahrgangsstufen zeigt, dass sich die Mittel- im Längsschnitt eingesetzt werden können. In werte der vierten Jahrgangsstufe zum ersten den Lernverläufen wurden erwartbare De- Messzeitpunkt mit denen der dritten Jahrgangs- ckeneffekte beobachtet, welche sich aber durch stufe zum vierten Messzeitpunkt auf dem glei- die Beschränkung auf eine Niveaustufe erklä- chen Niveau befinden. Dies verdeutlicht die ren lassen. Eine weitere Limitation stellt der Abbildung 3 exemplarisch anhand der Regres- pilotierende Charakter der Studie dar, da nur sionslinien im Test Satzlesen getrennt nach Per- eine Schule gemessen wurde. In den Klassen zentilgruppen. Bei allen Perzentilgruppen wur- können zwar ähnliche Bedingungen vermutet de in diesem Test kein signifikanter Unterschied werden, aber die Studie erlaubt keine Kontrol- zwischen den Mittelwerten der vierten Jahrgangs- le schulspezifischer Einflussfaktoren auf die stufe zum ersten Messzeitpunkt und den Mittel- Lernentwicklungen. Daher muss festgehalten werten der dritten Jahrgangsstufe zum vierten werden, dass die dargestellten Ergebnisse nicht Messzeitpunkt gefunden (.10-Perzentil: t(6) = 0.57, generalisierbar sind, da der Stichprobenum- p > .05; .25-Perzentil: t (10) = 1.51, p > .05; .50- fang und die Untersuchungsbedingungen dies Perzentil: t (21) = 1.337, p > .05; .75-Perzentil: nicht zulassen. Die Pilotstudie bekräftigt aber t (15) = 0.83, p > .05; .90-Perzentil: t (10)=1.93, die generelle Konstruktionsweise der vorgeleg- p > .05; 1.0-Perzentil: t (4) = -1.23, p > .05). Es ten Lernverlaufsdiagnostiktests und zeigt, dass kann somit von einer guten jahrgangsübergrei- diese stabil sind und auch geringe Lernfort- fenden Anschlussfähigkeit ausgegangen wer- schritte im unteren Leistungsbereich messen. den, wenn der ausgewählte Test das jeweilige Daher können die Tests zukünftig bei größeren Leistungsspektrum der Lesenden abdeckt. Studien eingesetzt und geprüft werden, um grundsätzliche Fragen zur Lernentwicklung 6 Diskussion über die Zeit zu klären. Die vorliegende Pilotstudie zeigt, dass standar- Die Studienergebnisse sprechen für eine längs- disierte Lernverlaufstests zur Messung der Le- schnittliche Einsetzbarkeit der Tests in der seflüssigkeit und des basalen Leseverständnis- zweiten Hälfte der Grundschule. Die Paral- 14 VHNplus
JANA JUNGJOHANN, MICHAEL SCHURIG, MARKUS GEBHARDT FACHBEITRAG VHN plus Pilotierung von Leseflüssigkeits- und Leseverständnistests leltest-Reliabilität zeigt akzeptable bis hohe zusätzlich den Abruf aus dem mentalen Le Reliabilitäten (r = .72 – .90). Diese Ergebnisse xikon mit ein und beim Pseudowörterlesen ähneln den Befunden von Walter (2011 a), der wird die Lesesynthese mit Silbensegmentie- Korrelationswerte zwischen r = .74 – .84 einer rung beansprucht (Jungjohann & Gebhardt, papierbasierten Lernverlaufsdiagnostik in der 2018). Beim Wörter- und Pseudowörterle- dritten und vierten Klassenstufe berichtet. Im sen bestehen die Items überwiegend aus Wör- Einklang mit den Ergebnissen von Müller et al. tern mit zwei Silben und sind somit länger als (2013) und Landerl und Wimmer (2008) wur- die Items des Tests Silbenlesen. Für alle drei den in dieser Studie in der dritten Klassenstufe Leseflüssigkeitstests ergeben sich daher unter- im Mittel geringere Summenwerte bei allen schiedliche Bearbeitungszeiten pro Item, was Messzeitpunkten und Testarten erwartet und zu größeren Lernanstiegen bei gleicher Bear- beobachtet als bei den Lernenden der vierten beitungszeit führen kann. Diese Beobachtun- Klassenstufe. Bei den Lernenden der vierten gen stärken die Argumente von Christ et al. Klassenstufe wurden zudem größere Lern (2013), dass die Testkonstruktion bei der Inter- zuwächse im Leseverständnis als bei den jün- pretation der Zuwachsraten berücksichtigt geren Lernenden gefunden, wie es ebenfalls werden muss. Walter (2011 a) beobachtet. Die mittleren Lern- zuwächse fielen in beiden Klassenstufen im Bemerkenswert ist, dass in allen Klassen bei bis Test Satzlesen größer aus als beim Wort- und zu 15 % der Schülerinnen und Schüler n eutrale Pseudoworttest. Auch dies wurde in nationalen oder negative Lernverläufe beobachtet wurden. und internationalen Studien von Zuwachsra Neutrale und negative Lernverläufe werden häu- ten im Leseverständnis und der Leseflüssigkeit fig in äußeren Leistungsperzentilen berich- zuvor beobachtet (Fuchs et al., 1993; Graney tet (Fuchs et al., 1993; Walter, 2011 a). Sowohl et al., 2009; Walter, 2010 b; 2011 a). Die Ähn- Silberglitt und Hintze (2007) als auch Walter lichkeit zwischen den Studienergebnissen so- (2010 b) berichten in ihren Studien, dass in den wie die zuvor geprüfte Homogenität der Items äußeren Leistungsperzentilen geringere Lern- (Jungjohann, DeVries, Mühling et al., 2018; zuwächse gemessen wurden als in den mittle- Mühling, Jungjohann & Gebhardt, 2019) deu- ren Perzentilen. Das ist in dieser Studie in der ten darauf hin, dass die Levumi-Testverfah- dritten Klassenstufe erkennbar, wo es höhere ren für die Beobachtung von Lernverläufen in Lernanstiege in den mittleren Perzentilen gibt der Zielgruppe reliabel und sensibel messen als in den äußeren. Trotzdem waren alle An- können. stiege signifikant. In der vierten Klassenstufe wurden nur in den oberen beiden Perzentilen Abweichende Studienergebnisse wurden bei den Deckeneffekte beobachtet. Die Erklärungs mittleren Zuwachsraten im Test Silbenlesen ansätze sind je nach Test unterschiedlich. Im beobachtet. In beiden Klassenstufen erreichen Satzlesen lösten die oberen beiden Perzentil- die Lernenden ähnlich hohe Zuwachsraten wie gruppen der vierten Klasse bereits zum ersten beim Satzlesen (Klassenstufe 3: bSilbenlesen = 4.27, Messzeitpunkt fast alle zur Verfügung stehen- bSatzlesen = 4.29; Klassenstufe 4: bSilbenlesen = 5.49, den Items. Für diese Lernenden entstehen die bSatzlesen = 5.06). Die hohen Zuwachsraten beim Deckeneffekte vermutlich testbedingt aufgrund Silbentest können über die Itemkonstruktion der Testkonstruktion als Speedtest. Im Wörter- der Levumi-Tests begründet werden. Der Test lesen erreichen die Lernenden zum ersten Silbenlesen misst das phonologische Rekodie- Messzeitpunkt der Studie mit 50 bis 60 Items ren anhand von einzelnen Silben (Jungjohann eine hohe und kaum verbesserungsfähige Vor- et al., 2019). Der Test Wörterlesen schließt lesegeschwindigkeit. VHNplus 15
JANA JUNGJOHANN, MICHAEL SCHURIG, MARKUS GEBHARDT FACHBEITRAG VHN plus Pilotierung von Leseflüssigkeits- und Leseverständnistests In Klassen mit einer breiten Leistungshetero Literatur genität sind bei einem engen Lernverlaufsdia gnostiktest Deckeneffekte wahrscheinlich. Im Adams, R. J. (2005). Reliability as a measurement Testsystem Levumi existieren zum einen Tests design effect. Studies in Educational Evaluation, verschiedener Niveaustufen und zum ande- 31 (2 –3), 162 –172. https://doi.org/10.1016/j.stu educ.2005.05.008 ren alternative Testbereiche mit komplexeren Anderson, S., Jungjohann, J. & Gebhardt, M. (2020). Kompetenzansprüchen. Für diese Untersuchung Effects of using curriculum-based measurement wurde zur besseren Vergleichbarkeit nur eine (CBM) for progress monitoring in reading and an feste Niveaustufe gewählt. Im Feld wählen zu- additive reading instruction in second classes. meist die Lehrkräfte eine Lernverlaufsdiagnostik Zeitschrift für Grundschulforschung, 13, 151 –166. für die einzelnen Lernenden aus. Bei auftreten- https://doi.org/10.1007/s42278-019-00072-5 den Deckeneffekten wären Hinweise auf die An- Bos, W., Valtin, R., Hußmann, A., Wendt, H. & Goy, schlussfähigkeit zwischen den Niveaustufen in M. (2017). IGLU 2016: Wichtige Ergebnisse im Überblick. In A. Hußmann et al. (Hrsg.), IGLU der Praxis hilfreich. Entsprechende Studien und 2016. Lesekompetenzen von Grundschulkindern Analysen stehen bisher noch aus. Während eine in Deutschland im internationalen Vergleich, händische Auswahl den Lehrkräften mehr Frei- 13 –28. Münster: Waxmann Verlag. heiten lässt, wäre auch eine adaptive Verbindung Christ, T. J., Zopluoglu, C., Monaghen, B. D. & Van der Niveaustufen durch einen breiteren Test Norman, E. R. (2013). Curriculum-based measure- möglich. Anstelle einzelner Lesetests mit engen ment of oral reading: Multi-study evaluation of Itempools würde der adaptive Test dann Zugriff schedule, duration, and dataset quality on pro- auf mehrere Itempools in unterschiedlichen Ni- gress monitoring outcomes. Journal of School Psychology, 51 (1), 19 –57. https://doi.org/10.10 veaustufen haben, aus denen adaptiv gezogen 16/j.jsp.2012.11.001 wird. Alle Levumi-Lesetests bereiten ein adapti- Deno, S. L. (1985). Curriculum-based measurement: ves Testen vor, da pro Testart mehrere Itempools The emerging alternative. Exceptional Children, in unterschiedlichen Niveaustufen existieren. 52 (3), 219 –232. https://doi.org/10.1177/00144 Im Fall von Deckeneffekten könnten zukünftig 0298505200303 schwierigere Items aus höheren Niveaustufen Deno, S. L. (2003). Developments in curriculum- automatisch ausgewählt und somit der Test an based measurement. The Journal of Special Edu- die Kompetenzen der Lernenden angepasst wer- cation, 37 (3), 184 –192. https://doi.org/10.1177/ 00224669030370030801 den. Ein solches adaptives Testen könnte ins Deno, S. L., Mirkin, P. K. & Chiang, B. (1982). Identi besondere im inklusiven Unterricht mit großen fying valid measures of reading. Exceptional Leistungsunterschieden (Gebhardt, 2015) zwi- Children, 49 (1), 36 –45. schen den Lernenden den Einsatz einer Lern Deno, S. L., Fuchs, L. S., Marston, D. & Shin, J. (2001). verlaufsdiagnostik für die Lehrkräfte erleichtern. Using curriculum-based measurement to es- tablish growth standards for students with learning disabilities. School Psychology Review, Anmerkung 30 (4), 507 –524. Döring, N. & Bortz, J. (2016). Forschungsmethoden I Zu dem vorliegenden Beitrag sind der verwen- und Evaluation in den Sozial- und Humanwis- dete Datensatz sowie Syntax für R unter fol- senschaften. Berlin: Springer. https://doi.org/10. gender Zitierung veröffentlicht: Jungjohann, J., 1007/978-3-642-41089-5 Schurig, M. & Gebhardt, M. (2021). Pilotierung Förster, N., Kuhn, J.-T. & Souvignier, E. (2017). Nor- von Leseflüssigkeits- und Leseverständnistests mierung von Verfahren zur Lernverlaufsdia zur Entwicklung von Instrumenten der Lernver- gnostik. Empirische Sonderpädagogik, 9 (2), laufsdiagnostik. Ergebnisse einer Längsschnitt 116 –122. studie in der 3ten und 4ten Jahrgangsstufe / Fuchs, L. S. (2004). The past, present, and future of Data & Syntax. https://doi.org/10.17605/OSF.IO/ curriculum-based measurement research. School 4SZY5 Psychology Review, 33 (2), 188 –192. 16 VHNplus
Sie können auch lesen