Messung von Reliabilität und Validität - Uni Frankfurt
←
→
Transkription von Seiteninhalten
Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten
Block Nr. I, Thema Nr. 2 Messung von Reliabilität und Validität Referat im Rahmen des Speziellen Seminars zum Thema „Multivariate Analyseverfahren und deren Anwendung am Bei- spiel des 10th GVU’s WWW User Surveys“ im Wintersemester 1999/00 eingereicht bei Prof. Dr. Bernd Skiera Lehrstuhl für Betriebswirtschaftslehre, insbesondere Electronic Commerce Johann Wolfgang Goethe-Universität Frankfurt am Main von stud. rer. pol. Dietmar Walter Zilz zilz@wiwi.uni-frankfurt.de http://www.wiwi.uni-frankfurt.de/~zilz Studienrichtung: Betriebswirtschaftslehre 8. Fachsemester Abgabedatum: 28. September 1999
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 II Inhaltsverzeichnis Abbildungsverzeichnis .............................................................................................................. IV Tabellenverzeichnis.....................................................................................................................V Abkürzungsverzeichnis ............................................................................................................. VI Symbolverzeichnis ................................................................................................................... VII 1 Einleitung ...............................................................................................................................1 2 Begriffsbildung ......................................................................................................................1 2.1 Klassifizierung von Meßfehlern......................................................................................1 2.2 Definition der Reliabilität................................................................................................2 2.3 Definition der Validität ...................................................................................................3 2.4 Zusammenhang von Reliabilität und Validität................................................................4 3 Methoden................................................................................................................................5 3.1 Methoden der Messung von Reliabilität .........................................................................5 3.1.1 Inter-Rater oder Inter-Observer Reliabilität ..........................................................5 3.1.2 Test-Retest Reliabilität..........................................................................................5 3.1.3 Paralleltest-Reliabilität und Alternativtest-Reliabilität .........................................6 3.1.4 Interne-Konsistenz-Reliabilität .............................................................................6 3.1.4.1 Split-Half-Reliabilität ..............................................................................7 3.1.4.2 Cronbach’s Alpha ....................................................................................7 3.1.4.3 Kuder_Richardson Formel (KR20)..........................................................8 3.1.4.4 G-Theorie (Generalisierungs-Theorie).....................................................9 3.2 Methoden der Messung von Validität ...........................................................................10 3.2.1 Externe und Interne Validitaet ............................................................................10 3.2.2 Inhaltsvaliditaet (Augenscheinvaliditaet und Expertenvaliditaet) ......................10 3.2.3 Konstruktvalidität (Konvergenz- und Diskriminanzvalidität) ............................11 3.2.4 Kriteriumsvalidität (Prognose- und Übereinstimmungsvalidität) .......................11 3.2.5 Nomologische Validitaet.....................................................................................11 3.3 Multitrait-Multimethod-(MTMM) Matrix zur Messung der Konstruktvalidität...........12 3.4 Kausalanalyse zur Messung von Reliabilität und Validität ....................................14 3.4.1 Exploratorische Faktoranalyse ............................................................................14 3.4.2 Konfirmatorische Faktoranalyse .........................................................................15 4 Messen bzw. Schätzen .........................................................................................................16 4.1 Messung der Inter-Rater oder Inter-Observer Reliabilität.............................................16 4.2 Messung der Test-Retest Reliabilität ............................................................................16 4.3 Messung der Paralleltest-Reliabilität und Alternativtest-Reliabilität............................17 4.4 Messung der Interne-Konsistenz-Reliabilität mittels Split-Half-Reliabilität und Cronbach’s Alpha..........................................................................................................17 4.5 Messung der Konstruktvalidität mittels der MTMM Matrix.................................19
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 III 5 Zusammenfassung ...............................................................................................................21 Literaturverzeichnis................................................................................................................24 Anzahl Wörter: 6391 Dateiname: zilz_skiera_multivariat_thema2_280999.doc
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 IV Abbildungsverzeichnis Abbildung 1: Zusammenhang von Reliabilität und Validität .....................................................4 Abbildung 2: Multitrait-Multimethod Matrix ...........................................................................12 Abbildung 3 Historische Entwicklung der Kausalanalysei .......................................................14 Abbildung 4: Cronbach’sches Alpha und Split-Half Reliabilität (Analyse am 10. GVU) .......18
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 V Tabellenverzeichnis Tabelle 1: Ausgewählte Reliabilitätsgrade..................................................................................3 Tabelle 2: Zusammenhang von dem Wert des Cronbach’schen Alphas in Bezug auf die Anzahl von Items pro Skala und Kategorien pro Item ........................................8 Tabelle 3: Liste der verwendeten Variablen aus Datei „spss_use.sav“:....................................18 Tabelle 4: Konstruierte MTMM-Matrix aus dem Datensatz (spss_use.sav) ............................20 Tabelle 5: Zweiseitiges Signifikanzniveau ...............................................................................21
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 VI Abkürzungsverzeichnis G-Theorie Generalisierungstheorie GVU Graphic, Visualization, & Usability Center KR20 Kuder-Richardson Formel M Methode MTMM Multitrait-Multimethod TCD Total Coefficient of Determination
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 VII Symbolverzeichnis x 0: Meßwert xT: wahrer Meßwert xERR: Meßfehler x R: Zufallsfehler xS: systematische Fehler r: Reliabilität σ t2 Varianz des wahren Werts σ O2 Varianz des beobachteten Werts xS: systematische Fehler r: Reliabilität rsb Split-Half-Reliabilität nach Spearman-Brown rxy Varianz des beobachteten Werts α Cronbach’s Alpha σ t2 Gesamtvarianz k Anzahl Teile p Proportion q Komplement von p A Arbeit F Fun M Methode Q Question x Vektor der Indikatorvariablen Λ Matrix der Faktorladungen ξ Vektor der latenten Faktoren δ Vektor der Meßfehler r Anzahl der zu schätzenden Parameter q Anzahl von Indikatorvariablen S empirische Kovarianzmatrix ^ Σ. theoretische Kovarianzmatrix
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 1 1 Einleitung Bis hin zu den 80er Jahren haben Unternehmen kaum Wert darauf gelegt ob und inwieweit von ihnen durchgeführte Marktforschungen wirklich Gültigkeit haben. In Anbetracht der Tat- sache, daß gerade im Zuge der Entwicklung von zunehmend anonymen Transaktionen über das WWW eine Einschätzung von Ergebnissen wichtig ist, ist dieses Thema aktuell wie nie zuvor. Die Reliabilität und Validität von Surveys und Marktforschungen. ist von großer und steigender Wichtigkeit für Unternehmen, zumal schon 1995 in den USA allein über $50 Mil- liarden hierfür investiert wurden1. Diese Arbeit konzentriert sich auf die Messung von Relia- bilität und Validität im Hinblick auf Marktforschungen (Surveys) mittels des WorldWide- Web. Ziel der Arbeit ist es, die Theorie und die Meßmethoden der Reliabilität und Validität ausführlich zu erläutern, und Analysen mittels der Standardsoftware SPSS durchzuführen. Der theoretische Teil konzentriert sich daher auf die Möglichkeiten, die SPSS bietet. Hierzu wird zunächst erläutert wie sich Meßfehler klassifizieren lassen, was Validität und Reliabilität ist und welche Zusammenhänge zwischen ihnen bestehen. Des weiteren werden die verschiede- nen Methoden zur Schätzung der Reliabilität und Validität aufgeführt und zwei herausragende Methoden, die Multitrait-Multimethod Matrix sowie die Kausalanalyse betrachtet. Anschlie- ßend werden die gewonnenen Erkenntnisse mittels SPSS umgesetzt. 2 Begriffsbildung 2.1 Klassifizierung von Meßfehlern Jede Messung beinhaltet immer ein gewisses Maß an Ungenauigkeit. Optimal wäre, wenn jede Messung genau ihrem originalem Wert entspräche. Aufgrund von unterschiedlichen Faktoren, die mehr oder weniger stabil, situationsbezogen, und variierend sein können, gibt es jedoch unter Umständen gravierende Abweichungen der Messungen von der Wirklichkeit. Der Meßwert (x0) kann daher wie folgt beschrieben werden 2: x0 = xT + x ERR 1 Duboff (1996), S.19. 2 vgl. Peter (1979), S.7; vgl. http://www.stsoftinc.com/textbook/streliab.html), 30.8.1999
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 2 Wobei x0 der Meßwert, xT der wahre Wert (true Value) ist und xERR der Fehler (ERR). Dieser Fehler wird zur besseren Analyse und Problemlösung in der Literatur in zwei Arten unterteilt. Erstens in die Zufallsfehler xR (random errors), welche durch die Höhe der Reliabilität ange- zeigt werden sowie zweitens in die systematischen Fehler xS, welche durch die Höhe der Va- lidität ausgedrückt werden3. Gibt es bei einer Messung keine zufälligen Fehler (xR=0), so ist sie vollständig reliabel. Die Zufallsfehler werden auch als transitorische Fehler bezeichnet, die durch bestimmte Merkmale einer Person oder eine besondere Situation gekennzeichnet sind, während die systematischen Fehler konstante Fehler sind, die etwa auf einer falschen Eichung eines Meßinstrumentes beruhen4. Gibt es keine systematischen Fehler (xS=0), so liegt ein voll- ständig valides Meßergebnis vor5. Es ist wichtig, schon vor Beginn der Messung zu prüfen ob diese auch wirklich reliabel und valide ist, denn obgleich es über 3000 publizierte Tests gibt und ‚Marketing Scales‘ Handbü- cher existieren6, welche typische Skalen von Antworten mit Angaben ihrer Validität und Re- liabilität enthalten, sind solche Vorgaben nicht einfach auf neue Tests und neue Zielgruppen zu übertragen7. 2.2 Definition der Reliabilität Reliabilität beschreibt das Ausmaß in welchem ein Experiment, ein Test oder ein anderes Meßverfahren gleiche Resultate bei wiederholten Versuchen konsistent liefert8. Ein ideal re- liabler Test liefert also zu unterschiedlichen Zeitpunkten und unterschiedlichen Umweltbedin- gungen immer die gleichen Ergebnisse. Mathematisch ausgedrückt gilt9: σ t2 r= σ O2 3 Churchill (1979), S.65. 4 Churchill (1992), S.75. 5 Churchill (1979) S.65. 6 z.b. Bruner et. Al (1994). 7 Rentsch/Hutchison (1999), S.13. 8 vgl Peter (1979) S.6. Torabi (1994) S.57f. 9 (Finn/Kayande (1997), S.263.)
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 3 Wobei r für die Reliabilität σ t2 für die Varianz des wahren Werts (true score) und σ O2 für die Varianz des beobachteten Werts (observed score) steht. Da der wahre Wert der Varianzen von Meßwerten in der Regel nicht bekannt ist, läßt sich die Reliabilität nicht exakt berechnen. Reliabilität muß geschätzt werden10. Wie man erkennt, liegt der zu beobachtende Wert zwi- schen Null und Eins. In der Literatur herrscht weitgehend Übereinstimmung darüber, eine Reliabilität ab einem Wert von etwa 0,75 als reliabel zu bezeichnen wie die Tabelle 1 bei- spielhaft belegt. Tabelle 1: Ausgewählte Reliabilitätsgrade Autor Situation Empfohlener Mindestgrad Kaplan und Sacuzzo (1982), S.106 Grundlagenforschung 0,7-0,8 Zweckforschung 0,95 Nunnally (1978), S.226 Grundlagenforschung 0,8 Zweckforschung 0,95 (Quelle: Peterson (1994), S.382) Es gibt unterschiedliche Methoden die Reliabilität zu messen. Jeder dieser anschließend er- läuterten Reliabilitätsschätzer (3.2) wird differierende Werte für die Reliabilität ausgeben. Im allgemeinen werden die Test-Retest- und die Inter-Rater-Reliabilität kleiner sein als die Par- alleltest- und die Interne-Konsistenz-Reliabilität, da die ersten beiden Messungen zu unter- schiedlichen Zeiten stattfinden bzw. unterschiedliche Befragte beinhalten11. 2.3 Definition der Validität Ein Meßinstrument wird dann als valide oder “gültig” bezeichnet, wenn es genau jenes mißt, was gemessen werden soll. Nicht nur Messungen selbst können nicht valide sein, sondern auch die Schlüsse und Folgerungen, die aus den Messungen gezogen werden. Validität als Genauigkeitsgrad liegt in dem Maße vor, in dem die Messungen frei von “systematischen” Fehlern sind12. Systematische Fehler sind solche, die die Messung kontinuierlich beeinflussen. 10 Trochim, (1999), http://trochim.human.cornell.edu/kb/reltypes.htm, 30.8.99. 11 Trochim, (1999), http://trochim.human.cornell.edu/kb/reltypes.htm, 30.8.99. 12 Hüttner (1997), S.543
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 4 2.4 Zusammenhang von Reliabilität und Validität Reliabilität und Validität können nicht voneinander getrennt betrachtet werden. Eine Messung sollte möglichst hohe Werte für die Reliabilität und die Validität gleichzeitig haben. Abbildung 1: Zusammenhang von Reliabilität und Validität Quelle: Trochim (1996), http://trochim.human.cornell.edu/kb/rel&val.htm, 30.8.1999. Die obige Zielscheibengrafik beschreibt dieses Problem deutlich. Der Kern stellt den wahren Wert xT dar, die kleinen Punkte sind die jeweiligen Meßwerte x0. Die erste Grafik zeigt eine Konzentration auf einen Punkt. Innerhalb der Messung gibt es also keine außergewöhnlichen zufälligen Abweichungen: Die Messung ist reliabel, aber nicht valide, weil sie systematisch falsche, vom Meßwert abweichende Werte liefert. Die zweite Grafik zeigt durchschnittlich gleichverteilte Werte, eine systematische Abweichung ist nicht festzustellen. In der dritten Grafik gibt es eine systematische Abweichung sowie eine zufällige Abweichung, so daß diese Messung weder als valide noch als reliabel bezeichnet werden kann13. Reliabilität ist eine notwendige Bedingung für Validität, außer dann, wenn vom reinen Durchschnitt ausgegangen wird, wie in der zweiten Grafik und dieser Durchschnitt genau dem wahren Wert entspricht. Die gegenseitige Abhängigkeit von Reliabilität und Validität ist jedoch nicht zu unterschät- zen, zumal in letzter Zeit vermehrt auf die Reliabilität geachtet wurde, die mit wenig Aufwand per SPSS-Menübefehl berechnet werden kann. Dieses macht eine Optimierung im Hinblick auf die Reliabilität leicht, aber schadet im Zweifelsfall der Validität. Nicht ohne Grund fällt daher in den modernen Modellen der später erläuterten Kausalanalyse die Trennung von Re- liabilität und Validität weg. 13 vgl. Trochim (1996), http://trochim.human.cornell.edu/kb/rel&val.htm, 30.8.1999.
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 5 3 Methoden 3.1 Methoden der Messung von Reliabilität 3.1.1 Inter-Rater oder Inter-Observer Reliabilität Misst den Grad in dem zwei unterschiedliche Beobachter/Bewerter konsistente Einschätzun- gen eines Phänomens geben14. Unterschiedliche Beobachter produzieren unterschiedliche Re- sultate aufgrund der Natur des Menschen. So reagieren die Menschen anders auf Störungen von innen und außen, sie differieren in Ihrer Art Informationen wahrzunehmen, aufzunehmen und zu interpretieren. Eine Messung ist z.B. folgendermaßen möglich. Die erste ist anzuwenden, wenn nach Katego- rien gemessen wird, die zweite bei einer kontinuierlichen Messung. Zunächst können den Beobachtern Kontrollfragen zu einzelnen Fragen gestellt werden, nach denen bestimmte Begriffe eingeschätzt werden. Zum Beispiel: „Was verstehen Sie unter groß, 160, 180 oder 200 cm? Wenn dann zum Beispiel 86 von 100 Beobachtungen in die gleiche Kategorie gewählt werden, bekommt man einen Grad der Übereinstimmung dieser beiden Beobachter von 86%. Eine Messung der Inter-Rater-Reliabilität ist im Nachhinein nicht möglich. 3.1.2 Test-Retest Reliabilität Die Test-Retest Reliabilität, auch Stabilitätskoeffizient genannt15, bestimmt die Konsistenz von Messungen von einem Zeitpunkt zum nächsten. Sie korreliert die Ergebnisse zweier Un- tersuchungen, die mit demselben Meßinstrument innerhalb eines bestimmten Zeitraumes wie- derholt an der gleichen Auswahl von Beobachtern unter möglichst gleichen Bedingungen vor- genommen wurden. Diese Vorgehensweise setzt voraus, daß inzwischen keine substantielle Veränderung im gemessenen Konstrukt stattgefunden hat. Die Länge des Zeitraumes zwischen zwei verschiedenen Messungen ist entscheidend und führt in den allermeisten Fällen zu unterschiedlichen Ergebnissen. In der Regel ist davon aus- zugehen, daß bei kurzen Zeiträumen zwischen den Messungen eine hohe Korrelation und bei langen Zeiträumen eine niedrige Korrelation zu erwarten ist. Die Gründe liegen vor allem in 14 Trochim, (1999), http://trochim.human.cornell.edu/kb/reltypes.htm, 30.8.99. 15 Keppler, (1996), S.196 f.
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 6 Lerneffekten der Beobachter (gelerntes wird im Zuge der Zeit vergessen) und den Verände- rungen in der Umwelt (die Wahrscheinlichkeit steigt, daß das Konstrukt veraltet)16. Desweite- ren kann bei einer Veränderung eines Phänomens nicht festgestellt werden, ob es wirklich eine Veränderung oder lediglich eine niedrige Reliabilität des Tests ist17. Und schließlich ist die Retest Korrelation nur teilweise abhängig von der Korrelation zwischen den Items, weil in die Summenkorrelation auch die Korrelationen der Items mit sich selbst eingehen. 3.1.3 Paralleltest-Reliabilität und Alternativtest-Reliabilität Die Parallel-Test und Alternativtestreliabilitäten bestimmen die Konsistenz der Resultate zweier aufgebauter Tests. Der Unterschied zwischen Paralleltest und der Alternativtest besteht lediglich darin, daß der Alternativtest zeitverschoben durchgeführt wird18. Es werden zwei verschiedene, jedoch streng vergleichbare Erhebungsinstrumente denselben Beobachtern vor- gelegt und deren Ergebnisse korreliert19. Beide Instrumente werden der gleichen Auswahl von Personen vorgelegt. Die Korrelation zwischen diesen beiden Formen ist die Schätzung dieser Reliabilität. Das Hauptproblem dieser Anwendung ist ein Menge wirklich streng vergleichbar sind, daß also der Durchschnitt, die Varianz und die Interkorrelation der Items äquivalent sind20. Daher stammt auch die Bezeichnug Äquivalenzkoeffizient für diesen Reliabilitäts- schätzer. 3.1.4 Interne-Konsistenz-Reliabilität Die Interne-Konsistenz-Reliabilität bestimmt die Konsistenz von Resultaten zwischen Varia- blen innerhalb eines Tests21. (Trochim, Types of Reliability, 1999). Die Interne Konsistenz Reliabilität läßt sich darstellen bzw. schätzen durch die durchschnittliche Inter-Item Korrelati- on, die durchschnittliche Item-Total-Korrelation, die Split-Half-Reliabilität sowie Cronbach’s Alpha und die Kuder-Richardson Formel. Diese Formen, vor allem das Cronbach’sche Alpha 16 Trochim, (1999), http://trochim.human.cornell.edu/kb/reltypes.htm, 30.8.99. 17 Peter (1979), S.8. 18 Trochim, (1999), http://trochim.human.cornell.edu/kb/reltypes.htm, 30.8.99. 19 Keppler, (1996), S.197. 20 Peter (1979), S.8. 21 Trochim, (1999), http://trochim.human.cornell.edu/kb/reltypes.htm, 30.8.99.
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 7 bzw. die Kuder-Richardson Formel sind die aufgrund ihrer Einfachheit und der in den aller- meisten Fällen ausreichenden Genauigkeit die häufig benutzten Methoden22. Die interne Konsistenz ist sehr wichtig für das Ergebnis, weil inkonsistente Fragen wider- sprüchlich wären und die Aussagekraft der Untersuchung erheblich herabsetzen oder gar auf- heben würden. 3.1.4.1 Split-Half-Reliabilität Bei der Split-Half-Reliabilität werden nach dem Zufallsprinzip alle Elemente, die zu der Mes- sung desselben Konstrukts beitragen in zwei Sets aufgeteilt. Das gesamte Erhebungsinstru- ment wird der befragten Person zur Auswahl gegeben, aber zur Überprüfung der Reliabilität werden nur die Korrelationen der jeweiligen Hälfte berechnet23. Mathematisch ausgedrückt gilt24. 2rxy rsb = (1 + rxy ) Wobei rsb die Split-Half-Reliabilität nach Spearman-Brown ist und rxy die Korrelation zwi- schen den beiden Hälften beschreibt Die Split-Half-Reliabilität ist ein einfaches, aber dafür sehr robustes Verfahren. 3.1.4.2 Cronbach’s Alpha Cronbach’s Alpha25 entspricht der Berechnung des Durchschnittswertes aller k-möglichen Split-Half-Reliabilitäten. Mittels der Formel von Cronbach wird dieser große Rechenaufwand jedoch deutlich vereinfacht. Dieses ist sicherlich der Grund weswegen Cronbach’s Alpha der am häufigsten benutzte Reliabilitätskoeffizient ist26. k åσ 2 i ÷ * 1 − i =1 2 ÷ k α= k −1 σt ÷ ÷ 22 vgl. Peterson (1994) S.383; vgl. Parameswaran et al. (1979) S.20. 23 Trochim, (1999), http://trochim.human.cornell.edu/kb/reltypes.htm, 30.8.99. 24 http://www.statsoftinc.com/textbook/streliab.html, 30.8.99. 25 vgl. Cronbach (1951). 26 Homburg/Giering, 1996, S.8.
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 8 Wobei k der Anzahl der Items in der Skala, σ i2 der Varianz der Items i und σ t2 der Gesamtva- rianz (total variance) der Skala entspricht. Der Wertebereich liegt zwischen Null und Eins, wobei ein hoher Wert eine hohe Reliabilität anzeigt27. Eine bemerkenswerte Tatsache ist, daß bei einer steigenden Anzahl von Items pro Skala und einer steigenden Anzahl von Kategorien in einem Item der Wert deutlich wächst. Es sollten daher mindestens 4 Scale Items und min- destens 3 Antworten pro Frage (Kategorien pro Item) verwandt werden. Dies wird in der em- pirischen Tabelle von Peterson (1994) anhand der durchschnittlichen Werte von Cronbach’s Alpha ( α ) aus über 3000 Studien (n) überzeugend belegt. Tabelle 2: Zusammenhang von dem Wert des Cronbach’schen Alphas in Bezug auf die Anzahl von Items pro Skala und Kategorien pro Item Anzahl von Items pro Skala 2 oder 3 4 oder mehr Anzahl von 2 α = 0,62 α α = 0,71 möglichen (n=23) (n=186) Antworten pro Frage 3 oder α = 0,74 α α = 0,78 α mehr (n=710) (n=2536) Quelle: Peterson (1994), S.388. Die Nachteile von Cronbach’s Alpha liegen einerseits in der nicht möglichen inferenzstatis- tischen Beurteilung des Koeffizienten28, und andererseits in der Tatsache, daß die Höhe der Koeffizienten positiv von der Anzahl der Indikatoren abhängen29. Bei einer großen Anzahl von Elementen ist Cronbach’s Alpha das am häufigsten benutzte Instrument. 3.1.4.3 Kuder_Richardson Formel (KR20) Die Kuder-Richardson Formel unterscheidet sich unwesentlich vom Cronbach’schen Alpha. Sie wird hier lediglich einem eigenen Punkt zugeordnet, weil diese Formel von SPSS bei di- chotomen Daten verwandt wird, wenn man ‚Coefficient Alpha‘ auswählt30,weil sie in der Lite- ratur häufiger auftaucht. Der Ansatz geht auch davon aus den Test in k-Teile zu splitten. Der 27 vgl. Homburg/Giering, 1996 S.22 [7]. 28 vgl. Homburg/Giering, 1996 S.8. 29 vgl. Homburg/Giering, 1996 S.22 [8] 30 SPSS Context Help, (SPSS Version 9.0 engl.): „Coefficient alpha. For dichotomous data, this is equivalent to the Kuder-Richardson 20 (KR20) coefficient.“ Weitere Aufschlüsse gibt das „SPSS Statistical Algorithms Manual“, welches leider nicht zur Verfügung stand.
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 9 Grad in dem die Element miteinander korrelieren bestimmt die Höhe der Reliabilität. Die Formel lautet31: k å pq ÷ r= k * 1− i =1 ÷ k −1 σ t2 ÷ ÷ Wobei k der Anzahl der Items in der Skala, p der Proportion der richtigen Antworten und q dem Gegenteil von p entspricht (q=1-p). 3.1.4.4 G-Theorie (Generalisierungs-Theorie) Die Tatsache, daß die unterschiedlichen Realibilitätsschätzer sich voneinander unterscheiden und aufgrund ihrer Art unterschiedliche Werte liefern ist nicht zufriedenstellend. So sind die Teile der Varianzen, die Fehler bilden bei den unterschiedlichen Reliabilitätsformen unter- schiedlich groß. Die G-Theorie wurde eingeführt, um gleichzeitig verschiedene kontrollierba- re32 Ursprünge von Varianzen in einer einzigen Prozedur zu analysieren 33.Die Formel der G- Theorie läßt sich analog zur klassischen Realibilität formulieren34. σ universeSc 2 Eρ 2 = ore σ universeSc 2 ore + σ 2 relativeError wobei σ2universeScore der Varianzkomponente in Bezug zu jedem Meßobjekt ist (dies entspricht dem wahren Wert xT bei der klassischen Analyse. Bei einer Untersuchung mit nur einem ein- zigen Generalisierungsaspekt entspricht der Koeffizient der G-Theorie somit dem der klassi- schen Realibilität. Eine genauere empfehlenswerte Einführung in die G-Theorie findet sich bei Finn/Kayande (1997), die betonen, daß G-Theorie eine großes Potential zur Optimierung von Messungen hat.. 31 Parameswaran et al. (1979), S.20. 32 Finn/Kayande (1997), S.263. 33 Peter (1979),S.10. 34 Finn/Kayande (1997): Verweis auf Cronbach et al (1972),
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 10 3.2 Methoden der Messung von Validität 3.2.1 Externe und Interne Validitaet Die externe Validitaet: bezieht sich auf die Übertragbarkeit spezifischer Marktforschunger- gebnisse auf andere Außenbedingungen.35 Sie liegt dann vor, wenn das Ergebnis einer Untersuchung über die Stichprobe und die Unter- suchungsbedingungen hinaus generalisierbar ist. Externe Validität sinkt, je unnatürlicher die Untersuchungsbedingungen sind und je weniger repräsentativ die untersuchte Stichprobe für die Grundgesamtheit ist36. Die interne Validität beschreibt den Grad der eindeutigen Intepretierbarkeit, sie steigt mit sinkender Anzahl plausibler Alternativerklärungen, wenn die Anzahl äußerer Störeinflüsse reduziert wird37. In der Regel stehen externe und interne Validität in einem Spannungsverhältnis zueinander. Mit steigender interner Validität, etwa durch einen abgeschlossenen Studioversuch, sinkt die externe Validität, weil der Versuch durch die Ausschaltung gewöhnlicherweise gegebener Störeinflüsse reduziert wird38. In der Internetumfrage ist die interne Validität nur schwer bestimmbar, weil äußere Störein- flüsse auf die Befragten kaum feststellbar sind. Während die interne Validität denn auch schon spätestens bei der Erfassung der Messungen bestimmt werden sollte, gibt es einige Möglichkeiten auch nachträglich Validität festzustellen wie fortfolgend erläutert wird. 3.2.2 Inhaltsvaliditaet (Augenscheinvaliditaet und Expertenvaliditaet) Die Inhaltsvalidität prüft die inhaltlich semantische Übereinstimmung zwischen dem vorlie- genden Meßinstrument und dem Konstrukt auf Plausibilität. Sie fordert, daß die Untersu- chungsinhalte eine repräsentative Auswahl der zu erfassenden Merkmale darstellen. Dies ist insbesondere zur Beurteilung und der Erfassung aller relevanten Items von Bedeutung. Dabei 35 Christof/Pepels 1998, S.45. 36 Bortz (1999) S.7. 37 vgl. Christof/Pepels S.44. 38 vgl. Christof/Pepels S.44.
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 11 ist Inhaltsvalidität entweder offensichtlich (Augenschein- oder Face-Validität) oder wird durch Experten als valide beurteilt (Expertenvalidität) 39. 3.2.3 Konstruktvalidität (Konvergenz- und Diskriminanzvalidität) Die Validitätsform, die sich direkt mit der Validierung der Umsetzung des theoretischen Kon- struktes in die Realität beschäftigt ist die Konstruktvalidität. Sie mißt den Grad der Überein- stimmung zwischen den Konstrukten und ihren Messungen40. Durch eine einfache Studie kann Konstruktvalidität nicht abschließend bewiesen werden. Cronbach (1971) bemerkt vielmehr, daß Konstruktvalidierung ein fortwährender Prozeß von Untersuchungen und Entwicklungen ist. Eine verbreitete Methode ist die „Multitrait-Multimethod“ (MTMM) von Campbell und Fiske (1959). Sie dient dem Nachweis von Diskriminanz- und Konvergenzvalidität und wird als eine der wesentlichen Methoden zur Messung von Validität, die zudem noch mittels einer kommerziellen Software wie SPSS durchzuführen ist, unter Punkt 3.3 als Methode gesondert erwähnt. Die Konvergenzvalidität beschreibt die Übereinstimmung eines Konstruktes mit verschiedenen Messinstrumenten, die Diskriminanzvalidität den Grad in dem andere Kon- strukte bei der Messung ausgeschlossen sind41. 3.2.4 Kriteriumsvalidität (Prognose- und Übereinstimmungsvalidität) Bei der Kriteriumsvalidität dient die Messung eines angemessenen Vergleichskriteriums als Basis42. Unterschieden werden hier die Prognose- und die Übereinstimmungsvalidität (concur- rent validity). Die Prognose-Validität stellt auf Übereinstimmung mit einer später zeitlich erfolgenden Messung ab. Die Übereinstimmungsvalidität bezeichnet den Vergleich von Messungen, die zum gleichen Zeitpunkt vorliegen43. 3.2.5 Nomologische Validitaet Die Nomologische Validität mißt ob eine beobachtete Beziehung zwischen Messungen ver- schiedener Konstukte (welche konzeptuell zusammengehören) angehört44. Das Konstrukt er- fordert somit eine Einbindung in einen übergeordneten theoretischen Rahmen45 39 Keppler (1996) S.199. 40 vgl. Keppler(1996).S.219. 41 Huettner (1997).S.530. 42 vgl. Keppler(1996) S. 218; vgl. Huettner(1997) S. 532
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 12 3.3 Multitrait-Multimethod-(MTMM) Matrix zur Messung der Konstruktvalidität Als ein Weg zum Abschätzen der Konstruktvalidität führten Campbell und Fiske (1959) die MTMM Matrix ein. Sie ist eine Matrix von Korrelationen und dient der Abschätzung von Konvergenz- und Diskrimanzvalidität. einer Messung46. Empfohlen wird, daß die unter- schiedliche Konzepte (Traits) durch mehrere Methoden (auch Skalen) gemessen werden47. Idealerweise mißt man jede Konzeption mit jeder Methode. Abbildung 2: Multitrait-Multimethod Matrix Quelle: Trochim (1999), http://trochim.human.cornell.edu/kb/mtmmmat.htm, 30.8.1999 . Die obige Grafik zeigt eine MTMM Matrix für drei Traits (Konzeptionen 1,2,3) von denen jede durch drei verschiedene Methoden gemessen werden. Die MTMM Matrix ist also essen- tiell eine Korrelationsmatrix zwischen den Messungen mit dem Unterschied, daß die Werte der Diagonalen, die bei einer reinen Korrelationsmatrix den Wert ‚Eins‘ haben müßten, durch die Schätzungen der Reliabilität (reliability diagonal) ersetzt werden. 43 Huettner (1997).S.532. 44 Peter (1981), S.135. 45 Homburg/Giering (1996), S.7. 46 Churchill (1979), S.70. 47 Campbell/Fiske (1959), S.103.
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 13 Die MTMM Matrix läßt sich in weitere Bereiche je nach Anwendung der Methoden unter- gliedern, was die Orientierung auf der Matrix sehr unterstützt. Die Realibilitätsdiagonale (1) hat in der Regel immer die höchsten Werte in der Matrix48. Sind die Realibilitäten niedriger, so ist aller Wahrscheinlichkeit nach nur eine unzureichende Konsistenz der Daten vorhanden. Die Validitätsdiagonalen (2) bilden sich aus den Koeffizienten, die das gleich Trait messen, aber unterschiedliche Methoden benutzen (monotrait-heteromethods). Sie stellen einen Nach- weis der Konvergenzvalidität dar49, welche dann gegeben ist, wenn sich ihre Werte signifi- kant von Null unterscheiden. In dieser Systematik lassen sich nun auch die vier weiteren Ele- mente der Matrix aufteilen50. So gibt es die Dreiecke, die die Korrelationen von Messungen zweier Traits mit einer Methode darstellen (Heterotrait-Monomethod-Dreiecke(3)) und umgekehrt (Heterotrait-Monomethod-Dreiecke(4)) und schließlich die Blöcke die mit glei- chen (Monomethod Block (5)) und jene, die mit verschiedenen Methoden (Heteromethod Block (6)) messen. Die Bestimmung der Diskriminanzvalidität erfordert drei Vergleiche51. Erstens sollte der Koeffizient auf der Validitätsdiagonale (Validitätskoeffizienten) größer sein als die anderen Werte der Zeile und der Spalte in der er liegt. Zweitens sollten die Validitätskoeffizienten auch größer sein als die Korrelationen im Heterotrait-Monomethod-Dreieck. Und drittens sollte das Muster in allen Heterotrait-Dreiecken gleich sein, weil dann die Traits in Gegen- überstellung zu den Methoden jeweils gleich signifikant sind, dieses läßt sich leicht durch einen Rangordnungskoeffizienten berechnen. Die Herangehensweise mittels der MTMM Matrix kann sehr hilfreich sein, besonders, wenn nur wenige Attribute und Methoden involviert sind52. Nachteilig ist jedoch, daß die Prozedu- ren von Campbell und Fiske (1959) keine Kriterien beinhalten, nach denen Operationalisie- rungen als Konzepte ausgedrückt werden können. Das Ausmaß der Varianz von Konzept vs. Methode, oder die Feststellung der Adäquanz einer gesamten MTMM Matrix53, wird jedoch nur unter Zuhilfenahme der Kausalanalyse erreicht. Dies liegt nicht daran, daß die MTMM 48 Trochim (1999): http://trochim.human.cornell.edu/kb/mtmmmat.htm, 30.8.1999. 49 Churchill (1979), S.70. 50 Trochim (1999): http://trochim.human.cornell.edu/kb/mtmmmat.htm, 30.8.1999. 51 Churchill (1979), S.71. 52 Malhotra (1988), S.11. 53 Malhotra (1988) S.11.
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 14 Matrix schwieriger zu erstellen ist, sondern daran, daß ihre Ergebnisse zuviel Interpretations- spielraum bieten54. 3.4 Kausalanalyse zur Messung von Reliabilität und Validität Die Kausalanalyse ist eine vergleichsweise neue Methode, Meßmodelle auf Reliabilität und Validität zu untersuchen. Die Analyse ist mehr als nur eine einzelne Berechnung oder Schät- zung, sondern eher ein regelrechtes Programm mit der Prüfung von mehreren Schritten. Histo- risch gesehen hat sie sich aus verschiedenen Fachgebieten der Konfirmatorischen Faktorana- lyse, den Strukturgleichungsmodellen und der Pfadanalyse entwickelt. Abbildung 3 Historische Entwicklung der Kausalanalysei Konfimatorische Faktoranalyse Strukturgleichungsmodelle Pfadanalyse (Psychometrie) (Oekonometrie) (Biometrie) Kausalanalyse Quelle:Vgl. Homburg (1989). Die Kausalanalyse kombiniert jedoch nicht nur verschiedene mathematische Herangehenswei- sen, sondert unterscheidet sich auch in zwei wesentliche Herangehensweisen. Die explorato- rische Faktorenanalyse untersucht die vorliegenden Indikatoren im Hinblick auf die ihnen zugrunde liegende Faktorenstruktur. Bei der konfirmatorischen Faktorenanalyse liegen vielmehr bereits Hypothesen vor. In dieser Arbeit wird die Kausalanalyse nur kurz umrissen, weil die Komplexen Formeln mit SPSS nicht ausgeführt werden können. Benötigt wird viel- mehr Standardsoftware wie zum Beispiel LISREL, EQS LVPLS sowie SAS55. 3.4.1 Exploratorische Faktoranalyse Die exploratorische Faktorenanalyse wird von Homburg/Giering (1996) zusammen mit dem Cronbach’schen Alpha und den Item-Total-Korrelationen als Ansätze der „ersten Generati- on“56 bezeichnet. Die Verdichtung der Indikatoren durch dieses Verfahren läßt Schlüsse auf die Konvergenz- und Diskriminanzvalidität zu. Auf die Darstellung weiterer Einzelheiten 54 Trochim (1999): http://trochim.human.cornell.edu/kb/mtmmmat.htm, 30.8.1999. 55 Homburg (1989), S.200ff. 56 Homburg/Giering (1996), S.8.
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 15 wird an dieser Stelle verzichtet, weil die Anwendung dieser Modelle deutlich am Sinken ist, während die konfirmatorische Analyse sich als überlegen zeigt57 . Anderson/Gerbing (1988) behaupten gar, daß die exploratorische Faktoranalyse durchaus als preliminäre Technik zur Konstruktuktion von Skalen verwandt werden kann, daß aber die konfirmatorische Faktora- nalyse gebraucht wird um die Skalen zu evaluieren und die resultierenden Skalen zu optimie- ren58. 3.4.2 Konfirmatorische Faktoranalyse Die konfirmatorische Faktorenanalyse ist ein Sonderfall des allgemeinen Modells der Kau- salanalyse, die genauer als Kovarianzstrukturanalyse bezeichnet wird (Homburg Giering (1996) S.9:,Bagozzi/Baumgartner (1994), S. 417.). Dieses Modell stellt sich aus zwei mathe- matischen Bestandteilen zusammen, dem Meßmodell auf Basis der konfirmatorischen Fakto- renanalyse und dem Strukturmodell auf Basis der Strukturgleichungsanalyse. Die Vorgehensweise ist wie folgt: Zunächst erfolgt eine Parameterschätzung, dann eine Ge- samtgütebeurteilung und folgend eine Beurteilung der Teilstrukturen des Meßmodells Ihre Darstellung kann im Zusammenhang mit der Messung eines Konstrukts durch die Glei- chung x = Λ *ξ + δ ausgedrückt werden, wobei x der Vektor der Indikatorvariablen, Λ die Matrix der Faktorla- dungen, ξ der Vektor der latenten Faktoren und δ der Vektor der Meßfehler ist. Die Tatsache, daß hier nicht mehr zwischen systematischen und zufälligen Meßfehlern unterschieden wird, „impliziert, daß eine klare Trennung von Reliabilität und Validität ... nicht immer möglich ist“.59 An die Parameterschätzung sollte eine Gütebeurteilung des nun entstandenen Meßmodells anschliessen. In erster Linie sind in diesem Zusammenhang der Chi-Quadrat Test (χ2-Test), der Goodneß- of-fit Index (GFI) und der Determinationsköffizient des Meßmodells (TCD) von Bedeutung. 57 Homburg (1996), S.9, Malhotra et al. (1999), S.172. 58 Gerbing/Anderson (1988), S.189. 59 Homburg/Giering (1996), S.9.
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 16 Obgleich der Chi-Quadrat-Test Standard Bestandteil von SPSS ist und so als einziger Koeffi- zient mittels dieser Software ausgegeben werden kann, macht eine weitere Erläuterung keinen Sinn zumal Jöreskog und Sörbom (1989) empfehlen den χ2-Wert als deskriptives Anpas- sungsmaß zu benutzen: χ2 χ2 = # derFreiheitsgrade 1 q(q + 1) − r 2 wobei r für die Anzahl der zu schätzenden Parameter und q die Anzahl von Indikatorvariablen darstellt. Der GFI und AGFI sind deskriptive Anpassungsmaße, sie dienen der Beurteilung von der Diskrepanz zwischen der empirischen Kovarianzmatrix S und der theoretischen Kovarianz- ^ matrix Σ . Die Teilstrukturen werden durch die Indikatorreliabilität, die Faktorreliabilität und die durch- schnittliche erfaßte Varianz eines Faktors beurteilt. „Die Indikatorreliabilität gibt den für ein- zelne beobachtete Variablen den Anteil der durch den zugehörigen Faktor erklärten Varianz an der Gesamtvarianz dieser Variablen an“60. Die Faktorreliabilität und die durchschnittliche erfaßte Varianz hingegen erfassen „wie gut der Faktor durch alle ihm zugeordneten Indikato- ren gemeinsam gemessen wird. 4 Messen bzw. Schätzen 4.1 Messung der Inter-Rater oder Inter-Observer Reliabilität Eine Messung der Inter-Rater-Reliabilität ist im Nachhinein nicht möglich, sondern muß be- reits während des Tests durchgeführt werden. 4.2 Messung der Test-Retest Reliabilität Für das Medium Internet ist der Test-Retest nur bedingt geeignet und wurde nicht beim GVU durchgeführt. Voraussetzung wäre ein Passwortzugang oder eine Identifikation über einen Cookie, damit sichergestellt werden kann, daß die gleiche Person beim zweiten Test getestet wird. Schwieriger ist die Person dazu zu bewegen nach wenigen Wochen, den u.U. zeitrau- benden Test nochmals durchzuführen. Auch kann nicht kontrolliert werden, unter welchen 60 Homburg/Giering (1996), S.10.
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 17 Bedingungen die Testpersonen den Test durchführen oder ob und welche Merkhilfen sie anle- gen. Vom Kostenpunkt ist das Test-Retest Verfahren über das Internet jedoch der günstigste Weg, da bei herkömmlichen Formen wieder hohe Personal- und Materialkosten anfallen. Gemessen wird der Koeffizient einfach zwischen den zwei Tests. Beim 10. GVU Suvey wur- de auch kein Test-Retest durchgeführt, so daß sich leider keine Zahlen vergleichen lassen. Die Idee die Ergebnisse mit denen des sechs Monate älteren 9. Surveys zu vergleichen, erwies sich auch nicht als umsetzbar, weil die Fragen geändert wurden und die Identifikation der Personen nicht zwischen beiden Tests vorgenommen wurde.. 4.3 Messung der Paralleltest-Reliabilität und Alternativtest-Reliabilität Die Parallel-Test und Alternativtestreliabilitäten bestimmen die Konsistenz der Resultate zweier aufgebauter Tests. Der Unterschied zwischen Paralleltest und der Alternativtest besteht lediglich darin, daß der Alternativtest zeitverschoben durchgeführt wird61, während der Paral- leltest zeitgleich stattfindet. Es werden zwei verschiedene, jedoch streng vergleichbare Erhe- bungsinstrumente denselben Beobachtern vorgelegt und deren Ergebnisse korreliert62. Beide Instrumente werden der gleichen Auswahl von Personen vorgelegt. Die Korrelation zwischen diesen beiden Formen ist die Schätzung dieser Reliabilität. Das Hauptproblem dieser Anwen- dung ist, ein Paare von Fragen zu bilden, die wirklich streng vergleichbar sind, daß also der Durchschnitt, die Varianz und die Interkorrelation der Items äquivalent sind63. Daher stammt auch die Bezeichnug Äquivalenzkoeffizient für diesen Reliabilitätsschätzer. Im GVU ist keine Systematik zu erkennen, nach der ein Paralleltest vorbereitet worden ist, so findet keine wirkliche Paralleltestberechnung statt, da SPSS gezwungenermaßen zufällige Parallelformen bildet. 4.4 Messung der Interne-Konsistenz-Reliabilität mittels Split-Half- Reliabilität und Cronbach’s Alpha Zur Messung der Reliabilität wählte ich Items, die ein gemeinsames Konzept und eine ge- meinsame Skala haben, um eine Vergleichbarkeit zu gewährleisten. 61 Trochim, (1999), http://trochim.human.cornell.edu/kb/reltypes.htm, 30.8.99. 62 Keppler, (1996), S.197. 63 Peter (1979), S.8.
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 18 Die ersten Fragen wählte ich aus dem Bereich „Computer, Web and Internet Use“. Sie fragten alle danach ob und wie eine Organisation das Web effizient nutzt. Tabelle 3: Liste der verwendeten Variablen aus Datei „spss_use.sav“: Merkmal Inhalt Merkmalsskalierung Q05 Organisation uses Web effectively Kategorial a Q06 ... to reach customers Kategorial a Q07 ... to streamline operations Kategorial a Q08 ... to interact with customers Kategorial a Q09 ... in training Kategorial a Q10 ... to reduce red tape Kategorial a a Es gab die 5 abgestuften Kategorien „strongly agree“ bis „strongly disagree“, plus eine Kategorie „nicht anwendbar“ (wurde nicht ausgewertet) D.h. die Fragen bilden einen Fragenkomplex, nämlich effektive Nutzung des Web, und zwar Q05: allgemein, Q06: um Kunden zu erreichen, Q07: um Operationen zu rationalisieren, Q08: um mit Kunden zu interagieren, Q09: um es effektiv zur Ausbildung zu nutzen, und Q10: um das Web zur Reduzierung von Bürokratie einzusetzen. Die Antwortmöglichkeiten reichten mit fünf Skalenwerten von „Stimme stark zu“ bis „Stimme stark dagegen“, die sechste Mög- lichkeit war eine Enthaltung für „Nicht Anwendbar/Wird Nicht Gemacht“. Diese sechste Möglichkeit wurde zur Berechnung der Korrelationen als Fehlender Wert (missing value) definiert, da sie keinen Wert auf der Skala darstellt. Dadurch reduzierte sich die Gruppengrö- ße um etwa 40%. Es war anzunehmen, daß es hier starke Korrelationen und schließlich eine hohe Reliabilität der Messung der Items geben würde. Dieses war deutlich der Fall: Mit einem Cronbach’schen Alpha (Berechnung siehe Anhang 1) von 0,9163 und einer Split-Half Relia- bilität (Berechnung siehe Anhang 2) von 0,91 ist an einer Reliabilität der Messung durch diese Skalen kaum zu zweifeln. SPSS liefert eine Reihe von anderen Werten, die relevanten sind markiert. Abbildung 4: Cronbach’sches Alpha und Split-Half Reliabilität (Analyse am 10. GVU) R E L I A B I L I T Y A N A L Y S I S of „Organization Uses Web Effectively...“ N of Cases = 1767.0 Cronbach’s Alpha Alpha = .9163 Standardized item alpha = .9162 SPLIT-HALF ANALYSE Reliability Coefficients 6 items Correlation between forms = .8348 Equal-length Spearman-Brown = .9100 Guttman Split-half = .9095 Unequal-length Spearman-Brown = .9100
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 19 Alpha for part 1 = .8620 Alpha for part 2 = .8362 3 items in part 1 3 items in part 2 (Die Abbildung ist eine Kopie aus SPSS Output, siehe Anhang für Syntax) 4.5 Messung der Konstruktvalidität mittels der MTMM Matrix Selbst eine kleine MTMM Matrix ist aus dem 10. GVU Survey nicht direkt zu erstellen, weil sich keine Fragenkomplexe mit zwei Traits (Konzepten) finden lassen, die gleichzeitig mit zwei Methoden (hier: Skalen) messen. Dennoch läßt sich eine solche Matrix mit vergleichs- weise geringem Aufwand konstruieren. Die beiden gewählten Konzepte sind Fun (F) und Ar- beit (A) mit dem Web. Die Methode 1 ist die Skala „strongly agree“ bis „strongly disagree“ (M1) und die Methode 2 die Skala „daily bis never“ (M2). Die Daten werden direkt aus der Umfrage nach ‚Computer, Web und Internet Use‘ (Original- Dateiname: spss_use.sav) genommen. Folgende Hypothesen wurden getroffen: Die Fragen Q05 bis Q08 beschreiben das Konstrukt (A), ebenso die Fragen Q102 bis Q105. Die Fragen Q115 bis Q118 sowie die Fragen Qn1 bis Qn4 beschreiben das Konstrukt Arbeit. Die Metho- de 1 als Antwortmöglichkeit von den Fragen Q102 bis Q105 und von Q115 bis Q118 benutzt die Methode 2 von den anderen beiden. Da dies das einzige Set war, daß sich zumindest der MTMM Idee annähert, aber trotzdem nur drei von 4 notwendigen Fragekomplexen vorhanden waren, wurden die Fragen Qn1 bis Qn4 sind frei ausgedacht und benutzen die Datensätze der Fragen (Q5,Q6,Q9;Q10). Zur Erstellung der MTMM Matrix werden zunächst die verschiedenen Reliabilitäten berech- net, dann die Korrelationswerte und diese dann in der der MTMM – Matrix zusammengefügt (siehe Anhang 3).
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 20 Tabelle 4: Konstruierte MTMM-Matrix aus dem Datensatz (spss_use.sav) ÿþýüûú ø ÷þþúþþ ÿþýüûú ÷þþ ý ø þý ý ý ø þý ý ø ø ý ø þý ÿþýþü ÿþýüûú ø ÷þþúþþ ý ÿ ÿ ý ø þý ÿ ýý ÿü ÿ ÿþýüûú ø ÷þþ ý ÿý ÿ ý ÿ ÿ ø Die Validitätsprüfung kann nun Schritt für Schritt durchgeführt werden. Die Werte der Relia- bilitätsdiagonale (A2A2,F2F2,A1A1,F1F1) sollen höher sein als alle anderen Werte der Ma- trix, das ist fast der Fall, es gibt nur einen Ausreißer (F1A1). Die Konvergenzvalidität ist dann erreicht, wenn sich die Werte auf der Validitätsdiagonale (A1A2,F1F2) signifikant von Null unterscheiden. Dies ist nicht der Fall. Die Bestimmung der Diskriminanzvalidität liefert ebenso keine zufriedenstellenden Ergebnisse. Erstens sollte der Koeffizient auf der Validitäts- diagonale (Validitätskoeffizienten) größer sein als die anderen Werte der Zeile und der Spalte in der er liegt, diese Bedingung ist verletzt (F2A2 > A1A2). Die anderen Bedingungen werden damit auch nicht erfüllt, da die Heterotrait-Monomethod-Dreiecke bei dieser kleinen Matrix nur aus jeweils einem Wert bestehen (F2A2,F1A1) und diese auch größer sind als die Werte der Validitätsdiagonale. Und drittens sollte das Muster in allen Heterotrait-Dreiecken gleich sein, also die Randgodungen zwischen den Koeffizienten gleich sein. Da die Prozedur "Biva- riate Korrelationen" in SPSS bei dem Korrelationskoeffizienten nach Spearman ihre jeweili- gen Signifikanzniveaus errechnet, läßt sich dieses auch direkt ablesen. Mit Korrelationen wer- den die Beziehungen zwischen Variablen oder deren Rängen gemessen.
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 21 Tabelle 5: Zweiseitiges Signifikanzniveau ø ø ÿ ÿ ÿ ø ÿýþü ÿþ ÿ ø ÿý ÿý ÿ ÿ Man erkennt, daß auch das letzte Kriterium zur Erfüllung von Diskriminanzvalidität verletzt wurde, da F2A2 und F1A1 überhaupt nicht korrelieren. Der Grund des Versagens besteht nicht in der Tatsache, daß F1 aus den Qn-Fragen konstruiert wurde, vielmehr deuten auch A2 und F2 mit ihren niedrigen Reliabilitäten auf Inkonsistenzen bezüglich der Messung hin. 5 Zusammenfassung Hierzu wird zunächst erläutert wie sich Meßfehler klassifizieren lassen, was Validität und Reliabilität ist und welche Zusammenhänge zwischen ihnen bestehen. Des weiteren werden die verschiedenen Methoden zur Schätzung der Reliabilität und Validität aufgeführt und zwei herausragende Methoden, die Multitrait-Multimethod Matrix sowie die Kausalanalyse be- trachtet. Anschließend werden die gewonnenen Erkenntnisse mittels SPSS umgesetzt. Ziel der Arbeit war es einen Überblick über die Theorie der Reliabilität und Validität und ihre Zusammenhänge zu bilden, die Methoden die es zur Einschätzung von Reliabilität und Vali- dität einer Marktforschung gibt aufzuführen, zu erläutern und praktisch anzuwenden. Festgestellt werden konnte, daß aufgrund des Zusammenhanges von Reliabilität und Validität beides gemessen werden muß und daß modernere Verfahren wie die Kausalanalyse dieses berücksichtigen. Eine weitere wichtige Erkenntnis ist, daß viele Schätzmethoden eine Berücksichtigung schon im Testdesign erfordern, da der Test auf sie angelegt sein muß (Paralleltest, Test-Retest). Weiter ist es inbesondere aus Kostengründen ratsam auch schon vor der Durchführung des Tests sogenannte Pre-Tests durchzuführen, die entscheiden ob das Test-Design reliable und valide Ergebnisse liefert.
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39 22 Anhang Anhang 1 Cronbach’s Alpha RELIABILITY /VARIABLES=q05 q06 q07 q08 q09 q10 /FORMAT=NOLABELS /SCALE(ALPHA)=ALL/MODEL=ALPHA. Anhang 2 Split-Half-Reliabilität RELIABILITY /VARIABLES=q05 q06 q07 q08 q09 q10 /FORMAT=NOLABELS /SCALE(SPLIT)=ALL/MODEL=SPLIT.. Anhang 2 MTMM Matrix Tabelle: Liste der verwendeten Variablen aus Datei „spss_use.sav“: Merkmal Inhalt Merkmalsskalierung Gehört zu Q05 Organisation uses Web effectively Kategorial a A1 Q06 ... to reach customers Kategorial a A1 Q07 ... to streamline operations Kategorial a A1 Q08 ... to interact with customers Kategorial a A1 a Qn1 Many of my collegues use the web for fun Kategorial F1 a Qn2 ... in internet games Kategorial F1 a Qn3 ... by having social contact Kategorial F1 Qn4 ... in enhancing wisdom Kategorial a F1 b Q102 Freq. of assessing Newsgroups Kategorial A2 b Q103 ... Electronic News Kategorial A2 b Q104 ... Product Information Kategorial A2 Q105 ... Purchases Kategorial b A2 b Q115 Freq. of Using the Web instead of watching TV Kategorial F2 b Q116 ... using phone Kategorial F2 b Q117 ... sleeping Kategorial F2 Q118 ... exercising Kategorial b F2 a Es gab die 5 abgestuften Kategorien „strongly agree“ bis „strongly disagree“, plus eine Kategorie „nicht anwendbar“ (wurde nicht ausgewertet) b Es gab die 5 abgestuften Kategorien „daily“, „weekly“, „monthly“, „less than once a month“, „never“ * Als erstes berechne ich die verschiedenen Reliabillitäten. *T1,T2 sind Trait 1,2 *M1,M2 sind Methode 1,2 * A1 (T1M2) RELIABILITY /VARIABLES=q05 q06 q07 q08 /FORMAT=NOLABELS /SCALE(ALPHA)=ALL/MODEL=ALPHA.
Sie können auch lesen