Messung von Reliabilität und Validität - Uni Frankfurt

 
WEITER LESEN
Block Nr. I, Thema Nr. 2

Messung von Reliabilität und Validität
  Referat im Rahmen des Speziellen Seminars zum Thema
„Multivariate Analyseverfahren und deren Anwendung am Bei-
           spiel des 10th GVU’s WWW User Surveys“
                   im Wintersemester 1999/00

                         eingereicht bei
                     Prof. Dr. Bernd Skiera
             Lehrstuhl für Betriebswirtschaftslehre,
              insbesondere Electronic Commerce
             Johann Wolfgang Goethe-Universität
                       Frankfurt am Main

                              von
               stud. rer. pol. Dietmar Walter Zilz
                   zilz@wiwi.uni-frankfurt.de
              http://www.wiwi.uni-frankfurt.de/~zilz

            Studienrichtung: Betriebswirtschaftslehre
                        8. Fachsemester
              Abgabedatum: 28. September 1999
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39                II

 Inhaltsverzeichnis

Abbildungsverzeichnis .............................................................................................................. IV
Tabellenverzeichnis.....................................................................................................................V
Abkürzungsverzeichnis ............................................................................................................. VI
Symbolverzeichnis ................................................................................................................... VII

 1 Einleitung ...............................................................................................................................1

 2 Begriffsbildung ......................................................................................................................1
    2.1 Klassifizierung von Meßfehlern......................................................................................1
    2.2 Definition der Reliabilität................................................................................................2
    2.3 Definition der Validität ...................................................................................................3
    2.4 Zusammenhang von Reliabilität und Validität................................................................4

 3 Methoden................................................................................................................................5
    3.1 Methoden der Messung von Reliabilität .........................................................................5
        3.1.1 Inter-Rater oder Inter-Observer Reliabilität ..........................................................5
        3.1.2 Test-Retest Reliabilität..........................................................................................5
        3.1.3 Paralleltest-Reliabilität und Alternativtest-Reliabilität .........................................6
        3.1.4 Interne-Konsistenz-Reliabilität .............................................................................6
              3.1.4.1 Split-Half-Reliabilität ..............................................................................7
              3.1.4.2 Cronbach’s Alpha ....................................................................................7
              3.1.4.3 Kuder_Richardson Formel (KR20)..........................................................8
              3.1.4.4 G-Theorie (Generalisierungs-Theorie).....................................................9
    3.2 Methoden der Messung von Validität ...........................................................................10
        3.2.1 Externe und Interne Validitaet ............................................................................10
        3.2.2 Inhaltsvaliditaet (Augenscheinvaliditaet und Expertenvaliditaet) ......................10
        3.2.3 Konstruktvalidität (Konvergenz- und Diskriminanzvalidität) ............................11
        3.2.4 Kriteriumsvalidität (Prognose- und Übereinstimmungsvalidität) .......................11
        3.2.5 Nomologische Validitaet.....................................................................................11
    3.3 Multitrait-Multimethod-(MTMM) Matrix zur Messung der Konstruktvalidität...........12
    3.4 Kausalanalyse zur Messung von Reliabilität und Validität ....................................14
        3.4.1 Exploratorische Faktoranalyse ............................................................................14
        3.4.2 Konfirmatorische Faktoranalyse .........................................................................15

 4 Messen bzw. Schätzen .........................................................................................................16
    4.1 Messung der Inter-Rater oder Inter-Observer Reliabilität.............................................16
    4.2 Messung der Test-Retest Reliabilität ............................................................................16
    4.3 Messung der Paralleltest-Reliabilität und Alternativtest-Reliabilität............................17
    4.4 Messung der Interne-Konsistenz-Reliabilität mittels Split-Half-Reliabilität und
        Cronbach’s Alpha..........................................................................................................17
    4.5 Messung der Konstruktvalidität mittels der MTMM Matrix.................................19
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39            III

5 Zusammenfassung ...............................................................................................................21

Literaturverzeichnis................................................................................................................24

Anzahl Wörter: 6391

Dateiname: zilz_skiera_multivariat_thema2_280999.doc
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39     IV

Abbildungsverzeichnis

Abbildung 1: Zusammenhang von Reliabilität und Validität .....................................................4

Abbildung 2: Multitrait-Multimethod Matrix ...........................................................................12

Abbildung 3 Historische Entwicklung der Kausalanalysei .......................................................14

Abbildung 4: Cronbach’sches Alpha und Split-Half Reliabilität (Analyse am 10. GVU) .......18
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39       V

Tabellenverzeichnis

Tabelle 1: Ausgewählte Reliabilitätsgrade..................................................................................3

Tabelle 2: Zusammenhang von dem Wert des Cronbach’schen Alphas in Bezug auf die
                    Anzahl von Items pro Skala und Kategorien pro Item ........................................8

Tabelle 3: Liste der verwendeten Variablen aus Datei „spss_use.sav“:....................................18

Tabelle 4: Konstruierte MTMM-Matrix aus dem Datensatz (spss_use.sav) ............................20

Tabelle 5: Zweiseitiges Signifikanzniveau ...............................................................................21
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39   VI

Abkürzungsverzeichnis

G-Theorie                       Generalisierungstheorie
GVU                             Graphic, Visualization, & Usability Center
KR20                            Kuder-Richardson Formel
M                               Methode
MTMM                            Multitrait-Multimethod
TCD                             Total Coefficient of Determination
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39   VII

Symbolverzeichnis

x 0:            Meßwert
xT:             wahrer Meßwert
xERR:           Meßfehler
x R:            Zufallsfehler
xS:             systematische Fehler
r:              Reliabilität
σ t2            Varianz des wahren Werts

σ O2            Varianz des beobachteten Werts

xS:             systematische Fehler
r:              Reliabilität
rsb             Split-Half-Reliabilität nach Spearman-Brown
rxy             Varianz des beobachteten Werts
α               Cronbach’s Alpha
σ t2            Gesamtvarianz
k               Anzahl Teile
p               Proportion
q               Komplement von p
A               Arbeit
F               Fun
M               Methode
Q               Question
x               Vektor der Indikatorvariablen
Λ               Matrix der Faktorladungen
ξ               Vektor der latenten Faktoren
δ               Vektor der Meßfehler
r               Anzahl der zu schätzenden Parameter
q               Anzahl von Indikatorvariablen
S               empirische Kovarianzmatrix
 ^
Σ.              theoretische Kovarianzmatrix
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39   1

1         Einleitung
Bis hin zu den 80er Jahren haben Unternehmen kaum Wert darauf gelegt ob und inwieweit
von ihnen durchgeführte Marktforschungen wirklich Gültigkeit haben. In Anbetracht der Tat-
sache, daß gerade im Zuge der Entwicklung von zunehmend anonymen Transaktionen über
das WWW eine Einschätzung von Ergebnissen wichtig ist, ist dieses Thema aktuell wie nie
zuvor. Die Reliabilität und Validität von Surveys und Marktforschungen. ist von großer und
steigender Wichtigkeit für Unternehmen, zumal schon 1995 in den USA allein über $50 Mil-
liarden hierfür investiert wurden1. Diese Arbeit konzentriert sich auf die Messung von Relia-
bilität und Validität im Hinblick auf Marktforschungen (Surveys) mittels des WorldWide-
Web. Ziel der Arbeit ist es, die Theorie und die Meßmethoden der Reliabilität und Validität
ausführlich zu erläutern, und Analysen mittels der Standardsoftware SPSS durchzuführen. Der
theoretische Teil konzentriert sich daher auf die Möglichkeiten, die SPSS bietet. Hierzu wird
zunächst erläutert wie sich Meßfehler klassifizieren lassen, was Validität und Reliabilität ist
und welche Zusammenhänge zwischen ihnen bestehen. Des weiteren werden die verschiede-
nen Methoden zur Schätzung der Reliabilität und Validität aufgeführt und zwei herausragende
Methoden, die Multitrait-Multimethod Matrix sowie die Kausalanalyse betrachtet. Anschlie-
ßend werden die gewonnenen Erkenntnisse mittels SPSS umgesetzt.

2         Begriffsbildung
2.1       Klassifizierung von Meßfehlern
Jede Messung beinhaltet immer ein gewisses Maß an Ungenauigkeit. Optimal wäre, wenn
jede Messung genau ihrem originalem Wert entspräche. Aufgrund von unterschiedlichen
Faktoren, die mehr oder weniger stabil, situationsbezogen, und variierend sein können, gibt es
jedoch unter Umständen gravierende Abweichungen der Messungen von der Wirklichkeit.
Der Meßwert (x0) kann daher wie folgt beschrieben werden 2:

    x0 = xT + x ERR

1
    Duboff (1996), S.19.
2
    vgl. Peter (1979), S.7; vgl. http://www.stsoftinc.com/textbook/streliab.html), 30.8.1999
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39   2

Wobei x0 der Meßwert, xT der wahre Wert (true Value) ist und xERR der Fehler (ERR). Dieser
Fehler wird zur besseren Analyse und Problemlösung in der Literatur in zwei Arten unterteilt.
Erstens in die Zufallsfehler xR (random errors), welche durch die Höhe der Reliabilität ange-
zeigt werden sowie zweitens in die systematischen Fehler xS, welche durch die Höhe der Va-
lidität ausgedrückt werden3. Gibt es bei einer Messung keine zufälligen Fehler (xR=0), so ist
sie vollständig reliabel. Die Zufallsfehler werden auch als transitorische Fehler bezeichnet, die
durch bestimmte Merkmale einer Person oder eine besondere Situation gekennzeichnet sind,
während die systematischen Fehler konstante Fehler sind, die etwa auf einer falschen Eichung
eines Meßinstrumentes beruhen4. Gibt es keine systematischen Fehler (xS=0), so liegt ein voll-
ständig valides Meßergebnis vor5.

Es ist wichtig, schon vor Beginn der Messung zu prüfen ob diese auch wirklich reliabel und
valide ist, denn obgleich es über 3000 publizierte Tests gibt und ‚Marketing Scales‘ Handbü-
cher existieren6, welche typische Skalen von Antworten mit Angaben ihrer Validität und Re-
liabilität enthalten, sind solche Vorgaben nicht einfach auf neue Tests und neue Zielgruppen
zu übertragen7.

2.2           Definition der Reliabilität
Reliabilität beschreibt das Ausmaß in welchem ein Experiment, ein Test oder ein anderes
Meßverfahren gleiche Resultate bei wiederholten Versuchen konsistent liefert8. Ein ideal re-
liabler Test liefert also zu unterschiedlichen Zeitpunkten und unterschiedlichen Umweltbedin-
gungen immer die gleichen Ergebnisse.

Mathematisch ausgedrückt gilt9:

       σ t2
r=
       σ O2

3
    Churchill (1979), S.65.
4
    Churchill (1992), S.75.
5
    Churchill (1979) S.65.
6
    z.b. Bruner et. Al (1994).
7
    Rentsch/Hutchison (1999), S.13.
8
    vgl Peter (1979) S.6. Torabi (1994) S.57f.
9
    (Finn/Kayande (1997), S.263.)
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39          3

Wobei r für die Reliabilität σ t2 für die Varianz des wahren Werts (true score) und σ O2 für die

Varianz des beobachteten Werts (observed score) steht. Da der wahre Wert der Varianzen von
Meßwerten in der Regel nicht bekannt ist, läßt sich die Reliabilität nicht exakt berechnen.
Reliabilität muß geschätzt werden10. Wie man erkennt, liegt der zu beobachtende Wert zwi-
schen Null und Eins. In der Literatur herrscht weitgehend Übereinstimmung darüber, eine
Reliabilität ab einem Wert von etwa 0,75 als reliabel zu bezeichnen wie die Tabelle 1 bei-
spielhaft belegt.

                                   Tabelle 1: Ausgewählte Reliabilitätsgrade
Autor                                       Situation                              Empfohlener Mindestgrad

Kaplan und Sacuzzo (1982), S.106            Grundlagenforschung                    0,7-0,8
                                            Zweckforschung                         0,95

Nunnally (1978), S.226                      Grundlagenforschung                    0,8
                                            Zweckforschung                         0,95

                                                (Quelle: Peterson (1994), S.382)

Es gibt unterschiedliche Methoden die Reliabilität zu messen. Jeder dieser anschließend er-
läuterten Reliabilitätsschätzer (3.2) wird differierende Werte für die Reliabilität ausgeben. Im
allgemeinen werden die Test-Retest- und die Inter-Rater-Reliabilität kleiner sein als die Par-
alleltest- und die Interne-Konsistenz-Reliabilität, da die ersten beiden Messungen zu unter-
schiedlichen Zeiten stattfinden bzw. unterschiedliche Befragte beinhalten11.

2.3       Definition der Validität
Ein Meßinstrument wird dann als valide oder “gültig” bezeichnet, wenn es genau jenes mißt,
was gemessen werden soll. Nicht nur Messungen selbst können nicht valide sein, sondern
auch die Schlüsse und Folgerungen, die aus den Messungen gezogen werden. Validität als
Genauigkeitsgrad liegt in dem Maße vor, in dem die Messungen frei von “systematischen”
Fehlern sind12. Systematische Fehler sind solche, die die Messung kontinuierlich beeinflussen.

10
     Trochim, (1999), http://trochim.human.cornell.edu/kb/reltypes.htm, 30.8.99.
11
     Trochim, (1999), http://trochim.human.cornell.edu/kb/reltypes.htm, 30.8.99.
12
     Hüttner (1997), S.543
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39   4

2.4       Zusammenhang von Reliabilität und Validität
Reliabilität und Validität können nicht voneinander getrennt betrachtet werden. Eine Messung
sollte möglichst hohe Werte für die Reliabilität und die Validität gleichzeitig haben.

                        Abbildung 1: Zusammenhang von Reliabilität und Validität

               Quelle: Trochim (1996), http://trochim.human.cornell.edu/kb/rel&val.htm, 30.8.1999.

Die obige Zielscheibengrafik beschreibt dieses Problem deutlich. Der Kern stellt den wahren
Wert xT dar, die kleinen Punkte sind die jeweiligen Meßwerte x0. Die erste Grafik zeigt eine
Konzentration auf einen Punkt. Innerhalb der Messung gibt es also keine außergewöhnlichen
zufälligen Abweichungen: Die Messung ist reliabel, aber nicht valide, weil sie systematisch
falsche, vom Meßwert abweichende Werte liefert. Die zweite Grafik zeigt durchschnittlich
gleichverteilte Werte, eine systematische Abweichung ist nicht festzustellen. In der dritten
Grafik gibt es eine systematische Abweichung sowie eine zufällige Abweichung, so daß diese
Messung weder als valide noch als reliabel bezeichnet werden kann13. Reliabilität ist eine
notwendige Bedingung für Validität, außer dann, wenn vom reinen Durchschnitt ausgegangen
wird, wie in der zweiten Grafik und dieser Durchschnitt genau dem wahren Wert entspricht.
Die gegenseitige Abhängigkeit von Reliabilität und Validität ist jedoch nicht zu unterschät-
zen, zumal in letzter Zeit vermehrt auf die Reliabilität geachtet wurde, die mit wenig Aufwand
per SPSS-Menübefehl berechnet werden kann. Dieses macht eine Optimierung im Hinblick
auf die Reliabilität leicht, aber schadet im Zweifelsfall der Validität. Nicht ohne Grund fällt
daher in den modernen Modellen der später erläuterten Kausalanalyse die Trennung von Re-
liabilität und Validität weg.

13
     vgl. Trochim (1996), http://trochim.human.cornell.edu/kb/rel&val.htm, 30.8.1999.
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39   5

3         Methoden
3.1       Methoden der Messung von Reliabilität

3.1.1 Inter-Rater oder Inter-Observer Reliabilität
Misst den Grad in dem zwei unterschiedliche Beobachter/Bewerter konsistente Einschätzun-
gen eines Phänomens geben14. Unterschiedliche Beobachter produzieren unterschiedliche Re-
sultate aufgrund der Natur des Menschen. So reagieren die Menschen anders auf Störungen
von innen und außen, sie differieren in Ihrer Art Informationen wahrzunehmen, aufzunehmen
und zu interpretieren.

Eine Messung ist z.B. folgendermaßen möglich. Die erste ist anzuwenden, wenn nach Katego-
rien gemessen wird, die zweite bei einer kontinuierlichen Messung.

Zunächst können den Beobachtern Kontrollfragen zu einzelnen Fragen gestellt werden, nach
denen bestimmte Begriffe eingeschätzt werden. Zum Beispiel: „Was verstehen Sie unter groß,
160, 180 oder 200 cm? Wenn dann zum Beispiel 86 von 100 Beobachtungen in die gleiche
Kategorie gewählt werden, bekommt man einen Grad der Übereinstimmung dieser beiden
Beobachter von 86%.

Eine Messung der Inter-Rater-Reliabilität ist im Nachhinein nicht möglich.

3.1.2 Test-Retest Reliabilität
Die Test-Retest Reliabilität, auch Stabilitätskoeffizient genannt15, bestimmt die Konsistenz
von Messungen von einem Zeitpunkt zum nächsten. Sie korreliert die Ergebnisse zweier Un-
tersuchungen, die mit demselben Meßinstrument innerhalb eines bestimmten Zeitraumes wie-
derholt an der gleichen Auswahl von Beobachtern unter möglichst gleichen Bedingungen vor-
genommen wurden. Diese Vorgehensweise setzt voraus, daß inzwischen keine substantielle
Veränderung im gemessenen Konstrukt stattgefunden hat.

Die Länge des Zeitraumes zwischen zwei verschiedenen Messungen ist entscheidend und
führt in den allermeisten Fällen zu unterschiedlichen Ergebnissen. In der Regel ist davon aus-
zugehen, daß bei kurzen Zeiträumen zwischen den Messungen eine hohe Korrelation und bei
langen Zeiträumen eine niedrige Korrelation zu erwarten ist. Die Gründe liegen vor allem in

14
     Trochim, (1999), http://trochim.human.cornell.edu/kb/reltypes.htm, 30.8.99.
15
     Keppler, (1996), S.196 f.
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39   6

Lerneffekten der Beobachter (gelerntes wird im Zuge der Zeit vergessen) und den Verände-
rungen in der Umwelt (die Wahrscheinlichkeit steigt, daß das Konstrukt veraltet)16. Desweite-
ren kann bei einer Veränderung eines Phänomens nicht festgestellt werden, ob es wirklich
eine Veränderung oder lediglich eine niedrige Reliabilität des Tests ist17. Und schließlich ist
die Retest Korrelation nur teilweise abhängig von der Korrelation zwischen den Items, weil in
die Summenkorrelation auch die Korrelationen der Items mit sich selbst eingehen.

3.1.3 Paralleltest-Reliabilität und Alternativtest-Reliabilität
Die Parallel-Test und Alternativtestreliabilitäten bestimmen die Konsistenz der Resultate
zweier aufgebauter Tests. Der Unterschied zwischen Paralleltest und der Alternativtest besteht
lediglich darin, daß der Alternativtest zeitverschoben durchgeführt wird18. Es werden zwei
verschiedene, jedoch streng vergleichbare Erhebungsinstrumente denselben Beobachtern vor-
gelegt und deren Ergebnisse korreliert19. Beide Instrumente werden der gleichen Auswahl von
Personen vorgelegt. Die Korrelation zwischen diesen beiden Formen ist die Schätzung dieser
Reliabilität. Das Hauptproblem dieser Anwendung ist ein Menge wirklich streng vergleichbar
sind, daß also der Durchschnitt, die Varianz und die Interkorrelation der Items äquivalent
sind20. Daher stammt auch die Bezeichnug Äquivalenzkoeffizient für diesen Reliabilitäts-
schätzer.

3.1.4 Interne-Konsistenz-Reliabilität
Die Interne-Konsistenz-Reliabilität bestimmt die Konsistenz von Resultaten zwischen Varia-
blen innerhalb eines Tests21. (Trochim, Types of Reliability, 1999). Die Interne Konsistenz
Reliabilität läßt sich darstellen bzw. schätzen durch die durchschnittliche Inter-Item Korrelati-
on, die durchschnittliche Item-Total-Korrelation, die Split-Half-Reliabilität sowie Cronbach’s
Alpha und die Kuder-Richardson Formel. Diese Formen, vor allem das Cronbach’sche Alpha

16
  Trochim, (1999), http://trochim.human.cornell.edu/kb/reltypes.htm, 30.8.99.
17
     Peter (1979), S.8.
18
     Trochim, (1999), http://trochim.human.cornell.edu/kb/reltypes.htm, 30.8.99.
19
     Keppler, (1996), S.197.
20
     Peter (1979), S.8.
21
     Trochim, (1999), http://trochim.human.cornell.edu/kb/reltypes.htm, 30.8.99.
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39   7

bzw. die Kuder-Richardson Formel sind die aufgrund ihrer Einfachheit und der in den aller-
meisten Fällen ausreichenden Genauigkeit die häufig benutzten Methoden22.

Die interne Konsistenz ist sehr wichtig für das Ergebnis, weil inkonsistente Fragen wider-
sprüchlich wären und die Aussagekraft der Untersuchung erheblich herabsetzen oder gar auf-
heben würden.

3.1.4.1 Split-Half-Reliabilität

Bei der Split-Half-Reliabilität werden nach dem Zufallsprinzip alle Elemente, die zu der Mes-
sung desselben Konstrukts beitragen in zwei Sets aufgeteilt. Das gesamte Erhebungsinstru-
ment wird der befragten Person zur Auswahl gegeben, aber zur Überprüfung der Reliabilität
werden nur die Korrelationen der jeweiligen Hälfte berechnet23. Mathematisch ausgedrückt
gilt24.

          2rxy
rsb =
        (1 + rxy )
Wobei rsb die Split-Half-Reliabilität nach Spearman-Brown ist und rxy die Korrelation zwi-
schen den beiden Hälften beschreibt

Die Split-Half-Reliabilität ist ein einfaches, aber dafür sehr robustes Verfahren.

3.1.4.2 Cronbach’s Alpha

Cronbach’s Alpha25 entspricht der Berechnung des Durchschnittswertes aller k-möglichen
Split-Half-Reliabilitäten. Mittels der Formel von Cronbach wird dieser große Rechenaufwand
jedoch deutlich vereinfacht. Dieses ist sicherlich der Grund weswegen Cronbach’s Alpha der
am häufigsten benutzte Reliabilitätskoeffizient ist26.

                      k
                                
                    åσ     2
                            i   ÷
       *  1 − i =1 2           ÷
     k
α=
   k −1          σt            ÷
                               ÷
                               

22
     vgl. Peterson (1994) S.383; vgl. Parameswaran et al. (1979) S.20.
23
     Trochim, (1999), http://trochim.human.cornell.edu/kb/reltypes.htm, 30.8.99.
24
     http://www.statsoftinc.com/textbook/streliab.html, 30.8.99.
25
     vgl. Cronbach (1951).
26
     Homburg/Giering, 1996, S.8.
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39         8

Wobei k der Anzahl der Items in der Skala, σ i2 der Varianz der Items i und σ t2 der Gesamtva-

rianz (total variance) der Skala entspricht. Der Wertebereich liegt zwischen Null und Eins,
wobei ein hoher Wert eine hohe Reliabilität anzeigt27. Eine bemerkenswerte Tatsache ist, daß
bei einer steigenden Anzahl von Items pro Skala und einer steigenden Anzahl von Kategorien
in einem Item der Wert deutlich wächst. Es sollten daher mindestens 4 Scale Items und min-
destens 3 Antworten pro Frage (Kategorien pro Item) verwandt werden. Dies wird in der em-
pirischen Tabelle von Peterson (1994) anhand der durchschnittlichen Werte von Cronbach’s
Alpha ( α ) aus über 3000 Studien (n) überzeugend belegt.

Tabelle 2: Zusammenhang von dem Wert des Cronbach’schen Alphas in Bezug auf die Anzahl
               von Items pro Skala und Kategorien pro Item
                                         Anzahl von Items pro Skala
                                                           2 oder 3               4 oder mehr

                 Anzahl von              2                α = 0,62
                                                          α                        α   = 0,71
                 möglichen                                  (n=23)                  (n=186)
                 Antworten
                 pro Frage            3 oder              α = 0,74
                                                          α                       α = 0,78
                                                                                  α
                                      mehr
                                                           (n=710)                 (n=2536)

                                                Quelle: Peterson (1994), S.388.

Die Nachteile von Cronbach’s Alpha liegen einerseits in der nicht möglichen inferenzstatis-
tischen Beurteilung des Koeffizienten28, und andererseits in der Tatsache, daß die Höhe der
Koeffizienten positiv von der Anzahl der Indikatoren abhängen29. Bei einer großen Anzahl
von Elementen ist Cronbach’s Alpha das am häufigsten benutzte Instrument.

3.1.4.3 Kuder_Richardson Formel (KR20)

Die Kuder-Richardson Formel unterscheidet sich unwesentlich vom Cronbach’schen Alpha.
Sie wird hier lediglich einem eigenen Punkt zugeordnet, weil diese Formel von SPSS bei di-
chotomen Daten verwandt wird, wenn man ‚Coefficient Alpha‘ auswählt30,weil sie in der Lite-
ratur häufiger auftaucht. Der Ansatz geht auch davon aus den Test in k-Teile zu splitten. Der

27
     vgl. Homburg/Giering, 1996 S.22 [7].
28
     vgl. Homburg/Giering, 1996 S.8.
29
     vgl. Homburg/Giering, 1996 S.22 [8]
30
     SPSS Context Help, (SPSS Version 9.0 engl.): „Coefficient alpha. For dichotomous data, this is
      equivalent to the Kuder-Richardson 20 (KR20) coefficient.“ Weitere Aufschlüsse gibt das
      „SPSS Statistical Algorithms Manual“, welches leider nicht zur Verfügung stand.
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39   9

Grad in dem die Element miteinander korrelieren bestimmt die Höhe der Reliabilität. Die
Formel lautet31:

                       k
                                  
                      å pq
                        ÷
r=
     k    
        * 1−    i =1    ÷
   k −1           σ t2 ÷
                       ÷
                       
Wobei k der Anzahl der Items in der Skala, p der Proportion der richtigen Antworten und q
dem Gegenteil von p entspricht (q=1-p).

3.1.4.4 G-Theorie (Generalisierungs-Theorie)

Die Tatsache, daß die unterschiedlichen Realibilitätsschätzer sich voneinander unterscheiden
und aufgrund ihrer Art unterschiedliche Werte liefern ist nicht zufriedenstellend. So sind die
Teile der Varianzen, die Fehler bilden bei den unterschiedlichen Reliabilitätsformen unter-
schiedlich groß. Die G-Theorie wurde eingeführt, um gleichzeitig verschiedene kontrollierba-
re32 Ursprünge von Varianzen in einer einzigen Prozedur zu analysieren 33.Die Formel der G-
Theorie läßt sich analog zur klassischen Realibilität formulieren34.

                   σ universeSc
                       2
Eρ 2 =                         ore

          σ universeSc
            2
                      ore +  σ  2
                                relativeError

wobei σ2universeScore der Varianzkomponente in Bezug zu jedem Meßobjekt ist (dies entspricht
dem wahren Wert xT bei der klassischen Analyse. Bei einer Untersuchung mit nur einem ein-
zigen Generalisierungsaspekt entspricht der Koeffizient der G-Theorie somit dem der klassi-
schen Realibilität. Eine genauere empfehlenswerte Einführung in die G-Theorie findet sich bei
Finn/Kayande (1997), die betonen, daß G-Theorie eine großes Potential zur Optimierung von
Messungen hat..

31
     Parameswaran et al. (1979), S.20.
32
     Finn/Kayande (1997), S.263.
33
     Peter (1979),S.10.
34
     Finn/Kayande (1997): Verweis auf Cronbach et al (1972),
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39   10

3.2       Methoden der Messung von Validität

3.2.1 Externe und Interne Validitaet
Die externe Validitaet: bezieht sich auf die Übertragbarkeit spezifischer Marktforschunger-
gebnisse auf andere Außenbedingungen.35

Sie liegt dann vor, wenn das Ergebnis einer Untersuchung über die Stichprobe und die Unter-
suchungsbedingungen hinaus generalisierbar ist. Externe Validität sinkt, je unnatürlicher die
Untersuchungsbedingungen sind und je weniger repräsentativ die untersuchte Stichprobe für
die Grundgesamtheit ist36.

Die interne Validität beschreibt den Grad der eindeutigen Intepretierbarkeit, sie steigt mit
sinkender Anzahl plausibler Alternativerklärungen, wenn die Anzahl äußerer Störeinflüsse
reduziert wird37.

In der Regel stehen externe und interne Validität in einem Spannungsverhältnis zueinander.
Mit steigender interner Validität, etwa durch einen abgeschlossenen Studioversuch, sinkt die
externe Validität, weil der Versuch durch die Ausschaltung gewöhnlicherweise gegebener
Störeinflüsse reduziert wird38.

In der Internetumfrage ist die interne Validität nur schwer bestimmbar, weil äußere Störein-
flüsse auf die Befragten kaum feststellbar sind. Während die interne Validität denn auch
schon spätestens bei der Erfassung der Messungen bestimmt werden sollte, gibt es einige
Möglichkeiten auch nachträglich Validität festzustellen wie fortfolgend erläutert wird.

3.2.2 Inhaltsvaliditaet (Augenscheinvaliditaet und Expertenvaliditaet)
Die Inhaltsvalidität prüft die inhaltlich semantische Übereinstimmung zwischen dem vorlie-
genden Meßinstrument und dem Konstrukt auf Plausibilität. Sie fordert, daß die Untersu-
chungsinhalte eine repräsentative Auswahl der zu erfassenden Merkmale darstellen. Dies ist
insbesondere zur Beurteilung und der Erfassung aller relevanten Items von Bedeutung. Dabei

35
     Christof/Pepels 1998, S.45.
36
     Bortz (1999) S.7.
37
     vgl. Christof/Pepels S.44.
38
     vgl. Christof/Pepels S.44.
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39   11

ist Inhaltsvalidität entweder offensichtlich (Augenschein- oder Face-Validität) oder wird
durch Experten als valide beurteilt (Expertenvalidität) 39.

3.2.3 Konstruktvalidität (Konvergenz- und Diskriminanzvalidität)
Die Validitätsform, die sich direkt mit der Validierung der Umsetzung des theoretischen Kon-
struktes in die Realität beschäftigt ist die Konstruktvalidität. Sie mißt den Grad der Überein-
stimmung zwischen den Konstrukten und ihren Messungen40. Durch eine einfache Studie kann
Konstruktvalidität nicht abschließend bewiesen werden. Cronbach (1971) bemerkt vielmehr,
daß Konstruktvalidierung ein fortwährender Prozeß von Untersuchungen und Entwicklungen
ist. Eine verbreitete Methode ist die „Multitrait-Multimethod“ (MTMM) von Campbell und
Fiske (1959). Sie dient dem Nachweis von Diskriminanz- und Konvergenzvalidität und wird
als eine der wesentlichen Methoden zur Messung von Validität, die zudem noch mittels einer
kommerziellen Software wie SPSS durchzuführen ist, unter Punkt 3.3 als Methode gesondert
erwähnt. Die Konvergenzvalidität beschreibt die Übereinstimmung eines Konstruktes mit
verschiedenen Messinstrumenten, die Diskriminanzvalidität den Grad in dem andere Kon-
strukte bei der Messung ausgeschlossen sind41.

3.2.4 Kriteriumsvalidität (Prognose- und Übereinstimmungsvalidität)
Bei der Kriteriumsvalidität dient die Messung eines angemessenen Vergleichskriteriums als
Basis42. Unterschieden werden hier die Prognose- und die Übereinstimmungsvalidität (concur-
rent validity). Die Prognose-Validität stellt auf Übereinstimmung mit einer später zeitlich
erfolgenden Messung ab.

Die Übereinstimmungsvalidität bezeichnet den Vergleich von Messungen, die zum gleichen
Zeitpunkt vorliegen43.

3.2.5 Nomologische Validitaet
Die Nomologische Validität mißt ob eine beobachtete Beziehung zwischen Messungen ver-
schiedener Konstukte (welche konzeptuell zusammengehören) angehört44. Das Konstrukt er-
fordert somit eine Einbindung in einen übergeordneten theoretischen Rahmen45

39
     Keppler (1996) S.199.
40
     vgl. Keppler(1996).S.219.
41
     Huettner (1997).S.530.
42
     vgl. Keppler(1996) S. 218; vgl. Huettner(1997) S. 532
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39   12

3.3       Multitrait-Multimethod-(MTMM) Matrix zur Messung der
          Konstruktvalidität
Als ein Weg zum Abschätzen der Konstruktvalidität führten Campbell und Fiske (1959) die
MTMM Matrix ein. Sie ist eine Matrix von Korrelationen und dient der Abschätzung von
Konvergenz- und Diskrimanzvalidität. einer Messung46. Empfohlen wird, daß die unter-
schiedliche Konzepte (Traits) durch mehrere Methoden (auch Skalen) gemessen werden47.
Idealerweise mißt man jede Konzeption mit jeder Methode.

                                  Abbildung 2: Multitrait-Multimethod Matrix

Quelle: Trochim (1999), http://trochim.human.cornell.edu/kb/mtmmmat.htm, 30.8.1999

                                                        .

Die obige Grafik zeigt eine MTMM Matrix für drei Traits (Konzeptionen 1,2,3) von denen
jede durch drei verschiedene Methoden gemessen werden. Die MTMM Matrix ist also essen-
tiell eine Korrelationsmatrix zwischen den Messungen mit dem Unterschied, daß die Werte
der Diagonalen, die bei einer reinen Korrelationsmatrix den Wert ‚Eins‘ haben müßten, durch
die Schätzungen der Reliabilität (reliability diagonal) ersetzt werden.

43
     Huettner (1997).S.532.
44
     Peter (1981), S.135.
45
     Homburg/Giering (1996), S.7.
46
     Churchill (1979), S.70.
47
     Campbell/Fiske (1959), S.103.
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39   13

Die MTMM Matrix läßt sich in weitere Bereiche je nach Anwendung der Methoden unter-
gliedern, was die Orientierung auf der Matrix sehr unterstützt. Die Realibilitätsdiagonale (1)
hat in der Regel immer die höchsten Werte in der Matrix48. Sind die Realibilitäten niedriger,
so ist aller Wahrscheinlichkeit nach nur eine unzureichende Konsistenz der Daten vorhanden.
Die Validitätsdiagonalen (2) bilden sich aus den Koeffizienten, die das gleich Trait messen,
aber unterschiedliche Methoden benutzen (monotrait-heteromethods). Sie stellen einen Nach-
weis der Konvergenzvalidität dar49, welche dann gegeben ist, wenn sich ihre Werte signifi-
kant von Null unterscheiden. In dieser Systematik lassen sich nun auch die vier weiteren Ele-
mente der Matrix aufteilen50. So gibt es die Dreiecke, die die Korrelationen von Messungen
zweier Traits mit einer Methode darstellen (Heterotrait-Monomethod-Dreiecke(3)) und
umgekehrt (Heterotrait-Monomethod-Dreiecke(4)) und schließlich die Blöcke die mit glei-
chen (Monomethod Block (5)) und jene, die mit verschiedenen Methoden (Heteromethod
Block (6)) messen.

Die Bestimmung der Diskriminanzvalidität erfordert drei Vergleiche51. Erstens sollte der
Koeffizient auf der Validitätsdiagonale (Validitätskoeffizienten) größer sein als die anderen
Werte der Zeile und der Spalte in der er liegt. Zweitens sollten die Validitätskoeffizienten
auch größer sein als die Korrelationen im Heterotrait-Monomethod-Dreieck. Und drittens
sollte das Muster in allen Heterotrait-Dreiecken gleich sein, weil dann die Traits in Gegen-
überstellung zu den Methoden jeweils gleich signifikant sind, dieses läßt sich leicht durch
einen Rangordnungskoeffizienten berechnen.

Die Herangehensweise mittels der MTMM Matrix kann sehr hilfreich sein, besonders, wenn
nur wenige Attribute und Methoden involviert sind52. Nachteilig ist jedoch, daß die Prozedu-
ren von Campbell und Fiske (1959) keine Kriterien beinhalten, nach denen Operationalisie-
rungen als Konzepte ausgedrückt werden können. Das Ausmaß der Varianz von Konzept vs.
Methode, oder die Feststellung der Adäquanz einer gesamten MTMM Matrix53, wird jedoch
nur unter Zuhilfenahme der Kausalanalyse erreicht. Dies liegt nicht daran, daß die MTMM

48
     Trochim (1999): http://trochim.human.cornell.edu/kb/mtmmmat.htm, 30.8.1999.
49
     Churchill (1979), S.70.
50
     Trochim (1999): http://trochim.human.cornell.edu/kb/mtmmmat.htm, 30.8.1999.
51
     Churchill (1979), S.71.
52
     Malhotra (1988), S.11.
53
     Malhotra (1988) S.11.
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39           14

Matrix schwieriger zu erstellen ist, sondern daran, daß ihre Ergebnisse zuviel Interpretations-
spielraum bieten54.

3.4       Kausalanalyse zur Messung von Reliabilität und Validität
Die Kausalanalyse ist eine vergleichsweise neue Methode, Meßmodelle auf Reliabilität und
Validität zu untersuchen. Die Analyse ist mehr als nur eine einzelne Berechnung oder Schät-
zung, sondern eher ein regelrechtes Programm mit der Prüfung von mehreren Schritten. Histo-
risch gesehen hat sie sich aus verschiedenen Fachgebieten der Konfirmatorischen Faktorana-
lyse, den Strukturgleichungsmodellen und der Pfadanalyse entwickelt.

                         Abbildung 3 Historische Entwicklung der Kausalanalysei

     Konfimatorische Faktoranalyse            Strukturgleichungsmodelle       Pfadanalyse
            (Psychometrie)                         (Oekonometrie)             (Biometrie)

                                                        Kausalanalyse
                                                Quelle:Vgl. Homburg (1989).

Die Kausalanalyse kombiniert jedoch nicht nur verschiedene mathematische Herangehenswei-
sen, sondert unterscheidet sich auch in zwei wesentliche Herangehensweisen. Die explorato-
rische Faktorenanalyse untersucht die vorliegenden Indikatoren im Hinblick auf die ihnen
zugrunde liegende Faktorenstruktur. Bei der konfirmatorischen Faktorenanalyse liegen
vielmehr bereits Hypothesen vor. In dieser Arbeit wird die Kausalanalyse nur kurz umrissen,
weil die Komplexen Formeln mit SPSS nicht ausgeführt werden können. Benötigt wird viel-
mehr Standardsoftware wie zum Beispiel LISREL, EQS LVPLS sowie SAS55.

3.4.1 Exploratorische Faktoranalyse
Die exploratorische Faktorenanalyse wird von Homburg/Giering (1996) zusammen mit dem
Cronbach’schen Alpha und den Item-Total-Korrelationen als Ansätze der „ersten Generati-
on“56 bezeichnet. Die Verdichtung der Indikatoren durch dieses Verfahren läßt Schlüsse auf
die Konvergenz- und Diskriminanzvalidität zu. Auf die Darstellung weiterer Einzelheiten

54
     Trochim (1999): http://trochim.human.cornell.edu/kb/mtmmmat.htm, 30.8.1999.
55
     Homburg (1989), S.200ff.
56
     Homburg/Giering (1996), S.8.
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39   15

wird an dieser Stelle verzichtet, weil die Anwendung dieser Modelle deutlich am Sinken ist,
während die konfirmatorische Analyse sich als überlegen zeigt57 . Anderson/Gerbing (1988)
behaupten gar, daß die exploratorische Faktoranalyse durchaus als preliminäre Technik zur
Konstruktuktion von Skalen verwandt werden kann, daß aber die konfirmatorische Faktora-
nalyse gebraucht wird um die Skalen zu evaluieren und die resultierenden Skalen zu optimie-
ren58.

3.4.2 Konfirmatorische Faktoranalyse
Die konfirmatorische Faktorenanalyse ist ein Sonderfall des allgemeinen Modells der Kau-
salanalyse, die genauer als Kovarianzstrukturanalyse bezeichnet wird (Homburg Giering
(1996) S.9:,Bagozzi/Baumgartner (1994), S. 417.). Dieses Modell stellt sich aus zwei mathe-
matischen Bestandteilen zusammen, dem Meßmodell auf Basis der konfirmatorischen Fakto-
renanalyse und dem Strukturmodell auf Basis der Strukturgleichungsanalyse.

Die Vorgehensweise ist wie folgt: Zunächst erfolgt eine Parameterschätzung, dann eine Ge-
samtgütebeurteilung und folgend eine Beurteilung der Teilstrukturen des Meßmodells

Ihre Darstellung kann im Zusammenhang mit der Messung eines Konstrukts durch die Glei-
chung

x = Λ *ξ + δ

ausgedrückt werden, wobei x der Vektor der Indikatorvariablen, Λ die Matrix der Faktorla-
dungen, ξ der Vektor der latenten Faktoren und δ der Vektor der Meßfehler ist. Die Tatsache,
daß hier nicht mehr zwischen systematischen und zufälligen Meßfehlern unterschieden wird,
„impliziert, daß eine klare Trennung von Reliabilität und Validität ... nicht immer möglich
ist“.59

An die Parameterschätzung sollte eine Gütebeurteilung des nun entstandenen Meßmodells
anschliessen.

In erster Linie sind in diesem Zusammenhang der Chi-Quadrat Test (χ2-Test), der Goodneß-
of-fit Index (GFI) und der Determinationsköffizient des Meßmodells (TCD) von Bedeutung.

57
     Homburg (1996), S.9, Malhotra et al. (1999), S.172.
58
     Gerbing/Anderson (1988), S.189.
59
     Homburg/Giering (1996), S.9.
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39   16

Obgleich der Chi-Quadrat-Test Standard Bestandteil von SPSS ist und so als einziger Koeffi-
zient mittels dieser Software ausgegeben werden kann, macht eine weitere Erläuterung keinen
Sinn zumal Jöreskog und Sörbom (1989) empfehlen den χ2-Wert als deskriptives Anpas-
sungsmaß zu benutzen:

         χ2                 χ2
                    =
# derFreiheitsgrade 1
                         q(q + 1) − r
                       2
wobei r für die Anzahl der zu schätzenden Parameter und q die Anzahl von Indikatorvariablen
darstellt.

Der GFI und AGFI sind deskriptive Anpassungsmaße, sie dienen der Beurteilung von der
Diskrepanz zwischen der empirischen Kovarianzmatrix S und der theoretischen Kovarianz-
          ^
matrix Σ .

Die Teilstrukturen werden durch die Indikatorreliabilität, die Faktorreliabilität und die durch-
schnittliche erfaßte Varianz eines Faktors beurteilt. „Die Indikatorreliabilität gibt den für ein-
zelne beobachtete Variablen den Anteil der durch den zugehörigen Faktor erklärten Varianz
an der Gesamtvarianz dieser Variablen an“60. Die Faktorreliabilität und die durchschnittliche
erfaßte Varianz hingegen erfassen „wie gut der Faktor durch alle ihm zugeordneten Indikato-
ren gemeinsam gemessen wird.

4         Messen bzw. Schätzen
4.1       Messung der Inter-Rater oder Inter-Observer Reliabilität
Eine Messung der Inter-Rater-Reliabilität ist im Nachhinein nicht möglich, sondern muß be-
reits während des Tests durchgeführt werden.

4.2       Messung der Test-Retest Reliabilität
Für das Medium Internet ist der Test-Retest nur bedingt geeignet und wurde nicht beim GVU
durchgeführt. Voraussetzung wäre ein Passwortzugang oder eine Identifikation über einen
Cookie, damit sichergestellt werden kann, daß die gleiche Person beim zweiten Test getestet
wird. Schwieriger ist die Person dazu zu bewegen nach wenigen Wochen, den u.U. zeitrau-
benden Test nochmals durchzuführen. Auch kann nicht kontrolliert werden, unter welchen

60
     Homburg/Giering (1996), S.10.
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39   17

Bedingungen die Testpersonen den Test durchführen oder ob und welche Merkhilfen sie anle-
gen. Vom Kostenpunkt ist das Test-Retest Verfahren über das Internet jedoch der günstigste
Weg, da bei herkömmlichen Formen wieder hohe Personal- und Materialkosten anfallen.

Gemessen wird der Koeffizient einfach zwischen den zwei Tests. Beim 10. GVU Suvey wur-
de auch kein Test-Retest durchgeführt, so daß sich leider keine Zahlen vergleichen lassen. Die
Idee die Ergebnisse mit denen des sechs Monate älteren 9. Surveys zu vergleichen, erwies sich
auch nicht als umsetzbar, weil die Fragen geändert wurden und die Identifikation der Personen
nicht zwischen beiden Tests vorgenommen wurde..

4.3       Messung der Paralleltest-Reliabilität und Alternativtest-Reliabilität
Die Parallel-Test und Alternativtestreliabilitäten bestimmen die Konsistenz der Resultate
zweier aufgebauter Tests. Der Unterschied zwischen Paralleltest und der Alternativtest besteht
lediglich darin, daß der Alternativtest zeitverschoben durchgeführt wird61, während der Paral-
leltest zeitgleich stattfindet. Es werden zwei verschiedene, jedoch streng vergleichbare Erhe-
bungsinstrumente denselben Beobachtern vorgelegt und deren Ergebnisse korreliert62. Beide
Instrumente werden der gleichen Auswahl von Personen vorgelegt. Die Korrelation zwischen
diesen beiden Formen ist die Schätzung dieser Reliabilität. Das Hauptproblem dieser Anwen-
dung ist, ein Paare von Fragen zu bilden, die wirklich streng vergleichbar sind, daß also der
Durchschnitt, die Varianz und die Interkorrelation der Items äquivalent sind63. Daher stammt
auch die Bezeichnug Äquivalenzkoeffizient für diesen Reliabilitätsschätzer.

Im GVU ist keine Systematik zu erkennen, nach der ein Paralleltest vorbereitet worden ist, so
findet keine wirkliche Paralleltestberechnung statt, da SPSS gezwungenermaßen zufällige
Parallelformen bildet.

4.4       Messung der Interne-Konsistenz-Reliabilität mittels Split-Half-
          Reliabilität und Cronbach’s Alpha
Zur Messung der Reliabilität wählte ich Items, die ein gemeinsames Konzept und eine ge-
meinsame Skala haben, um eine Vergleichbarkeit zu gewährleisten.

61
     Trochim, (1999), http://trochim.human.cornell.edu/kb/reltypes.htm, 30.8.99.
62
     Keppler, (1996), S.197.
63
     Peter (1979), S.8.
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39         18

Die ersten Fragen wählte ich aus dem Bereich „Computer, Web and Internet Use“. Sie fragten
alle danach ob und wie eine Organisation das Web effizient nutzt.

             Tabelle 3: Liste der verwendeten Variablen aus Datei „spss_use.sav“:
          Merkmal Inhalt                                     Merkmalsskalierung

          Q05         Organisation uses Web effectively          Kategorial a
          Q06         ... to reach customers                     Kategorial a
          Q07         ... to streamline operations               Kategorial a
          Q08         ... to interact with customers             Kategorial a
          Q09         ... in training                            Kategorial a
          Q10         ... to reduce red tape                     Kategorial a
          a
            Es gab die 5 abgestuften Kategorien „strongly agree“ bis „strongly disagree“,
          plus eine Kategorie „nicht anwendbar“ (wurde nicht ausgewertet)
D.h. die Fragen bilden einen Fragenkomplex, nämlich effektive Nutzung des Web, und zwar
Q05: allgemein, Q06: um Kunden zu erreichen, Q07: um Operationen zu rationalisieren, Q08:
um mit Kunden zu interagieren, Q09: um es effektiv zur Ausbildung zu nutzen, und Q10: um
das Web zur Reduzierung von Bürokratie einzusetzen. Die Antwortmöglichkeiten reichten
mit fünf Skalenwerten von „Stimme stark zu“ bis „Stimme stark dagegen“, die sechste Mög-
lichkeit war eine Enthaltung für „Nicht Anwendbar/Wird Nicht Gemacht“. Diese sechste
Möglichkeit wurde zur Berechnung der Korrelationen als Fehlender Wert (missing value)
definiert, da sie keinen Wert auf der Skala darstellt. Dadurch reduzierte sich die Gruppengrö-
ße um etwa 40%. Es war anzunehmen, daß es hier starke Korrelationen und schließlich eine
hohe Reliabilität der Messung der Items geben würde. Dieses war deutlich der Fall: Mit einem
Cronbach’schen Alpha (Berechnung siehe Anhang 1) von 0,9163 und einer Split-Half Relia-
bilität (Berechnung siehe Anhang 2) von 0,91 ist an einer Reliabilität der Messung durch diese
Skalen kaum zu zweifeln. SPSS liefert eine Reihe von anderen Werten, die relevanten sind
markiert.

Abbildung 4: Cronbach’sches Alpha und Split-Half Reliabilität (Analyse am 10. GVU)
  R E L I A B I L I T Y            A N A L Y S I S       of    „Organization Uses Web Effectively...“

 N of Cases =             1767.0

Cronbach’s Alpha

Alpha =      .9163                 Standardized item alpha =        .9162

SPLIT-HALF ANALYSE

Reliability Coefficients                6 items

Correlation between forms =               .8348         Equal-length Spearman-Brown =     .9100

Guttman Split-half =                      .9095         Unequal-length Spearman-Brown =   .9100
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39       19

Alpha for part 1 =                        .8620         Alpha for part 2 =   .8362

 3 items in part 1               3 items in part 2

(Die Abbildung ist eine Kopie aus SPSS Output, siehe Anhang für Syntax)

4.5       Messung der Konstruktvalidität mittels der MTMM Matrix
Selbst eine kleine MTMM Matrix ist aus dem 10. GVU Survey nicht direkt zu erstellen, weil
sich keine Fragenkomplexe mit zwei Traits (Konzepten) finden lassen, die gleichzeitig mit
zwei Methoden (hier: Skalen) messen. Dennoch läßt sich eine solche Matrix mit vergleichs-
weise geringem Aufwand konstruieren. Die beiden gewählten Konzepte sind Fun (F) und Ar-
beit (A) mit dem Web. Die Methode 1 ist die Skala „strongly agree“ bis „strongly disagree“
(M1) und die Methode 2 die Skala „daily bis never“ (M2).

Die Daten werden direkt aus der Umfrage nach ‚Computer, Web und Internet Use‘ (Original-
Dateiname: spss_use.sav) genommen. Folgende Hypothesen wurden getroffen: Die Fragen
Q05 bis Q08 beschreiben das Konstrukt (A), ebenso die Fragen Q102 bis Q105. Die Fragen
Q115 bis Q118 sowie die Fragen Qn1 bis Qn4 beschreiben das Konstrukt Arbeit. Die Metho-
de 1 als Antwortmöglichkeit von den Fragen Q102 bis Q105 und von Q115 bis Q118 benutzt
die Methode 2 von den anderen beiden. Da dies das einzige Set war, daß sich zumindest der
MTMM Idee annähert, aber trotzdem nur drei von 4 notwendigen Fragekomplexen vorhanden
waren, wurden die Fragen Qn1 bis Qn4 sind frei ausgedacht und benutzen die Datensätze der
Fragen (Q5,Q6,Q9;Q10).

Zur Erstellung der MTMM Matrix werden zunächst die verschiedenen Reliabilitäten berech-
net, dann die Korrelationswerte und diese dann in der der MTMM – Matrix zusammengefügt
(siehe Anhang 3).
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39      20

                    Tabelle 4: Konstruierte MTMM-Matrix aus dem Datensatz (spss_use.sav)

                                              ÿþýüûú ø ÷þþúþþ                ÿþýüûú ÷þþ

                                          ý ø þý            ý                  ý ø þý           ý
                                                                                        ø           ø

                        ý ø þý
                                               ÿþýþü
    ÿþýüûú ø
÷þþúþþ      ý
                                                   ÿ        ÿ

                        ý ø þý
                                                   ÿ ýý             ÿü          ÿ
    ÿþýüûú                       ø
  ÷þþ           ý
                                                   ÿý           ÿ        ý          ÿ       ÿ
                                 ø

Die Validitätsprüfung kann nun Schritt für Schritt durchgeführt werden. Die Werte der Relia-
bilitätsdiagonale (A2A2,F2F2,A1A1,F1F1) sollen höher sein als alle anderen Werte der Ma-
trix, das ist fast der Fall, es gibt nur einen Ausreißer (F1A1). Die Konvergenzvalidität ist dann
erreicht, wenn sich die Werte auf der Validitätsdiagonale (A1A2,F1F2) signifikant von Null
unterscheiden. Dies ist nicht der Fall. Die Bestimmung der Diskriminanzvalidität liefert
ebenso keine zufriedenstellenden Ergebnisse. Erstens sollte der Koeffizient auf der Validitäts-
diagonale (Validitätskoeffizienten) größer sein als die anderen Werte der Zeile und der Spalte
in der er liegt, diese Bedingung ist verletzt (F2A2 > A1A2). Die anderen Bedingungen werden
damit auch nicht erfüllt, da die Heterotrait-Monomethod-Dreiecke bei dieser kleinen Matrix
nur aus jeweils einem Wert bestehen (F2A2,F1A1) und diese auch größer sind als die Werte
der Validitätsdiagonale. Und drittens sollte das Muster in allen Heterotrait-Dreiecken gleich
sein, also die Randgodungen zwischen den Koeffizienten gleich sein. Da die Prozedur "Biva-
riate Korrelationen" in SPSS bei dem Korrelationskoeffizienten nach Spearman ihre jeweili-
gen Signifikanzniveaus errechnet, läßt sich dieses auch direkt ablesen. Mit Korrelationen wer-
den die Beziehungen zwischen Variablen oder deren Rängen gemessen.
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39       21

Tabelle 5: Zweiseitiges Signifikanzniveau

                                                                 ø       ø

                                               ÿ
                                          ÿ             ÿ

                      ø                   ÿýþü              ÿþ       ÿ
                      ø                       ÿý        ÿý       ÿ       ÿ

 Man erkennt, daß auch das letzte Kriterium zur Erfüllung von Diskriminanzvalidität verletzt
    wurde, da F2A2 und F1A1 überhaupt nicht korrelieren. Der Grund des Versagens besteht
nicht in der Tatsache, daß F1 aus den Qn-Fragen konstruiert wurde, vielmehr deuten auch A2
    und F2 mit ihren niedrigen Reliabilitäten auf Inkonsistenzen bezüglich der Messung hin.

5         Zusammenfassung
Hierzu wird zunächst erläutert wie sich Meßfehler klassifizieren lassen, was Validität und
Reliabilität ist und welche Zusammenhänge zwischen ihnen bestehen. Des weiteren werden
die verschiedenen Methoden zur Schätzung der Reliabilität und Validität aufgeführt und zwei
herausragende Methoden, die Multitrait-Multimethod Matrix sowie die Kausalanalyse be-
trachtet. Anschließend werden die gewonnenen Erkenntnisse mittels SPSS umgesetzt.

Ziel der Arbeit war es einen Überblick über die Theorie der Reliabilität und Validität und ihre
Zusammenhänge zu bilden, die Methoden die es zur Einschätzung von Reliabilität und Vali-
dität einer Marktforschung gibt aufzuführen, zu erläutern und praktisch anzuwenden.

Festgestellt werden konnte, daß aufgrund des Zusammenhanges von Reliabilität und Validität
beides gemessen werden muß und daß modernere Verfahren wie die Kausalanalyse dieses
berücksichtigen.

Eine weitere wichtige Erkenntnis ist, daß viele Schätzmethoden eine Berücksichtigung schon
im Testdesign erfordern, da der Test auf sie angelegt sein muß (Paralleltest, Test-Retest).
Weiter ist es inbesondere aus Kostengründen ratsam auch schon vor der Durchführung des
Tests sogenannte Pre-Tests durchzuführen, die entscheiden ob das Test-Design reliable und
valide Ergebnisse liefert.
zilz_skiera_multivariat_thema2_280999, 11/08/99 10:39          22

Anhang

Anhang 1 Cronbach’s Alpha
RELIABILITY
  /VARIABLES=q05 q06 q07 q08 q09 q10
  /FORMAT=NOLABELS
  /SCALE(ALPHA)=ALL/MODEL=ALPHA.

Anhang 2 Split-Half-Reliabilität
RELIABILITY
  /VARIABLES=q05 q06 q07 q08 q09 q10
  /FORMAT=NOLABELS
  /SCALE(SPLIT)=ALL/MODEL=SPLIT..

Anhang 2 MTMM Matrix

                    Tabelle: Liste der verwendeten Variablen aus Datei „spss_use.sav“:

   Merkmal         Inhalt                                           Merkmalsskalierung   Gehört
                                                                                         zu

   Q05             Organisation uses Web effectively                Kategorial a         A1
   Q06             ... to reach customers                           Kategorial a         A1
   Q07             ... to streamline operations                     Kategorial a         A1
   Q08             ... to interact with customers                   Kategorial a         A1
                                                                                 a
   Qn1             Many of my collegues use the web for fun         Kategorial           F1
                                                                                 a
   Qn2             ... in internet games                            Kategorial           F1
                                                                                 a
   Qn3             ... by having social contact                     Kategorial           F1
   Qn4             ... in enhancing wisdom                          Kategorial a         F1
                                                                                 b
   Q102            Freq. of assessing Newsgroups                    Kategorial           A2
                                                                                 b
   Q103            ... Electronic News                              Kategorial           A2
                                                                                 b
   Q104            ... Product Information                          Kategorial           A2
   Q105            ... Purchases                                    Kategorial b         A2
                                                                                 b
   Q115            Freq. of Using the Web instead of watching TV    Kategorial           F2
                                                                                 b
   Q116            ... using phone                                  Kategorial           F2
                                                                                 b
   Q117            ... sleeping                                     Kategorial           F2
   Q118            ... exercising                                   Kategorial b         F2
          a
            Es gab die 5 abgestuften Kategorien „strongly agree“ bis „strongly disagree“,
          plus eine Kategorie „nicht anwendbar“ (wurde nicht ausgewertet)
          b
            Es gab die 5 abgestuften Kategorien „daily“, „weekly“, „monthly“, „less than once a
          month“, „never“

* Als erstes berechne ich die verschiedenen Reliabillitäten.
*T1,T2 sind Trait 1,2
*M1,M2 sind Methode 1,2
* A1 (T1M2)
RELIABILITY
  /VARIABLES=q05 q06 q07 q08
  /FORMAT=NOLABELS
  /SCALE(ALPHA)=ALL/MODEL=ALPHA.
Sie können auch lesen