Fishing for significance - Mag.a Antonia Griesbacher 8. Februar 2018 Tag der Mathematik - mug Graz

 
WEITER LESEN
Fishing for significance - Mag.a Antonia Griesbacher 8. Februar 2018 Tag der Mathematik - mug Graz
Fishing for significance

   Mag.a Antonia Griesbacher
   8. Februar 2018
   Tag der Mathematik

08.02.2018               Mag.a Antonia Griesbacher   1
Fishing for significance - Mag.a Antonia Griesbacher 8. Februar 2018 Tag der Mathematik - mug Graz
Klinische Studien für Dummys

                                                         Studie
             Studie planen
                                                      durchführen

                Daten                                   Daten
              auswerten                               aufbereiten

                                              05
                                        p < 0,
               p-Werte
              berechnen
                                       p ≥ 0,
                                             05

08.02.2018                Mag.a Antonia Griesbacher
                                                                    2
Fishing for significance - Mag.a Antonia Griesbacher 8. Februar 2018 Tag der Mathematik - mug Graz
Eine Katze, die sich in den Schwanz
beißt
óFebruar 2014, George Cobb, emeritierter
 Mathematikprofessor postet in einem Forum
óQ: „Why do so many colleges and grad schools teach p
 = 0.05?“
 A: „Because that‘s still what the scientific community
 and journal editors use.“
 Q: „Why do so many people still use p = 0.05?“
 A: „Because that‘s what they were taught in college or
 grad school.“

08.02.2018            Mag.a Antonia Griesbacher           3
Statistische Tests und
            Modellierung

08.02.2018      Mag.a Antonia Griesbacher   4
Von deskriptiver Statistik zur
Inferenzstatistik
óZiel: Aussagen über Gesamtpopulation
óIn Realität: Daten von der Gesamtpopulation oft nicht
 vorhanden
óLösung: Ziehe Stichprobe und triff Aussagen über die
 Gesamtpopulation
óFragestellungen:
      òÜberprüfung von Hypothesen
      òUntersuchung von Zusammenhängen zwischen
       Variablen

08.02.2018             Mag.a Antonia Griesbacher         5
Teilbereiche der Inferenzstatistik

                    Inferenzstatistik

         Schätzen           Testen               Modellieren

08.02.2018           Mag.a Antonia Griesbacher                 6
Wann werden statistische Tests
verwendet?
óZiel: Überprüfung einer Hypothese über die Population
 anhand einer Stichprobe
óKlassische Fragestellungen:
      òLiegen Messwerte im Schnitt über oder unter einem
       Grenzwert?
      òLiegt ein Anteilswert über oder unter einem Wert?
      òUnterscheiden sich zwei oder mehr Gruppen
       hinsichtlich eines Merkmals?
      òFolgen die Daten einer bestimmten Verteilung?
      òGibt es zwischen zwei Merkmalen einen
       Zusammenhang?

08.02.2018               Mag.a Antonia Griesbacher         7
Grundidee eines Tests
óStatistischer Test ist ähnlich „Beweis durch Widerspruch“
óStelle Hypothese auf und gehe vom Gegenteil aus
 („Angenommen meine Hypothese stimmt nicht“)
óBeispiel: „In der Schweiz gibt es mehr RaucherInnen als in Italien“
 Aber angenommen, der Anteil an RaucherInnen wäre in beiden
 Ländern gleich hoch
óBetrachte Ergebnis der Stichprobe
óWenn der Anteil gleich hoch ist, wie wahrscheinlich ist dann das
 Ergebnis der Stichprobe?
óWenn Wahrscheinlichkeit gering ist, dann ist Anteil der
 RaucherInnen wohl doch nicht gleich hoch (und die ursprüngliche
 Hypothese ist untermauert)

08.02.2018                Mag.a Antonia Griesbacher                 8
Fiktives Beispiel

             Rauchen   N-Rauchen
                                                       Ist das ein klarer Beweis, dass
  Schweiz    29 %      71 %                            die SchweizerInnen mehr
  Italien    28 %      72 %                            rauchen?

             Rauchen   N-Rauchen
                                                       Ist das ein klarer Beweis, dass
  Schweiz    75 %      25 %                            die SchweizerInnen mehr
  Italien    25 %      75 %                            rauchen?

             Rauchen   N-Rauchen

  Schweiz    3         1                                 …immer noch ein Beweis?
  Italien    1         3
08.02.2018                 Mag.a Antonia Griesbacher                               9
Aufbau eines statistischen
Testverfahrens
óFormuliere Hypothesen
      òH0: Nullhypothese
      òH1: Alternativhypothese – die soll bewiesen werden!
óLege Irrtumswahrscheinlichkeit α fest (oft 5% - ist reine
 Konvention!)
óBerechne Testgröße (auch: Teststatistik) aus den Daten der
 Stichprobe
      òTestgröße hat immer etwas mit der Fragestellung zu tun
       (Unterschied zwischen Mittelwerten/Anteilen etc.)
      òOft fließt auch Streuung der Daten mit ein
      òTestgröße ist eine Zufallsgröße mit bestimmter Verteilung

08.02.2018                  Mag.a Antonia Griesbacher              10
Aufbau eines statistischen
Testverfahrens
óBerechne p-Wert: „Wie hoch ist die Wahrscheinlichkeit
 für die berechnete Testgröße oder ein noch extremeres
 Ergebnis unter der Annahme, dass H0 gilt? “
óWenn p-Wert unter α liegt à H0 verwerfen, H1
 annehmen à das Ergebnis ist signifikant
óWenn p-Wert über α liegt à H0 beibehalten
óp-Wert ist abhängig von
      òder Stärke des beobachteten Effekts (≙Testgröße)
      òGröße der Stichprobe
      òMessgenauigkeit in den Daten

08.02.2018               Mag.a Antonia Griesbacher        11
Beispiel Gauß-Test
óZiel: Vergleich des Mittelwerts mit Grenzwert
óVoraussetzung:
      òDaten sind (annähernd) normalverteilt
      òStandardabweichung ist bekannt (à realistisch?)
óHypothesen
      òH0: µ ≥ µ0      H 0: µ ≤ µ 0                        H 0: µ = µ 0
      òH1: µ < µ0      H 1: µ > µ 0                        H 1: µ ≠ µ 0
óTestgröße
                       $# − &'
                    !=         ~ ,(0,1)
                        (/ *     Standardfehler des
                                             Mittelwerts
08.02.2018               Mag.a Antonia Griesbacher                        12
Beispiel Gauß-Test
óAbfüllanlage für Getränke
óMaschine füllt im Mittel 0,515 l ab mit einer
 Standardabweichung von 0,005 l.
óMonatlich wird anhand einer Stichprobe getestet, ob
 sich die mittlere Abfüllmenge von 0,515 l verändert hat.
 Wenn ja, wird nachjustiert.
óH0: µ = 0,515        H1: µ ≠ 0,515
óStichprobe n = 20:
      òMittelwert 0,5134 l à Abweichung 0,0016 l
óBerechnung der Testgröße
              $ (
              %&'        ",-./0&",-.-"
      ò!" =          =                       = −1,431
              )/ +         ",""-/ 1"

08.02.2018                    Mag.a Antonia Griesbacher   13
Beispiel Gauß-Test
óBerechnung des p-Werts:
      òP(|Z| > 1,431) = 0,1524 = 15,24%
      òW‘kt, für eine Testgröße unter Gültigkeit von H0, die
       mindestens so extrem ist wie 1,431 beträgt 15,24%
      òD.h. W‘kt, dass eine völlig intakte Maschine eine
       Stichprobe mit durchschnittlicher Abweichung von
       0,0016 l produziert, beträgt 15,24%
óTestentscheidung
      ò15,24% > α = 5%
      òErgebnis ist statistisch nicht signifikant
      òH0 wird beibehalten
             ñ gehen davon aus, dass Maschine in Ordnung ist
             ñ d.h. es wird NICHT nachjustiert

08.02.2018                        Mag.a Antonia Griesbacher    14
Beispiel Gauß-Test
óTestgröße Z ist standardnormalverteilt
óα = 5%

08.02.2018           Mag.a Antonia Griesbacher   15
Statistische Modellierung
óBeziehung zwischen Zielvariable Y (abhängige
 Variable) und unabhängigen, erklärenden Variablen
 Xi
óXi können metrisch oder kategoriell sein!
óz.B. Lineares Modell mit n erklärenden Variablen

             ! "# , … , "& = ( ) + ( # "# + ⋯ + ( & "& + ,
      β … unbekannte Modellkoeffizienten
      ε … Fehlerterm (Zufallselement) ~ N(0,s)

08.02.2018                 Mag.a Antonia Griesbacher         16
Lineare Regression

                                                                 Regressionsgerade
                                                                             / = 23 + 25 6
                                                                             0
    Y                  Vorhersagewert +*

intercept              c
                                                                + − +* = 8 (Residuum)
                 d
    b0
             c/d = b1 … Anstieg           beobachteter Wert +

                                                                                        X
08.02.2018                        Mag.a   Antonia Griesbacher                           17
Aufgaben der Modellierung
óFinde Koeffizienten à Parameterschätzung
óTesten, ob Modell signifikant ist (ANOVA):
 “Wird die Vorhersage durch das Modell verbessert im
 Vergleich zum Raten (z.B. Mittelwert) oder einem
 anderen Modell?”
óTesten auf signifikante Modellkoeffizienten: “WELCHE
 Xi sind nützlich für die Vorhersage?”
óVorhersage von neuen Beobachtungen auf Grundlage
 von erklärenden Variablen

08.02.2018           Mag.a Antonia Griesbacher          18
Nichts ist wirklich sicher

08.02.2018   Mag.a Antonia Griesbacher   19
Auf den Punkt gebracht

             „All models are wrong,
              but some are useful.“
               George E. P. Box (britischer Statistiker)

08.02.2018        Mag.a Antonia Griesbacher           20
Die Krux mit dem Beweis

Frage: Ab wann habe ich mit meiner Schätzung / meinem
Test etwas bewiesen?

              GAR NIE!
ABER:
Wenn das Ergebnis einer statistischen Aus-wertung
eine geringe Irrtumswahrscheinlichkeit hat, wird die
Ergebnis als „Beweis“ angesehen.
08.02.2018          Mag.a Antonia Griesbacher          21
Type I und Type II error
(α- und β-Fehler)

    aus: P. Ellis: The Essential Guide to Effect Sizes
08.02.2018                         Mag.a Antonia Griesbacher   22
Fehlertypen und Power

óStatistische Tests sind immer mit Vorsicht zu genießen!
óα-Fehler: H1 angenommen, aber H0 wäre richtig
óβ-Fehler: H1 konnte nicht „bewiesen“ werden, obwohl
 sie korrekt ist
óPower einer Studie
      òWahrscheinlichkeit beim vorhandenen Design der
       Studie auch tatsächlich eine korrekte H1 nachweisen zu
       können
óPower eines Tests (Teststärke): Die Fähigkeit eines
 Tests, bei korrekter H1 ein signifikantes Ergebnis zu
 liefern

08.02.2018                Mag.a Antonia Griesbacher             23
Im Nachhinein ist‘s leichter
óHypothesen, α-Level, Power für geplante Analysen
 müssen IM VORHINEIN festgelegt werden
óÄndern von z.B. Hypothesen im Nachhinein führt zu
 verzerrten Ergebnissen!
óBeispiel (© H.P. Stüger): Cowboy in Texas!
      òSchieße auf Scheune mit Revolver
      òMale um Einschusslöcher die Zielscheibe
      òGib mit deinen Schießkünsten im Saloon an!

08.02.2018               Mag.a Antonia Griesbacher   24
Relevant oder nicht, das ist hier die
Frage
óViele Fehlschlüsse bei Ergebnissen von statistischen
 Auswertungen möglich:
      ò„Das Ergebnis ist signifikant! Hurra, wir haben etwas
       bewiesen!“
      ò„Mist. Das Ergebnis ist nicht signifikant. Unsere
       Hypothese wahr wohl falsch.“
óp-Wert wird beeinflusst von
      òGröße des Effekts
      òStichprobengröße
óFolgen:
      òn sehr groß à sogar minimale Effekte signifikant
      òn sehr klein à auch große Effekte nicht signifikant

08.02.2018                 Mag.a Antonia Griesbacher           25
p-Werte wo man nur hinsieht
óMultiples Testen:
      òBetrifft Untersuchungen mit vielen Variablen, wo viele
       statistische Tests durchgeführt werden
      òProblem: Signifikante Ergebnisse treten auf, obwohl H1
       falsch ist
      òWahrscheinlichkeit für falsch pos. Ergebnis: 0,05
      òWahrscheinlichkeit von mind. 1 falsch positivem
       Ergebnis bei Tests von 10 falschen H1:
       P(mind. 1 falsch pos. Erg.) = 1 – P(kein falsch pos. Erg) =
       1 – 0,9510 = 0,401 ≈ 40%!

             Alphafehler-Kumulierung
08.02.2018                 Mag.a Antonia Griesbacher                 26
Fishing for significance

                                           © A. Griesbacher
08.02.2018     Mag.a Antonia Griesbacher                  27
p-Werte sind umstritten
óStatistische Inferenz ist in Fachkreisen umstritten
óManche meinen, p-Werte sind grundsätzlich ungeeignet
 und produzieren viele falsche Ergebnisse
ó"P values are a health hazard. The more of them you see on
 a computer printout, the less meaningful they are.“
   (Wilkinson L: SYSTAT: The system of statistics. Evanston, Illinois: SYSTAT, Inc., 1986.)
óManche sagen, dass falsche Ergebnisse vor allem dann
 zustande kommen, wenn Analysen von Personen
 durchgeführt werden, die nicht ausreichend statistisch
 gebildet sind.
óDie Konvention einer Signifikanzgrenze von 5% ist komplett
 willkürlich!

08.02.2018                             Mag.a Antonia Griesbacher                              28
Fehlschlüsse und ihre Folgen
óGlaubwürdigkeit der Statistik leidet
óPatientInnen mit schweren Leiden erlitten Schaden
óWissenschaftlerInnen bemühen sich vergeblich,
 signifikante Ergebnisse zu reproduzieren
óDie Öffentlichkeit lernt, Studien nicht mehr zu trauen
 (Stichwort „Fake News“)
(Berry, D.A.: „P-values are not what they‘re cracked up to be“, Supplementary Material
to the ASA‘s Statement on p-values“)
óPublikationsbias à Studien mit signifikanten
 Ergebnissen werden eher publiziert
      òMeta-Analysen können helfen, diesen Bias aufzudecken

08.02.2018                        Mag.a Antonia Griesbacher                          29
ASA‘s Statement on p-Values
ASA … American Statistical Association
Wasserstein, R.L. & Lazar, N.A., THE AMERICAN STATISTICIAN,
2016, VOL 70, NO. 2, 129 - 133
1. p-Werte zeigen an, wie inkompatibel die Daten mit einem
   speziellen statistischen Modell sind
      § Ausgangslage H0
      § Wie gut passen H0 und Ergebnisse der Stichprobe zusammen?
      § Wenn p-Wert gering à verwerfe H0
2. p-Werte messen NICHT die Wahrscheinlichkeit, dass die
   Nullhypothese richtig ist, oder die Wahrscheinlichkeit,
   dass die Daten rein zufällig so zustande gekommen sind

08.02.2018                Mag.a Antonia Griesbacher            30
ASA‘s Statement on p-Values
3. Wissenschaftliche Schlussfolgerungen und
   wirtschaftliche bzw. politische Entscheidungen sollen
   nicht nur darauf basieren, ob ein p-Wert unter einem
   bestimmten Grenzwert liegt.
      § WissenschaftlerInnen sollen nicht nur p-Werte
        publizieren, sondern auch das Studiendesign, Qualität
        der Messergebnisse, Gültigkeit der getroffenen
        Annahmen für Modellierung etc.
4. Korrekte Inferenzstatistik erfordert vollständiges
   Berichten und Transparenz
      § ALLE Studienergebnisse müssen in einer Publikation
        enthalten sein, nicht nur jene, die signifikante
        Ergebnisse liefern!

08.02.2018                Mag.a Antonia Griesbacher             31
ASA‘s Statement on p-Values
5. Ein p-Wert oder statistische Inferenz misst nicht die
   Größe eines Effekts oder die Wichtigkeit eines
   Resultats!
      § Kleine p-Werte sind nicht gleichbedeutend mit großen
        oder wichtigen Effekten
      § Große p-Werte sind nicht gleichbedeutend mit
        unwichtigen oder nicht vorhandenen Effekten
6. Nur für sich genommen bietet ein p-Wert kein gutes
   Maß für einen Beweis für die Gültigkeit eines Modells
   oder einer Hypothese
      § Ein großer p-Wert ist KEIN Hinweis darauf, ob die
        Nullhypothese stimmt!
08.02.2018                Mag.a Antonia Griesbacher            32
Zusammenfassung

08.02.2018        Mag.a Antonia Griesbacher   33
Fazit
óViele Menschen haben Probleme, Statistiken richtig zu
 interpretieren
óStatistiken mit reinen p-Wert-Angaben sollen immer
 hinterfragt werden
óStatistische Tests und statistische Modelle sind immer
 mit einer gewissen Irrtums-wahrscheinlichkeit behaftet
óWichtig ist zu wissen, was p-Werte aussagen und vor
 allem, was nicht!

             Dazu ist statistisches Grundwissen
             unabdinglich!
08.02.2018               Mag.a Antonia Griesbacher    34
Was Statistik ist
ó„Statistik ist eine Wanderkarte. Wenn man sie zu sehen
 bekommt, ist sie von der Realität schon etwas überholt.
 Dennoch gibt sie Orientierung. Man muss sie mit
 Verstand lesen können, sonst geht man in die Irre.“ (M.
 Kruse)

ó„Statistik ist für mich das Informationsmittel der
 Mündigen. Wer mit ihr umgehen kann, kann weniger
 leicht manipuliert werden. Der Satz: „Mit Statistik kann
 man alles beweisen“ gilt nur für die Bequemen, die
 keine Lust haben, genau hinzusehen.“ (E. Noelle-
 Neumann)

08.02.2018            Mag.a Antonia Griesbacher         35
Sie können auch lesen