Fishing for significance - Mag.a Antonia Griesbacher 8. Februar 2018 Tag der Mathematik - mug Graz
←
→
Transkription von Seiteninhalten
Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten
Fishing for significance Mag.a Antonia Griesbacher 8. Februar 2018 Tag der Mathematik 08.02.2018 Mag.a Antonia Griesbacher 1
Klinische Studien für Dummys Studie Studie planen durchführen Daten Daten auswerten aufbereiten 05 p < 0, p-Werte berechnen p ≥ 0, 05 08.02.2018 Mag.a Antonia Griesbacher 2
Eine Katze, die sich in den Schwanz beißt óFebruar 2014, George Cobb, emeritierter Mathematikprofessor postet in einem Forum óQ: „Why do so many colleges and grad schools teach p = 0.05?“ A: „Because that‘s still what the scientific community and journal editors use.“ Q: „Why do so many people still use p = 0.05?“ A: „Because that‘s what they were taught in college or grad school.“ 08.02.2018 Mag.a Antonia Griesbacher 3
Statistische Tests und Modellierung 08.02.2018 Mag.a Antonia Griesbacher 4
Von deskriptiver Statistik zur Inferenzstatistik óZiel: Aussagen über Gesamtpopulation óIn Realität: Daten von der Gesamtpopulation oft nicht vorhanden óLösung: Ziehe Stichprobe und triff Aussagen über die Gesamtpopulation óFragestellungen: òÜberprüfung von Hypothesen òUntersuchung von Zusammenhängen zwischen Variablen 08.02.2018 Mag.a Antonia Griesbacher 5
Teilbereiche der Inferenzstatistik Inferenzstatistik Schätzen Testen Modellieren 08.02.2018 Mag.a Antonia Griesbacher 6
Wann werden statistische Tests verwendet? óZiel: Überprüfung einer Hypothese über die Population anhand einer Stichprobe óKlassische Fragestellungen: òLiegen Messwerte im Schnitt über oder unter einem Grenzwert? òLiegt ein Anteilswert über oder unter einem Wert? òUnterscheiden sich zwei oder mehr Gruppen hinsichtlich eines Merkmals? òFolgen die Daten einer bestimmten Verteilung? òGibt es zwischen zwei Merkmalen einen Zusammenhang? 08.02.2018 Mag.a Antonia Griesbacher 7
Grundidee eines Tests óStatistischer Test ist ähnlich „Beweis durch Widerspruch“ óStelle Hypothese auf und gehe vom Gegenteil aus („Angenommen meine Hypothese stimmt nicht“) óBeispiel: „In der Schweiz gibt es mehr RaucherInnen als in Italien“ Aber angenommen, der Anteil an RaucherInnen wäre in beiden Ländern gleich hoch óBetrachte Ergebnis der Stichprobe óWenn der Anteil gleich hoch ist, wie wahrscheinlich ist dann das Ergebnis der Stichprobe? óWenn Wahrscheinlichkeit gering ist, dann ist Anteil der RaucherInnen wohl doch nicht gleich hoch (und die ursprüngliche Hypothese ist untermauert) 08.02.2018 Mag.a Antonia Griesbacher 8
Fiktives Beispiel Rauchen N-Rauchen Ist das ein klarer Beweis, dass Schweiz 29 % 71 % die SchweizerInnen mehr Italien 28 % 72 % rauchen? Rauchen N-Rauchen Ist das ein klarer Beweis, dass Schweiz 75 % 25 % die SchweizerInnen mehr Italien 25 % 75 % rauchen? Rauchen N-Rauchen Schweiz 3 1 …immer noch ein Beweis? Italien 1 3 08.02.2018 Mag.a Antonia Griesbacher 9
Aufbau eines statistischen Testverfahrens óFormuliere Hypothesen òH0: Nullhypothese òH1: Alternativhypothese – die soll bewiesen werden! óLege Irrtumswahrscheinlichkeit α fest (oft 5% - ist reine Konvention!) óBerechne Testgröße (auch: Teststatistik) aus den Daten der Stichprobe òTestgröße hat immer etwas mit der Fragestellung zu tun (Unterschied zwischen Mittelwerten/Anteilen etc.) òOft fließt auch Streuung der Daten mit ein òTestgröße ist eine Zufallsgröße mit bestimmter Verteilung 08.02.2018 Mag.a Antonia Griesbacher 10
Aufbau eines statistischen Testverfahrens óBerechne p-Wert: „Wie hoch ist die Wahrscheinlichkeit für die berechnete Testgröße oder ein noch extremeres Ergebnis unter der Annahme, dass H0 gilt? “ óWenn p-Wert unter α liegt à H0 verwerfen, H1 annehmen à das Ergebnis ist signifikant óWenn p-Wert über α liegt à H0 beibehalten óp-Wert ist abhängig von òder Stärke des beobachteten Effekts (≙Testgröße) òGröße der Stichprobe òMessgenauigkeit in den Daten 08.02.2018 Mag.a Antonia Griesbacher 11
Beispiel Gauß-Test óZiel: Vergleich des Mittelwerts mit Grenzwert óVoraussetzung: òDaten sind (annähernd) normalverteilt òStandardabweichung ist bekannt (à realistisch?) óHypothesen òH0: µ ≥ µ0 H 0: µ ≤ µ 0 H 0: µ = µ 0 òH1: µ < µ0 H 1: µ > µ 0 H 1: µ ≠ µ 0 óTestgröße $# − &' != ~ ,(0,1) (/ * Standardfehler des Mittelwerts 08.02.2018 Mag.a Antonia Griesbacher 12
Beispiel Gauß-Test óAbfüllanlage für Getränke óMaschine füllt im Mittel 0,515 l ab mit einer Standardabweichung von 0,005 l. óMonatlich wird anhand einer Stichprobe getestet, ob sich die mittlere Abfüllmenge von 0,515 l verändert hat. Wenn ja, wird nachjustiert. óH0: µ = 0,515 H1: µ ≠ 0,515 óStichprobe n = 20: òMittelwert 0,5134 l à Abweichung 0,0016 l óBerechnung der Testgröße $ ( %&' ",-./0&",-.-" ò!" = = = −1,431 )/ + ",""-/ 1" 08.02.2018 Mag.a Antonia Griesbacher 13
Beispiel Gauß-Test óBerechnung des p-Werts: òP(|Z| > 1,431) = 0,1524 = 15,24% òW‘kt, für eine Testgröße unter Gültigkeit von H0, die mindestens so extrem ist wie 1,431 beträgt 15,24% òD.h. W‘kt, dass eine völlig intakte Maschine eine Stichprobe mit durchschnittlicher Abweichung von 0,0016 l produziert, beträgt 15,24% óTestentscheidung ò15,24% > α = 5% òErgebnis ist statistisch nicht signifikant òH0 wird beibehalten ñ gehen davon aus, dass Maschine in Ordnung ist ñ d.h. es wird NICHT nachjustiert 08.02.2018 Mag.a Antonia Griesbacher 14
Beispiel Gauß-Test óTestgröße Z ist standardnormalverteilt óα = 5% 08.02.2018 Mag.a Antonia Griesbacher 15
Statistische Modellierung óBeziehung zwischen Zielvariable Y (abhängige Variable) und unabhängigen, erklärenden Variablen Xi óXi können metrisch oder kategoriell sein! óz.B. Lineares Modell mit n erklärenden Variablen ! "# , … , "& = ( ) + ( # "# + ⋯ + ( & "& + , β … unbekannte Modellkoeffizienten ε … Fehlerterm (Zufallselement) ~ N(0,s) 08.02.2018 Mag.a Antonia Griesbacher 16
Lineare Regression Regressionsgerade / = 23 + 25 6 0 Y Vorhersagewert +* intercept c + − +* = 8 (Residuum) d b0 c/d = b1 … Anstieg beobachteter Wert + X 08.02.2018 Mag.a Antonia Griesbacher 17
Aufgaben der Modellierung óFinde Koeffizienten à Parameterschätzung óTesten, ob Modell signifikant ist (ANOVA): “Wird die Vorhersage durch das Modell verbessert im Vergleich zum Raten (z.B. Mittelwert) oder einem anderen Modell?” óTesten auf signifikante Modellkoeffizienten: “WELCHE Xi sind nützlich für die Vorhersage?” óVorhersage von neuen Beobachtungen auf Grundlage von erklärenden Variablen 08.02.2018 Mag.a Antonia Griesbacher 18
Nichts ist wirklich sicher 08.02.2018 Mag.a Antonia Griesbacher 19
Auf den Punkt gebracht „All models are wrong, but some are useful.“ George E. P. Box (britischer Statistiker) 08.02.2018 Mag.a Antonia Griesbacher 20
Die Krux mit dem Beweis Frage: Ab wann habe ich mit meiner Schätzung / meinem Test etwas bewiesen? GAR NIE! ABER: Wenn das Ergebnis einer statistischen Aus-wertung eine geringe Irrtumswahrscheinlichkeit hat, wird die Ergebnis als „Beweis“ angesehen. 08.02.2018 Mag.a Antonia Griesbacher 21
Type I und Type II error (α- und β-Fehler) aus: P. Ellis: The Essential Guide to Effect Sizes 08.02.2018 Mag.a Antonia Griesbacher 22
Fehlertypen und Power óStatistische Tests sind immer mit Vorsicht zu genießen! óα-Fehler: H1 angenommen, aber H0 wäre richtig óβ-Fehler: H1 konnte nicht „bewiesen“ werden, obwohl sie korrekt ist óPower einer Studie òWahrscheinlichkeit beim vorhandenen Design der Studie auch tatsächlich eine korrekte H1 nachweisen zu können óPower eines Tests (Teststärke): Die Fähigkeit eines Tests, bei korrekter H1 ein signifikantes Ergebnis zu liefern 08.02.2018 Mag.a Antonia Griesbacher 23
Im Nachhinein ist‘s leichter óHypothesen, α-Level, Power für geplante Analysen müssen IM VORHINEIN festgelegt werden óÄndern von z.B. Hypothesen im Nachhinein führt zu verzerrten Ergebnissen! óBeispiel (© H.P. Stüger): Cowboy in Texas! òSchieße auf Scheune mit Revolver òMale um Einschusslöcher die Zielscheibe òGib mit deinen Schießkünsten im Saloon an! 08.02.2018 Mag.a Antonia Griesbacher 24
Relevant oder nicht, das ist hier die Frage óViele Fehlschlüsse bei Ergebnissen von statistischen Auswertungen möglich: ò„Das Ergebnis ist signifikant! Hurra, wir haben etwas bewiesen!“ ò„Mist. Das Ergebnis ist nicht signifikant. Unsere Hypothese wahr wohl falsch.“ óp-Wert wird beeinflusst von òGröße des Effekts òStichprobengröße óFolgen: òn sehr groß à sogar minimale Effekte signifikant òn sehr klein à auch große Effekte nicht signifikant 08.02.2018 Mag.a Antonia Griesbacher 25
p-Werte wo man nur hinsieht óMultiples Testen: òBetrifft Untersuchungen mit vielen Variablen, wo viele statistische Tests durchgeführt werden òProblem: Signifikante Ergebnisse treten auf, obwohl H1 falsch ist òWahrscheinlichkeit für falsch pos. Ergebnis: 0,05 òWahrscheinlichkeit von mind. 1 falsch positivem Ergebnis bei Tests von 10 falschen H1: P(mind. 1 falsch pos. Erg.) = 1 – P(kein falsch pos. Erg) = 1 – 0,9510 = 0,401 ≈ 40%! Alphafehler-Kumulierung 08.02.2018 Mag.a Antonia Griesbacher 26
Fishing for significance © A. Griesbacher 08.02.2018 Mag.a Antonia Griesbacher 27
p-Werte sind umstritten óStatistische Inferenz ist in Fachkreisen umstritten óManche meinen, p-Werte sind grundsätzlich ungeeignet und produzieren viele falsche Ergebnisse ó"P values are a health hazard. The more of them you see on a computer printout, the less meaningful they are.“ (Wilkinson L: SYSTAT: The system of statistics. Evanston, Illinois: SYSTAT, Inc., 1986.) óManche sagen, dass falsche Ergebnisse vor allem dann zustande kommen, wenn Analysen von Personen durchgeführt werden, die nicht ausreichend statistisch gebildet sind. óDie Konvention einer Signifikanzgrenze von 5% ist komplett willkürlich! 08.02.2018 Mag.a Antonia Griesbacher 28
Fehlschlüsse und ihre Folgen óGlaubwürdigkeit der Statistik leidet óPatientInnen mit schweren Leiden erlitten Schaden óWissenschaftlerInnen bemühen sich vergeblich, signifikante Ergebnisse zu reproduzieren óDie Öffentlichkeit lernt, Studien nicht mehr zu trauen (Stichwort „Fake News“) (Berry, D.A.: „P-values are not what they‘re cracked up to be“, Supplementary Material to the ASA‘s Statement on p-values“) óPublikationsbias à Studien mit signifikanten Ergebnissen werden eher publiziert òMeta-Analysen können helfen, diesen Bias aufzudecken 08.02.2018 Mag.a Antonia Griesbacher 29
ASA‘s Statement on p-Values ASA … American Statistical Association Wasserstein, R.L. & Lazar, N.A., THE AMERICAN STATISTICIAN, 2016, VOL 70, NO. 2, 129 - 133 1. p-Werte zeigen an, wie inkompatibel die Daten mit einem speziellen statistischen Modell sind § Ausgangslage H0 § Wie gut passen H0 und Ergebnisse der Stichprobe zusammen? § Wenn p-Wert gering à verwerfe H0 2. p-Werte messen NICHT die Wahrscheinlichkeit, dass die Nullhypothese richtig ist, oder die Wahrscheinlichkeit, dass die Daten rein zufällig so zustande gekommen sind 08.02.2018 Mag.a Antonia Griesbacher 30
ASA‘s Statement on p-Values 3. Wissenschaftliche Schlussfolgerungen und wirtschaftliche bzw. politische Entscheidungen sollen nicht nur darauf basieren, ob ein p-Wert unter einem bestimmten Grenzwert liegt. § WissenschaftlerInnen sollen nicht nur p-Werte publizieren, sondern auch das Studiendesign, Qualität der Messergebnisse, Gültigkeit der getroffenen Annahmen für Modellierung etc. 4. Korrekte Inferenzstatistik erfordert vollständiges Berichten und Transparenz § ALLE Studienergebnisse müssen in einer Publikation enthalten sein, nicht nur jene, die signifikante Ergebnisse liefern! 08.02.2018 Mag.a Antonia Griesbacher 31
ASA‘s Statement on p-Values 5. Ein p-Wert oder statistische Inferenz misst nicht die Größe eines Effekts oder die Wichtigkeit eines Resultats! § Kleine p-Werte sind nicht gleichbedeutend mit großen oder wichtigen Effekten § Große p-Werte sind nicht gleichbedeutend mit unwichtigen oder nicht vorhandenen Effekten 6. Nur für sich genommen bietet ein p-Wert kein gutes Maß für einen Beweis für die Gültigkeit eines Modells oder einer Hypothese § Ein großer p-Wert ist KEIN Hinweis darauf, ob die Nullhypothese stimmt! 08.02.2018 Mag.a Antonia Griesbacher 32
Zusammenfassung 08.02.2018 Mag.a Antonia Griesbacher 33
Fazit óViele Menschen haben Probleme, Statistiken richtig zu interpretieren óStatistiken mit reinen p-Wert-Angaben sollen immer hinterfragt werden óStatistische Tests und statistische Modelle sind immer mit einer gewissen Irrtums-wahrscheinlichkeit behaftet óWichtig ist zu wissen, was p-Werte aussagen und vor allem, was nicht! Dazu ist statistisches Grundwissen unabdinglich! 08.02.2018 Mag.a Antonia Griesbacher 34
Was Statistik ist ó„Statistik ist eine Wanderkarte. Wenn man sie zu sehen bekommt, ist sie von der Realität schon etwas überholt. Dennoch gibt sie Orientierung. Man muss sie mit Verstand lesen können, sonst geht man in die Irre.“ (M. Kruse) ó„Statistik ist für mich das Informationsmittel der Mündigen. Wer mit ihr umgehen kann, kann weniger leicht manipuliert werden. Der Satz: „Mit Statistik kann man alles beweisen“ gilt nur für die Bequemen, die keine Lust haben, genau hinzusehen.“ (E. Noelle- Neumann) 08.02.2018 Mag.a Antonia Griesbacher 35
Sie können auch lesen