Der Hund, der Eier legt - Hans-Hermann Dubben, Hans-Peter Beck-Bornholdt Leseprobe aus
←
→
Transkription von Seiteninhalten
Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten
Leseprobe aus: Hans-Hermann Dubben, Hans-Peter Beck-Bornholdt Der Hund, der Eier legt Mehr Informationen zum Buch finden Sie auf rowohlt.de. Copyright © 1997, 2001, 2006 by Rowohlt Verlag GmbH, Reinbek bei Hamburg
Inhalt Vorwort 15 Ohne Panik positiv 17 Aussagekraft von Früherkennungsuntersuchungen Wir backen uns eine Schlagzeile 29 Zufällige und echte Häufung Statistik für Kuchenesser 30 Wie sieht eine zufällige Verteilung aus? Über Zufälle und Ursachen: ein Leukämieszenario 31 Ein Unglück kommt selten allein 42 Zeitliche Häufungen Zufall oder Zustand 45 Fehler erster Art Mehr oder weniger Alkohol am Steuer 45 Was heißt «statistisch signifikant»? Eine heilige Kuh 46 Die Bedeutung der Signifikanz Herausforderung zum Schussfolgern 47 Das Signifikanzniveau, der p-Wert und die Nullhypothese Quadratisch, praktisch, gut 52 Der einfache und nützliche Vierfeldertest 5
Neue Besen kehren gut! – Oder? 56 Ein Beispiel für den Vierfeldertest aus der Medizin Unsinn mit Niveau 57 Die Konvention eines fünfprozentigen Signifikanzniveaus Mit der Schrotflinte in den Porzellanladen 61 Mehrfachtests Die unerträgliche Leichtigkeit der Signifikanz 61 Das Prinzip von Mehrfachtests «Ergebnisse» wie Sand am Meer 64 Die Problematik von Mehrfachtests Kompost oder Komposition 72 Zusammengesetzte Endpunkte Reiseroulette mit alten Autos 77 Mehrfachrisiken Von Spekulanten und Scharfschützen 78 Mehrfachtests Ein Spiel mit gezinkten Würfeln 81 Reproduzierbarkeit Heute mal ganz ausgelassen 85 Unterschlagung von Informationen Reden ist Silber, Schweigen ist Gold 85 Verschweigen von Daten Heiße Luft? 87 Globale Erwärmung Hitzefrei 90 Der heißeste 8. Juni der letzten hundert Jahre Land in Sicht! 91 Steigende Meeresspiegel? 6
Was ich nicht weiß, macht mich nicht heiß 93 Verschweigen von Daten in der Krebsforschung Not macht erfinderisch 98 Betrug durch Hinzudichten von Ergebnissen Wo bleibt das Negative? 101 Unausgewogene Berichterstattung in der Wissenschaft – publication bias Auf Spurensuche 103 Wie entsteht publication bias? Modeerscheinungen in der Wissenschaft 111 Durch Pausen unterbrochene Strahlentherapie von Tumoren Das Negative des Positiven 113 Folgen unausgewogener Berichterstattung in der Wissenschaft . . . es wäre doch so einfach! 115 Registrierung klinischer Studien Fußball, Zufall, Sensationen 118 Permutationen, Kombinationen, Binomialstatistik Kerzen, Kabel, Kaffeekränzchen 118 Permutationen Das Fußballstadion als Rouletteschüssel 121 Interpretation eines Spielergebnisses Tischfußball 123 Kombinationen Die Bundesliga 127 Vierfeldertest im Fußball Den Letzten beißen die Hunde 132 Binomialverteilung light Der zarteste Versuch, seit es Schokolade gibt 135 Binomialverteilung heavy 7
Keine Schwalbe macht noch keinen Herbst 138 Statistik seltener Ereignisse Im Nebel nach Überseh 140 Der Fehler zweiter Art Der Übersehfehler 142 Fehler zweiter Art Jubiläum eines beliebten Irrtums 144 Verbreitung und Resistenz des Fehlers zweiter Art in der medizinischen Literatur Die Sichtverderber 145 Wovon der Fehler zweiter Art abhängt Wer suchet, der findet 150 Der minimale relevante Unterschied Die Qual vor der Wahl 152 Wahlprognosen (Un)heimliche Verluste 155 Die weit reichenden Konsequenzen des Fehlers zweiter Art Mit der Wahrheit lügen 161 Manipulationsmöglichkeiten bei der Darstellung von Ergebnissen Daten auf der Streckbank 162 Manipulierte Koordinatenachsen . . . es wirkt 165 Effekte der Ergebnispräsentation Sehhilfe 167 Manipulative Führung des Auges Do it yourself 170 Wer selbst manipuliert, fällt nicht mehr so leicht darauf herein 8
Die Ursache aus Anlass des Grundes 172 Kausalität und Korrelation Kein Rauch ohne Feuer 174 A ist die Ursache von B Der Sonne Bahn lenkt der Hahn 175 B ist die Ursache von A Zu viel des Guten? 176 A und B haben eine gemeinsame Ursache Der Segen der globalen Erwärmung 178 Nicht-kausale zeitliche Beziehungen Von Schnäbeln und Vögeln 182 Systematische Fehler: Inhomogenitätskorrelation Der Hutskandal 184 Der ökologische Fehlschluss Babylonische Sprachverwirrung 188 Interpretations- und Übertragungsfehler Keiner versteht mich 188 Interpretation von Sprache Vom Original zum Lehrsatz: das Stille-Post-Prinzip 195 Fehlerhafte Informationsübertragung Computermärchen 202 Computersimulationen und Rechenmodelle Das Genuesische Zepter 202 Naturkonstanten auf einem prähistorischen Fund Lady Dis Baseballkappe 211 Über wissenschaftliche Spekulationen 9
Wahlkreistango, kriminelle Vereinigungen und krebsresistente Linkshänder 214 Datenschiebereien und Paradoxa Der Hund, der Eier legt 214 Verwechslung von Anzahl und Anteil Kriminelle Vereinigung 222 Unzulässiges Gruppieren von Daten Schwimmen wie ein Fisch . . . 227 Unfaire Vergleiche Zweimal verloren und doch gewonnen 229 Simpsons Paradoxon Alles wird besser, obwohl sich nichts verändert 234 Das Will-Rogers-Phänomen und stage migration Hurra: Gesunde gesünder als Kranke 238 Intention-to-treat-Analyse Rotwein und tot sein 241 Verzerrung durch Selektion Gleichheit durch blinden Zufall 245 Randomisierung und Verblindung, Cluster-Randomisierung Warten statt starten 248 Surrogatmarker als Endpunkte Viel Blech ist noch lange kein Auto 250 Der so genannte impact factor Mit Sicherheit daneben 256 Objektivität der Wissenschaft und subjektive Interessen – Falsifizierbarkeit Das Orakel von Elphi 257 Beharrungsvermögen falscher Vorstellungen Ratte beim Tango 260 Vermeintliche Gesetzmäßigkeiten im Chaos 10
Aufruf zum Kaffeekränzchen 265 Vorschläge zum kritischen Lesen von klinischen Studien Nur jeder zweite Mann ein Mensch? 268 Interpretation statistischer Signifikanztests beruht auf Trugschluss Mit Logik keine Panik 269 Täuschung bei der Früherkennung Alles egal, oder? 270 Die Nullhypothese Irren ist menschlich 271 Interpretation eines statistisch signifikanten Ergebnisses Schwamm ist ein vorzügliches Material . . . 276 Vom Wesen der Wissenschaft Dank 280 Anhang 282 Für diejenigen, die alles ganz genau wissen wollen I. Wie viele Zufallsergebnisse kann man erwarten? 282 Anzahl der zufällig signifikanten Ergebnisse bei Mehrfachtests II. Maximale Inzidenzen 284 Maximale Häufigkeit seltener Ereignisse III. Medianwert und 95-Prozent-Vertrauensbereich 285 IV. Prüfgröße und Fehler erster Art (p-Wert) 293 V. Auflösung der Manipulationsaufgaben von Seite 170 295 VI. Auflösung des Kartenspiels 297 Literatur 299 Register 311 11
12
Eigentlich weiß man nur, wenn man wenig weiß; mit dem Wissen wächst der Zweifel. Johann Wolfgang von Goethe 13
14
Vorwort Die Wahrheit triumphiert nie, ihre Gegner sterben nur aus. Max Planck Irren ist menschlich. Durch Versuch und Irrtum erkennen wir un- sere Welt. Einige Irrtümer allerdings schaffen trotz klarer Widerle- gungen den Sprung ins Lehrbuch. Einmal in Büchern oder Köpfen angelangt, können sie kaum noch korrigiert werden. Unser Buch beschreibt eine Auswahl dieser Irrtümer, ihre Entste- hung, ihre Resistenz gegen Widerlegungen und ihre Ausbreitungs- mechanismen. Die Forschung ist gegenwärtig eher darauf angelegt, Quantität zu produzieren. Allein in den biomedizinischen Fach- zeitschriften werden jährlich mehrere Millionen Artikel veröffent- licht, von denen die meisten wertlos sind. Qualität in Form von so- liden Ergebnissen ist nicht gefragt. Eine unüberschaubare Flut von Desinformation begräbt die tatsächlich neuen Erkenntnisse unter sich und behindert den wissenschaftlichen Fortschritt. Wir wollen dazu beitragen, dass dies nicht so bleibt. Zusammengerechnet blicken wir auf 60 Berufsjahre in der biome- dizinischen Forschung zurück. Zeit genug, um reichlich eigene Fehler zu begehen und auf eigene Trugschlüsse hereinzufallen. Die meisten der in diesem Buch dargestellten Fehler haben wir vom Prinzip her selbst irgendwann begangen. Da aber unsere For- schungsergebnisse nicht so bedeutend sind, sind unsere Irrtümer zu belanglos, um hier ausgebreitet zu werden. Bedeutendere Wissen- schaftler haben da ganz einfach Bedeutenderes geleistet. Deshalb berichten wir im Wesentlichen über die viel wichtigeren, weil ein- flussreicheren Trugschlüsse anderer Wissenschaftler. Außerdem ist es bekanntlich viel einfacher, vor der Tür anderer zu kehren, als sich an die eigene Nase zu fassen. Dieses Buch ist unvollständig, denn die Vielfalt der Irrtümer ist grenzenlos. Viele der hier aufgeschriebenen Gedanken haben an- 15
dere bereits vor uns gedacht, doch sind sie nur selten beherzigt worden. Wir sind dennoch überzeugt, dass diese Einführung in die Zwickmühlen der Forschung brisant und unterhaltsam ist. Brisant vor allem deshalb, weil die Grenze zwischen Irrtum und Wissen- schaftsbetrug nicht immer eindeutig verläuft. Der Text hat Risiken und Nebenwirkungen. Wir weisen auch dann auf Probleme hin, wenn wir keine Lösung anbieten können. Trotz vordergründig vergnüglicher Darreichungsform birgt dieses Buch die Gefahr nachhaltiger Verunsicherung, steigert allerdings gleichzeitig die Kritikfähigkeit. Der Hund, der Eier legt entstand aus dem Skriptum unserer Vor- lesung «Vom Irrtum zum Lehrsatz», die wir am Fachbereich Me- dizin der Universität Hamburg gehalten haben und die 1996 mit dem «Fischer-Appelt-Preis für hervorragende Leistungen in der akademischen Lehre» ausgezeichnet wurde. Hamburg, im April 1997 Wir danken unseren Lesern für die vielen wertvollen Hinweise. Auch weiterhin sind wir an Kritik und Anregungen sehr interes- siert (E-Mail: dubben@uke.uni-hamburg.de oder bebo@uke.uni- hamburg.de; Postadresse: Universitätsklinikum Hamburg-Eppen- dorf, Martinistraße 52, 20246 Hamburg). Dem Rowohlt Verlag danken wir für die Gelegenheit, unser Buch für diese Neuauflage zu ergänzen, zu aktualisieren und zu korrigieren. Hamburg, im Juli 2006 16
Ohne Panik positiv Aussagekraft von Früherkennungs- untersuchungen Gesundheit bezeichnet den Zustand eines Menschen, der nicht häufig genug untersucht wurde. Dirk Maxeiner und Michael Miersch Trugschlüsse und Irrtümer sind ansteckend wie Windpocken, und wie ansteckende Krankheiten breiten sie sich aus. Wer eine Infek- tion überstanden hat, ist danach häufig immun gegen erneuten Be- fall, und wer einen Trugschluss erst einmal erkannt hat, fällt auf ihn nicht mehr so leicht herein. Mit diesem Buch möchten wir Ihre Widerstandskraft gegen Irrtümer und Trugschlüsse stärken. Sie sind soeben aus einem herrlichen Urlaub in einem fernen exotischen Land zurückgekehrt. Es ist touristisch noch fast uner- schlossen und Sie haben sich prächtig erholt. Während Ihres Auf- enthalts haben Sie erfahren, dass es dort eine seltene Erkrankung gibt, die Canine Ovorhoe, auch Bellsucht genannt. Die Anste- ckungsgefahr für Touristen ist zwar gering, dennoch entschließen Sie sich, bei Ihrem Arzt einen Test durchführen zu lassen, da die Heilungschancen bei einer Früherkennung deutlich besser sind als nach dem Ausbruch der Krankheit. Ein paar Tage nach der Unter- suchung ruft Ihr Arzt Sie an und offenbart Ihnen, dass Ihr Test positiv ist. Es sind also Hinweise auf eine Canine Ovorhoe gefun- den worden. Ihr Arzt gibt Ihnen zusätzlich folgende Informatio- nen: 1. Zur Zuverlässigkeit des Tests sagt er Ihnen, dass durch ihn die Bellsucht bei 99 von 100 Menschen, die von ihr infiziert sind, er- kannt wird – nur einer wird übersehen. In 99 Prozent der Untersu- chungen Erkrankter liefert der Test also ein positives und richtiges Ergebnis, in 1 Prozent der Fälle ein negatives und falsches. An- dererseits werden von 100 Nichtinfizierten 98 auch als gesund erkannt. Nur zwei geraten fälschlich in den Verdacht, krank zu sein (und zu denen möchten Sie gehören). Der Test liefert also in 17
98 Prozent der Untersuchungen Gesunder ein negatives und rich- tiges Ergebnis, in 2 Prozent ein positives und falsches. 2. Über die Bellsucht erfahren Sie, dass sie nur etwa bei jedem tausendsten Touristen, der in dem exotischen Land war, auftritt, sich aber zunächst durch keine Symptome zu erkennen gibt. 3. Da Ihr Testergebnis positiv war, ist zur weiteren Abklärung ein kleiner chirurgischer Eingriff unter Narkose erforderlich, ver- bunden mit einem dreitägigen Klinikaufenthalt. Der Test identifiziert mit 99-prozentiger Sicherheit die Erkrank- ten und mit 98-prozentiger Sicherheit die Gesunden. Er ist also sehr zuverlässig. Und er ist bei Ihnen positiv ausgefallen. Besteht Grund, sich ernsthafte Sorgen zu machen? Sie setzen sich in den Sessel, erholen sich vom ersten Schock und überlegen sich das Ganze in Ruhe. Wie groß ist die Wahrscheinlichkeit, dass Sie an Caniner Ovorhoe leiden? Bitte kreuzen Sie an: Da mein Testergebnis positiv ist, bin ich mit folgender Wahrschein- lichkeit (in Prozent) bellsüchtig: 99 98 etwa 95 etwa 50 etwa 5 2 1 Sie werden hoffentlich nicht in Panik geraten und, bevor Sie eine Operation überhaupt in Erwägung ziehen, auf einer Wiederholung des Tests bestehen. Hier die Überlegungen dazu (da man bei vielen Zahlen leicht durcheinander gerät, haben wir die Tabelle 1 – siehe Seite 19 – erstellt): Nehmen wir an, dass sich 100 100 Menschen, aus dem exoti- schen Land zurückgekehrt, diesem Test unterziehen. Da sich nur jeder Tausendste angesteckt hat, sind unter den Getesteten unge- fähr 100 Kranke und 100 000 Gesunde zu erwarten. Bei 99 der 100 Bellsüchtigen wird die Infektion durch den Test korrekt festgestellt 18
und bei einem fälschlich übersehen (99-prozentige Sicherheit, die Erkrankten zu erkennen). Von den 100 000 Nichtinfizierten stuft der Test 98 000 richtig als gesund ein (98-prozentige Sicherheit, die Gesunden zu erkennen), den Rest, das heißt 2000 gesunde Men- schen, irrtümlicherweise als krank. Insgesamt wurden 99 + 2000 = 2099 Menschen mit einem positiven Testergebnis erschreckt. Die Wahrscheinlichkeit, dass Sie mit Ihrem positiven Test zu den 99 tatsächlich Bellsüchtigen gehören, beträgt 99 / 2099 = 0,0472 be- ziehungsweise 4,72 Prozent oder etwa 5 Prozent. Diese Zahl ist die Lösung in unserem Wahrscheinlichkeitsquiz. In der Regel wird ein wesentlich höheres Risiko erwartet. Sollten auch Sie falsch getippt haben, dann befinden Sie sich in guter Gesellschaft. Wir haben auf Tagungen und Seminaren dieselbe Frage gestellt und anonym be- antworten lassen. Egal ob wir Apotheker, niedergelassene Ärzte, Medizinstudenten, Patientenberater oder medizinische Laien be- fragten: Das Antwortspektrum war immer sehr ähnlich. Nur etwa jeder zehnte Befragte gab die richtige Antwort. Weit über die Hälfte schätzte die Erkrankungswahrscheinlichkeit viel zu hoch (über 90 Prozent) ein. Vermutlich lassen sich die meisten durch die hohe Zuverlässigkeit des Tests (99 Prozent und 98 Prozent) beir- ren, während die geringe Ansteckungswahrscheinlichkeit über- sehen wird. Erschütternd ist dabei, dass dies für Wissenschaftler, die zum Teil als Spezialisten für prädiktive Tests angesehen wer- den, genauso gilt wie für Laien. Sie lassen den Test nach einiger Zeit wiederholen.1 Jeder gute Mediziner hätte Ihnen das ohnehin vorgeschlagen. Mit Bedauern teilt Ihnen der Arzt mit, das Ergebnis sei wieder positiv. Was nun? 1 Ein zweiter Test ist nur dann sinnvoll, wenn er unabhängig vom ersten erfolgt. Dies ist nicht immer möglich. Bei der Mammographie beispiels- weise wird eine nach wenigen Tagen durchgeführte zweite Untersuchung praktisch dasselbe Bild ergeben wie die erste. Bei der im weiteren Text fol- genden Berechnung unterstellen wir außerdem, dass kein systematischer Fehler vorliegt. Dies könnte beispielsweise bei einer Blutuntersuchung der Fall sein, die zu einem positiven Befund geführt hat, weil der Patient nicht nüchtern war, als ihm Blut abgenommen wurde. Wenn er auch bei der zweiten Blutabnahme nicht nüchtern ist, wird sich wieder das gleiche fal- sche Ergebnis einstellen. 19
Sie können auch lesen