Herbstworkshop zum Thema "Methodisch Probleme in Diagnostischen Studien" - Institut für Medizinische Statistik ...

Die Seite wird erstellt Ariane Merz
 
WEITER LESEN
Herbstworkshop zum Thema "Methodisch Probleme in Diagnostischen Studien" - Institut für Medizinische Statistik ...
Herbstworkshop zum Thema
„Methodisch Probleme in Diagnostischen Studien“

                     am 22./23. November 2012

in der Abteilung Medizinische Statistik, Universitätsmedizin Göttingen

                           Beteiligte AG’s:

                   AG Epidemiologische Methoden

              AG Statistische Methoden in der Medizin

           AG Statistische Methoden in der Epidemiologie

         AG Statistische Methodik in der klinischen Forschung

                       der Fachgesellschaften:

                                  1
Workshop-Programm

Donnerstag, 22.11.2012 (Epi-/EBM-Tag)

13:00 14:00 Ankommen und Mittagessen
14:00 14:10 Begrüßung und Organisatorisches (Antonia Zapf, AMS)
Einführung
14:10 14:20 Überblick zum Workshop (Juliane Hardt, IMIBE)
14:20 15:05 Lars Beckmann            IQWIG Köln            RCTs und diagnostische Tests – Studiendesigns und Interpretation
15:05 15:10 Kurzpause
Diagnostische Studien in der Evidenzbasierten Medizin – Validierung klinischer Tests und Scores
15:10 15:30 Heiko                    DKFZ Heidelberg       Zahnmedizinische Untersuchungen im Rahmen der Feasibility-Studien für die Nationale Kohorte: Erste Ergebnisse
                Zimmermann
15:30 15:50 Christian Kopkow         TU Dresden            Klinische Tests zur Diagnostik von Rupturen des hinteren Kreuzbandes – eine systematische Literaturanalyse
Diagnostische Studien und Psychometrie: Validierung von Fragebögen und Skalen
15:50 16:10 Silke Jörgens            UK Münster            Subtypisierung der Depression in epidemiologischen Studien
16:10 16:25 Kaffeepause
Diagnostische Studien in der Epidemiologie – Validierung von Biomarkern und Prognosefaktoren
16:25 16:45 Nadine Bonberg           IPA Bochum            PURE und UroScreen als Beispiele von Biomarkerstudien
16:45 17:05 Saskia Hartwig           Uni Halle-            Validierung des German-Diabetes-Risk-Scores innerhalb einer bevölkerungsbezogenen, repräsentativen Kohorte
                                     Wittenberg
17:05 17:25 Sha Tao                  DKFZ Heidelberg       Sensitivity estimates of blood based tests for colorectal cancer detection: impact of overrepresentation of
                                                           advanced stage disease
17:25 17:30 Kurzpause
Freie Statistik-Vorträge
17:30   17:50   Steffen Unkel        Uni Gießen           A statistical approach for shedding light on routes of transmission of infectious diseases
17:50   18:10   Hatice Ünal          Uni Ulm              Spatial Clusters of the amyotrophic lateral sclerosis (ALS): Results of the population based ALS registry Swabia
19:00   20:00   Stadtführung
20:00           Abendessen

                                                                                    2
Freitag, 23.11.2012 (Statistik-Tag)

09:00 09:30 AG-Sitzungen (parallel)
09:30 09:35 Kurzpause
Statistische Methoden in Diagnostischen Studien
09:35 09:55 Kristin                  DIfE Potsdam        Evaluation von Verbesserungen bei Risikoprädiktionsmodellen: Einfluss der gewählten Risikokategorien auf den Net
                Mühlenbruch                              Reclassification Improvement
09:55 10:15 Michael Schneider MHH Hannover               Angewendete Methoden zur systematischen Untersuchung der diagnostischen Wertigkeit von multiplen
                                                         diagnostischen Tests
10:15 10:35 Daniela Wenzel            MHH Hannover       Difference of two Dependent Sensitivities and Specificities: Comparison of Various Approaches
10:35 10:50 Kaffeepause
10:50 11:10 Katharina Lange           UM Göttingen       Analyse verschiedener diagnostischer Gütemaße in faktoriellen Versuchsanlagen
Diagnostische Meta-Analysen
11:10 11:30 Wiebke Sieben             IQWIG Köln         Zusammenfassung diagnostischer Studien – ein Vorschlag zur Vorgehensweise
11:30 11:50 Gerta Rücker              Uni Freiburg       Modelling of ROC curves in meta-analysis of diagnostic test accuracy studies
11:50 11:55 Kurzpause
11:55 12:15 Annika Hoyer              LMU München        Statistical Methods for Meta-Analysis of Diagnostic Tests accounting for Prevalence – A new Model using trivariate
                                                         Copulas
12:15   12:35    Oliver Kuss          Uni Halle-         Meta-analysis for the comparison of two diagnostic tests to a common gold standard: First experiences with
                                      Wittenberg         quadrivariate statistical models
12:35   12:50    Feedback & Ausblick
12:50   13:30    Ausklingen und Austausch bei Brötchen und Getränken

                                                                                    3
Abstracts

(in der Reihenfolge wie im Programm)

                 4
Titel:           RCTs und diagnostische Tests – Studiendesigns und Interpretation
Autoren:         Lars Beckmann1, Johanna Buncke2, Ralf Bender1, Fülöp Scheibler1
Institute:       1: Institut für Qualität und Wirtschaftlichkeit im Gesundheitswesen (IQWiG)
                 2: Johannes Gutenberg-Universität Mainz
Email:           lars.beckmann@iqwig.de, jbuncke@students.uni-mainz.de , ralf.bender@iqwig.de
                 fueloep.scheibler@iqwig.de
Abstract:

Der therapeutische Nutzen eines diagnostischen Tests lässt sich nicht anhand der diagnostischen
Güte als Surrogat beurteilen. Analog zur Beurteilung des Nutzens von Medikamenten sind dazu
randomisierte kontrollierte Studien (Randomised Controlled Trials, RCTs) in Zusammenhang mit
spezifischen Therapien notwendig. In der Literatur werden verschiedene theoretische Studiendesigns
für die Durchführung von RCTs für die Nutzenbewertung von diagnostischen Tests diskutiert [1-3].
Vereinfacht lassen sich die Designs in drei Gruppen einteilen: das Anreicherungsdesign, die Marker-
basierte Strategie und das Interaktionsdesign.

Aufbauend auf den Ergebnissen eines systematisches Reviews zu publizierten und geplanten RCTs zur
Positronenemissionstomographie [4] diskutieren wir die Studiendesigns hinsichtlich der Frage, in wie
weit die Studien geeignet sind, den Nutzen eines Tests nachzuweisen. So können RCTS basierend auf
dem Anreicherungsdesign oder der Marker-basierten Strategie nicht a priori als Nutzenstudien bzgl.
eines Tests angesehen werden. Vielmehr hängt die Interpretation der Ergebnisse von
Voraussetzungen bzgl. der involvierten Therapien ab. Dagegen können Interaktionsdesigns, in denen
theoretisch ein Nutzen ohne weitere Voraussetzungen abgeleitet werden kann, aus praktischen und
ethischen Erwägungen nicht immer, bzw. nur mit Informationsverlust, durchgeführt werden.

Des Weiteren diskutieren wir in wie weit die Rolle eines Tests in der diagnostischen Kette im
Versorgungsalltag sich in RCTs wiederspiegeln kann und welche Punkte bei der Auswertung und
Interpretation zu beachten sind.

Zusammenfassend lässt sich sagen, dass RCTs zur Nutzenbewertung von diagnostischen Tests
prinzipiell immer durchführbar sind. Die Wahl eines spezifischen Studiendesigns hängt von
praktischen und ethischen Voraussetzungen ab ebenso wie von a priori Annahmen über die
Therapien, in deren Zusammenhang der Test angewendet wird. Alternative Ansätze wie die
Verwendung der diagnostischen Güte als Surrogat sowie Linked Evidence sind kritisch zu sehen,
wenn die Studien als Grundlage für evidenzbasierte Entscheidungen dienen sollen.

Literatur:

1.      Janatzek, S., Nutzen diagnostischer Tests – vom Surrogat zur Patientenrelevanz. Z Evid
Fortbild Qual Gesundhwes, 2011. 105(7): p. 504-9.
2.       Lijmer, J.G. and P.M. Bossuyt, Various randomized designs can be used to evaluate medical
tests. J Clin Epidemiol, 2009. 62(4): p. 364-73.
3.        Sargent, D.J., et al., Clinical trial designs for predictive marker validation in cancer treatment
trials. J Clin Oncol, 2005. 23(9): p. 2020-7.
4.      Scheibler, F., et al., Randomized controlled trials on PET: a systematic review of topics,
design, and quality. J Nucl Med, 2012. 53(7): p. 1016-25.

                                                      5
Zahnmedizinische Untersuchungen im Rahmen der Feasibility-Studien für
die Nationale Kohorte: Erste Ergebnisse

Zimmermann H.¹, Hagenfeld D.², Beldoch M.², Zimmermann N.², El Sayed N.², Diercke K.², Kaaks R.³,
Greiser K.H.³, Fricke J.³, Seydel H.³, Ramroth H.¹, Schmitter M.², Kocher T.⁴, Kühnisch J.⁵, Kim T.-S.²,
Becher H.¹

¹ Institute of Public Health, University Hospital Heidelberg, Germany
² Section of Periodontology, Department of Conservative Dentistry, University Hospital Heidelberg, Germany
³ Division of Cancer Epidemiology, German Cancer Research Center (DKFZ), Heidelberg, Germany
⁴ Department of Periodontology, Policlinics for Restorative Dentistry, Periodontology and Endodontology,
Greifswald,Germany
⁵ Section of Pediatric Dentistry, Policlinics for Restorative Dentistry and Periodontology, University Hospital of
Munich,Germany

Eine der Studien zur Vorbereitung der nationalen Kohorte [1] beschäftigte sich mit der Erhebung der
Zahngesundheit. Das primäre Ziel war die Untersuchung der Machbarkeit, die Untersuchung der
benötigten Zeiten, sowie die Frage, wie zuverlässig eine geschulte Studienassistentin die Erhebung
des Zahnstatus vornehmen kann.
Es wurden 405 Probanden in 3 Zentren (Augsburg (n=79), Greifswald (n=111) und Heidelberg
(n=215)) rekrutiert, die u.a. im Hinblick auf zahnmedizinische Parameter wie Zahnstatus,
Taschentiefen [2], Attachmentlevel und Plaque untersucht wurden. In Heidelberg wurde die
Untersuchung      mit   einer    anderen      Machbarkeitsstudie,      der     Untersuchung   von
Rekrutierungsmöglichkeiten für Migranten, kombiniert. In Heidelberg waren nach Abschluss der
Studie im Mai 2012 96 Probanden deutscher Nationalität (43m/ 53w), 69 türkischstämmige
Probanden (31m/ 38w) und 50 Aussiedler (18m/ 32w) aus der früheren Sowjetunion rekrutiert. Zur
Kompensation sprachlicher Barrieren bei Migranten wurde sowohl die Rekrutierung, als auch die
Untersuchung durch zusätzliches mehrsprachiges Personal sowie entsprechende Instrumentarien
unterstützt. In diesem Beitrag werden Ergebnisse der in Heidelberg rekrutierten Probanden
vorgestellt. Es wurden Analysen zu Reliabilität, Sensitivität bei Taschentiefenmessungen zwischen
Zahnarzt und Studienassistentin durchgeführt. Zur Überprüfung der Übereinstimmung wurde auf
Maße wie Kappa und zur Veranschaulichung auf Bubbleplots zurückgegriffen.
Ergebnisse: Das mittlere Alter der deutschen Probanden beträgt 43.66 (21-69), bei den
türkischstämmigen Probanden 39.93 (18-66), und bei den Aussiedlern 44.14 (20-67) Jahre. Die
Mehrheit der Zahnfleischtaschentiefe der deutschen Probanden liegt unter 4 mm. Bei 33.2% der
Deutschen wurden Taschentiefen ≥5mm gemessen. Mit zunehmender Erfahrung der
Studienassistentin konnte eine Verringerung der erforderlichen Zeit für die Erhebung des
Parodontalstatus festgestellt werden. Migranten sind deutlich schwieriger zu einer Studienteilnahme
zu motivieren. Die durchschnittliche Dauer der zahnmedizinischen Untersuchungen ist bei Migranten
signifikant höher.
[1] http://www.nationale-kohorte.de/wissenschaftliches-konzept.html
[2] Development of the World Health Organization (WHO) community periodontal index of
treatment needs (CPITN), Int Dent J. 1982 Sep

                                                         6
Klinische Tests zur Diagnostik von Rupturen des hinteren Kreuzbandes – eine systematische
Literaturanalyse

Christian Kopkow, BSc. PT, MPH; E-Mail: christian.kopkow@mailbox.tu-dresden.de
Technische Universität Dresden, Institut und Poliklinik für Arbeits- und Sozialmedizin, Direktor: Univ.-
Prof. Dr. Andreas Seidler, MPH

Hintergrund
Rupturen des hinteren Kreuzbandes sind eine ernsthafte Verletzung des Kniegelenks. Die
Durchführung einer gezielten körperlichen Untersuchung ist wesentlicher Bestandteil des
diagnostischen Prozesses. Hinsichtlich der klinischen körperlichen Untersuchung der Integrität des
hinteren Kreuzbandes existiert eine Vielzahl an publizierten Testverfahren mit teilweise unklarer
Validität.

Ziele
Die Zielstellungen der Arbeit lauten: a) welche Testverfahren eignen sich zur Einschlussdiagnostik
hinterer Kreuzbandrupturen, b) welche Testverfahren eignen sich zur Ausschlussdiagnostik hinterer
Kreuzbandrupturen und c) Abbildung des aktuellen Forschungsstandes und Aktualisierung
bestehender Übersichtsarbeiten hinsichtlich körperlicher Tests zur Diagnose hinterer
Kreuzbandrupturen.

Methodik
Es wurde eine systematische Suche in den elektronischen Datenbanken MEDLINE, EMBASE und
AMED durchgeführt. Zusätzlich erfolgte eine Handsuche. Es wurden Studien eingeschlossen, die im
direkten Vergleich einen oder mehrere klinische Indextestverfahren zur Diagnostik einer hinteren
Kreuzbandruptur untersuchten. Als Referenzstandard wurde Arthrotomie, Arthroskopie sowie MRT
definiert. Zwei Reviewer führten unabhängig voneinander jeweils Titel-Abstract-Sichtung,
Volltextsichtung und methodische Bewertung der eingeschlossenen Studien mittels des
QUADASTools durch. Die Darstellung der Ergebnisse erfolgte mittels diagnostischer Vierfeldertafel.
Zudem werden Forest plots, Crosshair plots und ROCellipse plots abgebildet.

Ergebnisse
Es konnten elf Studien eingeschlossen werden, in denen insgesamt elf verschiedene
Indextestverfahren evaluiert wurden. Die methodische Qualität der eingeschlossenen Studien als
auch die ermittelten Angaben zu Sensitivität und Spezifität sind heterogen. Von den insgesamt elf
identifizierten Studien waren neun „cohort type accuracy studies“ und zwei „case-control type
accuracy studies“. Alle Studien untersuchten die Indextestverfahren im Kliniksetting an
Patientenpopulationen mit fast ausschließlich hohen Rupturprävalenzen und an zumeist kleinen
Patientenkollektiven (n < 20). Eine Meta-Analyse konnte aufgrund der geringen Anzahl an
eingeschlossenen Studien nicht durchgeführt werden.

Fazit
Aufgrund der ungenügenden methodischen Qualität und der geringen Anzahl an identifizierten
Studien sowie der heterogenen Datenlage lässt sich kein körperliches Indextestverfahren als
alleiniges klinisches körperliches Testverfahren zur Diagnostik einer HKB-Ruptur empfehlen.

                                                   7
Subtypisierung der Depression in Epidemiologischen Studien

Jörgens, S1; Wersching, H1,2; Baune, B3; Arolt, V1; Berger, K2

1 Klinik für Psychiatrie und Psychotherapie, Universitätsklinik Münster, Deutschland

2 Institut für Epidemiologie und Sozialmedizin, Universitätsklinik Münster, Deutschland

3 School of Medicine, Discipline of Psychiatry, University of Adelaide, Australia

Hintergrund: In den letzten Jahren hat sich in Forschung und Praxis die Spezifizierung depressiver
Erkrankungen in verschiedene Depressionssubtypen durchgesetzt. Die Einteilung in einen
melancholischen und atypischen Subtyp spiegelt unterschiedliche, klinische Symptome wider und ist
durch die Beteiligung biologischer Mechanismen untermauert. Probleme bei der Vergleichbarkeit
publizierter Studien bestehen vor allem aufgrund der unterschiedlichen praktischen Auslegung der
Kriterien für die einzelnen Subtypen. Ziel der vorliegenden Analyse ist die Überprüfung der
Notwendigkeit einer standardisierten Klassifikation.

Methodik: Bei der BiDirect-Studie handelt es sich um eine Beobachtungsstudie, welche den
Zusammenhang von Arteriosklerose und Depression untersucht. Im Zeitraum vom 02/2010- 09/2011
wurden im Rahmen dieser Studie 399 stationäre Patienten mit einer Depression rekrutiert und mit
MINI 5.0, Hamilton-Interview sowie 6 IDS_C Items untersucht. Für diese Population wurde eine
Einteilung in die Depressionssubtypen anhand verschiedener Kriterien vorgenommen.

Ergebnisse: Unter Verwendung der verschiedenen Klassifikations-Kriterien kommt es zu
Unterschieden in der Populationszusammensetzung bezüglich der einzelnen Depressions-Subtypen,
so liegt z.B. der Anteil atypisch depressiver Patienten liegt zwischen 6,09 und 10,5%.

Schlussfolgerung:

Aufgrund der heterogenen Ergebnisse bezüglich der Populationszusammensetzung in Abhängigkeit
des gewählten Kriteriums erscheint eine Vereinheitlichung der Klassifikation in epidemiologischen
Studien nötig, um eine Verzerrung der Auftretenshäufigkeit verschiedener Depressionsformen zu
vermeiden. Ein Vorschlag wird diskutiert.

Literatur: Seemüller et al. Atypical symptoms in hospitalised patients with major depressive
episode: frequency, clinical characteristics, and internal validity. J Affect Disord. 2008
Jun;108(3):271-8.

                                                         8
PURE und UroScreen als Beispiele von Biomarkerstudien

Nadine Bonberg
Institut für Prävention und Arbeitsmedizin der Deutschen Gesetzlichen Unfallversicherung, Institut der Ruhr-
Universität Bochum (IPA)
Protein Research Unit Ruhr within Europe (PURE), Ruhr-Universität Bochum

Im Rahmen des geplanten Workshops soll die Blasenkrebsstudie im Rahmen von PURE als eine Studie
zur Identifizierung von Biomarkern und UroScreen als eine Studie zur Validierung von Biomarkern
vorgestellt werden.

Im Jahr 2010 wurde das Proteinforschungsinstitut PURE an der Ruhr-Universität Bochum gegründet.
Ziel innerhalb von PURE ist es Biomarker zu identifizieren, die in frühen, noch symptomlosen
Krankheitsstadien eine Erkrankung erkennen können. Weiterhin sollen Marker getestet werden, die
zum Monitoring von Therapieverläufen oder zur Prädiktion von Therapieerfolgen eingesetzt werden
können. Eine Studie in PURE befasst sich zurzeit mit der Identifizierung von Biomarkern für
Harnblasenkrebs. UroScreen ist eine Längsschnittstudie zur Früherkennung von Harnblasenkrebs, an
der 1.609 aktive oder berentete Chemiearbeiter teilgenommen haben. In dieser Studie wurden die
Tumormarker NMP22 und UroVysion™ validiert, zu denen konkrete Ergebnisse vorgestellt werden
sollen.

                                                      9
Validierung des German-Diabetes-Risk-Scores innerhalb einer bevölkerungsbezogenen, repräsentativen
Kohorte
          1         1         1              2              3            4            5            1           1
Hartwig S , Kuss O , Tiller D , Greiser KH , Schulze MB , Dierkes J , Werdan K , Haerting J , Kluttig A
1
  Institut für Medizinische Epidemiologie, Biometrie und Informatik, Martin-Luther-Universität Halle-Wittenberg, Halle (Saale)
2
  Abteilung Epidemiologie von Krebserkrankungen, Deutsches Krebsforschungszentrum, Heidelberg
3
  Abteilung Molekulare Epidemiologie, Deutsches Institut für Ernährungsforschung Potsdam-Rehbrücke, Nuthetal
4
  Institut für Medizin, Universität Bergen
5
  Klinik für Innere Medizin III, Martin-Luther-Universität Halle-Wittenberg, Halle (Saale)

Hintergrund:
2007 entwickelten Schulze et al. im Rahmen der EPIC-Potsdam-Studie den Deutschen-Diabetes-Risiko-Score
(DRS) zur Abschätzung des individuellen 5-Jahres-Diabetes-Risikos [1, 2]. Ziel der vorliegenden Arbeit war die
Validierung dieses Scores innerhalb der bevölkerungsrepräsentativen CARLA-Studie [3].

Studiendesign/Methoden:

Die Studienpopulation setzte sich aus 690 Frauen und 805 Männern im Alter von 45-83 Jahren zusammen,
welche zur Basisuntersuchung frei von Diabetes waren.
Für jeden Probanden wurde das individuelle Risiko mithilfe des für eine vier-Jahres-Follow-Up-Zeit
modifizierten DRS bestimmt. Zur Validierung des Scores wurden die geschätzte und die beobachtete Diabetes-
Inzidenz in sechs Gruppen verglichen und ROC-Analysen (Receiver-Operator-Characteristic) durchgeführt.
Weiterhin wurde die Veränderung der Vorhersagekraft des Scores durch Erweiterung um metabolische
Parameter und durch verschiedene Subgruppenanalysen überprüft.

Ergebnisse:

Während der Nachbeobachtungszeit ergab sich bei 58 Probanden eine neu diagnostizierte Diabetes-
Erkrankung. Die mediane 4-Jahres-Erkrankungswahrscheinlichkeit lag bei 6,5%.
Mit steigendem DRS-Wert zeigte sich eine höhere beobachtete Inzidenz. Die Wahrscheinlichkeiten an Diabetes
zu erkranken waren zwischen Berechnung und Beobachtung vergleichbar. Aufgrund geringer Fallzahlen,
besonders in den Gruppen mit niedrigem Risiko ergaben sich jedoch teilweise unpräzise Schätzungen. Die
Fläche unter der ROC-Kurve (ROC-AUC) betrug 0,70 (95%CI: 0.64-0.77).
Die Validität des Scores verbesserte sich durch Hinzunahme des Blutglukosewertes (AUC: 0.81; 95%CI: 0.76-
0.86) und des HbA1c-Wertes (AUC: 0.84; 95%CI: 0.80-0.91) sowie durch Ausschluss von Probanden ≥65 Jahre
(AUC: 0.77; 95%CI: 0.70-0.84).

Schlussfolgerungen:
Zusammenfassend zeigte der DRS in CARLA gegenüber EPIC-Potsdam deutlich schwächere Ergebnisse, was
teilweise durch Kohortenunterschiede erklärt werden kann. Dennoch kann ein hoher Scorewert einen Hinweis
auf ein gesteigertes Diabetesrisiko geben.

                                                     Reference List
    [1] Schulze MB, Hoffmann K, Boeing H, Linseisen J, Rohrmann S, Mohlig M, et al. An accurate risk score
        based on anthropometric, dietary, and lifestyle factors to predict the development of type 2 diabetes.
        Diabetes Care 2007 Mar;30(3):510-5.
    [2] Schulze MB, Weikert C, Pischon T, Bergmann MM, Al Hasani H, Schleicher E, et al. Use of multiple
        metabolic and genetic markers to improve the prediction of type 2 diabetes: the EPIC-Potsdam Study.
        Diabetes Care 2009 Nov;32(11):2116-9.
    [3] Greiser KH, Kluttig A, Schumann B, Kors JA, Swenne CA, Kuss O, et al. Cardiovascular disease, risk factors
        and heart rate variability in the elderly general population: design and objectives of the CARdiovascular
        disease, Living and Ageing in Halle (CARLA) Study. BMC Cardiovasc Disord 2005;5:33.

                                                                    10
Title: Sensitivity estimates of blood based tests for colorectal cancer detection: Impact of over-
representation of advanced stage disease

Authors: Sha Tao, Sabrina Hundt, Ulrike Haug, Hermann Brenner

Institute: Division of Clinical Epidemiology and Aging Research (C070), German Cancer Research
Center, Im Neuenheimer Feld 581, D-69120 Heidelberg, Germany

Email: s.tao@dkfz-heidelberg.de

Abstract

A large number of blood-based markers have been proposed for early detection of colorectal cancer
(CRC). Their sensitivity for detecting CRC has mostly been evaluated in clinical settings, and found to
be higher in more advanced stages compared with earlier stages of the disease. The aim of this study
is to estimate the overall sensitivity of blood-based markers expected in screening settings, where
the proportion of advanced stages is typically lower than in clinical settings. A systematic literature
review was performed on studies evaluating sensitivity and specificity of blood-based markers for
early detection of CRC. For each study, overall sensitivity expected in screening settings was
estimated by weighting stage-specific sensitivities according to the stage distribution of CRC
expected in the screening setting. The latter was derived from 12,605 CRC cases diagnosed in the
German screening colonoscopy program during 2003 – 2007. Overall, 73 studies evaluating 55 blood-
based markers were identified. Adjusted sensitivity was lower than reported sensitivity in 120 (90 %)
evaluations of different markers. Median absolute reduction in sensitivity after adjustment was 9.0 %
(interquartile range: 4.0 – 13.0) units, whereas median relative reduction was 19.5 % (interquartile
range: 11.3 – 33.3 %). Blood-based markers for CRC detection reported from clinical settings showed
higher sensitivities than expected in the screening setting in most cases, mainly due to substantially
higher proportions of advanced stage cancers. Adjustment of sensitivity to the stage distribution
expected in the screening setting is crucial to obtain realistic and comparable estimates of
sensitivities.

                                                  11
A statistical approach for shedding light on routes of
                                   transmission of infectious diseases

          Steffen Unkel¹ ², C. Paddy Farrington², Heather J. Whitaker² and Richard Pebody³
               ¹Medical Statistics Group, Institute of Medical Informatics, Faculty of Medicine,
                                  Justus Liebig University Giessen, Germany.
                               ²Department of Mathematics and Statistics,
                           The Open University, Milton Keynes, United Kingdom.
                            ³Health Protection Agency, London, United Kingdom.

                           e-mail: Steffen.Unkel@informatik.med.uni-giessen.de

      Recently, new statistical methods were proposed for investigating and quantifying
      heterogeneities relevant to the transmission of infectious diseases, based on
      associations within individuals between ages at infection for different infections (Unkel
      et al. , 2012). Central to this methodological framework is the use of serological survey
      data, which provide readily sources of individual data on several infections. It was found
      that infections are often highly correlated within individuals in early childhood, the
      associations persisting into adulthood only for infections sharing a transmission route.
      Whereas childhood association is likely to stem from confounding of different
      transmission routes, associations in adulthood seem to be route-specific. An application
      of this methodology is discussed for making inferences about routes of transmission
      when these are unknown or uncertain. An example of such an application is presented,
      to elucidating the transmission route of human polyomaviruses BKV and JCV (Farrington
      et al., 2013).

References

S. Unkel, C. P. Farrington, H. J. Whitaker, R. Pebody (2012): Time-varying frailty
models and the estimation of heterogeneities in transmission of infectious diseases.
Journal of the Royal Statistical Society Series C, under revision.

C. P. Farrington, H. J. Whitaker, S. Unkel, R. Pebody (2013): Correlated infections:
quantifying individual heterogeneity in the spread of infectious diseases. American
Journal of Epidemiology, Vol. 177, in press.

                                                      12
Spatial Clusters of the amyotrophic lateral sclerosis (ALS):
                 Results of the population based ALS registry Swabia

      H. Uenal¹, A. Rosenbohm², G. Berry¹, J. Kufeld¹, A. Ludolph², D. Rothenbacher¹, G. Nagel¹

            ¹ Institut für Epidemiologie und Medizinischen Biometrie, Universität Ulm, Ulm
                                ² Neurologische Universitätsklinik Ulm, Ulm

Background
The amyotrophic lateral sclerosis (ALS) is a rare, neurodegenerative disease, which leads to rapid
progressive muscular paralysis. Relevant etiological risk factors are hence thereby barely known. The
main objective of this paper is to visualize geographical cluster in Swabia and to investigate the
regions with significant formation of clusters having ALS to investigate for possible risk factors and
also environmental factors that may be lead to ALS (p.e. population density).

Methods
Since October 2008, all ALS-patients are recorded in this ALS registry in Swabian region of South
Germany (ALS - registry Swabia). Retrospective cases were distinguished between 1 October 2008
and 30 September 2010 in our target population in Southern Germany. Population numbers were
determined at county level and small spatial, standardized incidence rates (indirect method) were
estimated using the Poisson distribution for the counties in 16 age classes. Exact age-standardized
incidence rates (EU population 2010) is compared with expected age-and –population standardized
incidence rates (new EU standard population 1990) to compare the influence of the different European
standard population weights and to investigate .possible spatial clusters in ALS using Kulldorff-
statistics. The completeness of the registry is estimated using capture recapture methods.

Results
In our study region of about 8.6 million inhabitants, 426 ALS cases (53% men, 47% women) were
identified. The mean age of retrospective ALS cases was 64.9 (SD = 12.0) years, 63.7 (11.9) for men
and 66.2 (12.1) for men. The 35% high proportion of female patients aged 75 years or older suggests
and supports a high quality of our registry. The absolute number of new cases varied in the counties
between 0-32 cases. The exact European age-standardized incidence rate of ALS was 2.4 per
100,000 population per year (95% confidence interval (CI): 2.11-2.56). Due to the nature of the
disease only small numbers of cases, spatial incidence rates and 95% confidence intervals are
estimated with the help of Poisson-distribution at county level. The cartographical representation of the
crude and standardized incidence rates exhibit a significant variability between the counties in the
region of Swabia. Applying spatial scan statistics, there were primary clusters in county Göppingen
and county Bodenseekreis (p-value = 0.24 and p-value = 0.57) with observed ALS cases. An
illustration using capture recapture method estimated missing cases (N= 108) in the study region were
imputed as a scenario. Using the capture recapture estimated total number of cases (N=524), using
the exact European age-standardized incidence rate of ALS was 2.9 per 100,000 personyears.

Conclusion
The age-standardized incidence rate in the region of Swabia is consistent with incidence rates from
other European countries. A cluster analysis enables us to investigate geographic clusters of ALS and
helps us to compare the 42 different counties.

                                                   13
Evaluation von Verbesserungen bei Risikoprädiktionsmodellen mit dem Net Reclassification Improvement

Kristin Mühlenbruch¹ (Kristin.Muehlenbruch@dife.de)
Alexandros Heraclides¹, Ewout W. Steyerberg², Olga Kuxhaus¹, Hannelore Liero³, Hans-Georg Joost⁴, Heiner
Boeing⁵, Matthias B. Schulze¹
¹ Abteilung Molekulare Epidemiologie, Deutsches Institut für Ernährungsforschung Potsdam-Rehbrücke,
Nuthetal, ² Department of Public Health, Erasmus MC, Rotterdam, Niederlande; ³ Institut für Mathematik,
Universität Potsdam, ⁴ Abteilung Pharmakologie, Deutsches Institut für Ernährungsforschung Potsdam-
Rehbrücke, Nuthetal, und ⁵ Abteilung Epidemiologie, Deutsches Institut für Ernährungsforschung Potsdam-
Rehbrücke, Nuthetal
Hintergrund: Der Net Reclassification Improvement (NRI) wird seit seiner Entwicklung [1] in zahlreichen
Studien verwendet [2], um den prädiktiven Wert neuer Risikomarker in Risikoprädiktionsmodellen zu
beurteilen. Als Reklassifizierungsstatistik basiert die Berechnung des NRI auf Risikokategorien. Allerdings gibt es
bislang keine einheitliche Verwendung bezüglich der Anzahl an Risikokategoiren, der Cut-offs, sowie für die
Beurteilung des Umfangs der Verbesserung anhand des NRI-Wertes oder seiner statistischen Signifikanz. Wir
untersuchten nun, inwiefern der Wert des NRI sowie seiner Einzelkomponenten (NRIFälle und NRINicht-Fälle) von
der Wahl dieser Risikokategorien (Anzahl und Cut-off-Werte) abhängt. Zusätzlich haben wir unterschiedliche
Gewichtungen für die Einzelkomponenten und deren statistische Signifikanz näher betrachtet.
Methoden: Die European Prospective Investigation into Cancer and Nutrition (EPIC) – Potsdam-Studie, eine
prospektive Kohortenstudie, umfasst 25167 Teilnehmer zur Basiserhebung. In einem mittleren Follow-up-
Zeitraum von 7 Jahren wurden 849 inzidente Typ-2-Diabetes-Fälle beobachtet. Basierend auf dem Deutschen
Diabetes-Risiko-Test® (DRT) [3] wurden in der ersten Analyse 3 (verkürzte) Modelle verwendet und hinsichtlich
Fläche unter der ROC-Kurve (ROC-AUC) und NRI verglichen. Für die Berechnung des NRI wurden variierende
Cut-off-Werte für zwei und drei Risikokategorien, sowie eine variierende Anzahl an Risikokategorien (2 bis 50)
verwendet. Für die weitere Analyse wurde der DRT mit einem um Familienanamnese erweiterten Modell
hinsichtlich ROC-AUC und NRI verglichen. Für die Betrachtung des NRI wurden 2 bis 10 Risikokategorien mit
Gewichtungen von 0,1 bis 0,9 für die Einzelkomponenten verwendet und deren p-Werte berechnet. Für
variierende Cut-off-Werte für 2 Risikokategorien wurde anstelle eines p-Wertes ein 95%- Konfidenzintervall der
Einzelkomponenten zur Beurteilung des NRI-Wertes berechnet.
Ergebnisse: Ein erster Modellvergleich von nicht-modifizierbaren Risikofaktoren mit zusätzlich Taillenumfang
ergab eine Verbesserung der Diskriminierung um 0,11 sowie Risikoklassifizierung in fünf Risikokategorien um
54.7%. Der zweite Modellvergleich von nicht-modifizierbaren Risikofaktoren und Taillenumfang mit zusätzlich
modifizierbaren Lebensstilfaktoren ergab eine Verbesserung in der ROC-AUC um 0,01 und einen NRI von 3.49%.
Für beide Modellvergleiche zeigten die Ergebnisse zusätzlich, dass der NRI mit steigender Anzahl an
Risikokategorien steigt und gegen den stetigen NRI konvergiert. Die variierenden Cut-off-Werte resultierten in
einer starken Variabilität des NRI für 2 und 3 Kategorien, insbesondere bei einer größeren Modellverbesserung.
Für den dritten Modellvergleich ergab sich eine Verbesserung der Diskriminierung um 0,007 und der NRI betrug
9,98%. Die unterschiedliche Gewichtung der Einzelkomponenten zeigte Einfluss auf den Wert sowie auf die
Signifikanz des NRI. Außerdem zeigen die Einzelkomponenten gegenläufige Trends nach Wahl der Cut-off-
Werte für 2 Risikokategorien.
Schlussfolgerung: Die Wahl der Risikokategorien und insbesondere der Cut-off-Werte für diese Kategorien
zeigen deutlichen Einfluss auf den Wert des NRI. Dieser Einfluss scheint besonders ausgeprägt, wenn die
Verbesserung der Prädiktion groß ist. Eine begrenzte Anzahl an Risikokategorien sollte nur verwendet werden,
wenn diese klinische Relevanz haben. Außerdem ist eine detaillierte Betrachtung des NRI und seiner
Komponenten sowie mögliche Gewichtungen und bevorzugt die Berechnung eines Konfidenzintervalls zu
empfehlen.
Literatur:
[1] Pencina, M.J., et al., Evaluating the added predictive ability of a new marker: from area under the ROC curve
to reclassification and beyond. Stat Med, 2008. 27(2): p. 157-72; discussion 207-12.
[2] Tzoulaki I, Liberopoulos G, Ioannidis JP. Use of reclassification for assessment of improved prediction: an
empirical evaluation. Int J Epidemiol 2011;40(4):1094-105.
[3] Schulze, M.B., et al., An accurate risk score based on anthropometric, dietary, and lifestyle factors to predict
the development of type 2 diabetes. Diabetes Care, 2007. 30(3): p. 510-5.

                                                        14
Michael Schneider, Valentina Lesnjak, Daniela Wenzel, Christine Falk und Cornelia Blume

Medizinische Hochschule Hannover, Carl Neuberg Str. 1, 30625 Hannover

Angewendete Methoden zur systematischen Untersuchung der diagnostischen
Wertigkeit von multiplen diagnostischen Tests

In der Transplantationsmedizin sind das Verständnis und die Erforschung immunologischer
Grundlagen von besonderer Bedeutung. So werden an der Medizinischen Hochschule
Hannover seit mehr als 10 Jahren im Rahmen des Nierenbiopsieprogramms der Klinik für
Nephrologie (Prof. Dr. H. Haller) ambulant Protokoll- und Indikationsbiopsien durchgeführt
und seit 05/2011 diese nebst Plasmaproben im Rahmen eines durch Ethikantrag
unterstützen IFB-Projekts (SU02) zur Analyse von Biomarkern verwendet. Hierbei wurden in
Plasmaproben von 120 Patienten die Konzentrationen von mehr als 50 Zytokinen,
Chemokinen und Wachtumsfaktoren bestimmt. Auf deren Basis sollen statistische Analysen
unter Einbeziehung des pathologischen Befundes aufgebaut werden.

Die diagnostische Wertigkeit der registrierten Biomarker soll nun hinsichtlich der Diagnose
und Differentialdiagnose von Abstoßungsreaktionen untersucht werden. Hierdurch erhoffen
wir uns neue Erkenntnisse in der Diagnostik wie auch in der prognostischen Früherkennung
von Abstoßungsreaktionen nach Nierentransplantation. Primäres Ziel der statistischen
Auswertung ist zunächst die systematische Untersuchung der diagnostischen Wertigkeit der
vorgestellten Biomarkern, sowohl vollständig als Einzelwerte, wie auch als ausgewählte
Testkombinationen. Hierfür werden primär robuste statistische Verfahren eingesetzt. Darüber
hinaus sollen spezielle Testmodelle untersucht werden, die sich aus klinischen wie auch
biowissenschaftlichen Fragestellungen ergeben. Bedeutsame Ergebnisse sollen in folgenden
prospektiven Studien evaluiert werden. Die eingesetzten Auswertungsmethoden sollen auch
auf andere, bisher nicht untersuchte Marker übertragen werden.

In diesem Vortrag stellen wir die Methoden und die relevanten Ergebnisse unserer
Auswertungen vor.

                                            15
Difference of two Dependent Sensitivities and Specificities: Comparison of Various Approaches

Daniela Wenzel1, Antonia Zapf2
1
Department for Biostatistics, Medical School Hannover
2
Department of Medical Statistics, University Medical Center Goettingen

In diagnostic studies a new diagnostic test is often compared with a standard test in a within-subject
design. Furthermore in phase III studies (in place validation of a diagnostic test) primary endpoints
are usually sensitivity and specificity as recommended in the according EMA guideline for diagnostic
agents. For the estimation of the difference between two dependent tests confidence intervals for
the difference of two dependent rates (i.e. sensitivities or specificities) can be used. There are many
feasible intervals, but no clear recommendation which one to apply in this case. Newcombe
compared in 1998 ten approaches for the whole parameter space and gave summarized results. But
it is well known that the goodness of the intervals depends especially on whether the rate is close to
the limits or not. For this reason we will investigate a reduced parameter space, as it is relevant for
diagnostic studies (for example sensitivity and specificity greater or equal than 0.8), and present the
results for individual scenarios. Furthermore we add some recent approaches (Agresti and Tango
confidence intervals, non-parametric methods based on relative effects and "free marginal GEE`s").
With simulation studies (type one error, interval length, MSE and power) we figured out that the
Wald interval, the non-parametric intervals and the Tango interval can be recommended for the
calculation of a confidence interval for the difference of two sensitivities or specificities in diagnostic
trials in a paired design.

References:

    1. Newcombe, R.G. “Improved confidence intervals for the difference between binomial
       proportions based on paired data”, Statistics in Medicine 17, 2635-50 (1998).
    2. Brunner E. and Munzel U. “The nonparametric Behrens-Fisher problem – asymptotic theory
       and small sample approximation”, Biometrical Journal, 42, 17-25 (2000).
    3. Leisenring W. et al. “A marginal regression modeling framework for evaluating medical
       diagnostic tests”, Statistics in Medicine, 16, 1263-1281 (1997).
    4. Dickel H. et al. “Increased sensitivity of patch testing by standardized tape stripping
       beforehand: a multicenter diagnostic accuracy study”, Contract Dermatitis, 62, 294-302
       (2010).

                                                    16
Analyse verschiedener diagnostischer Gütemaße in faktoriellen Versuchsanlagen

Katharina Lange1 Edgar Brunner
Abt. Medizinische Statistik, Universitätsmedizin Göttingen, Humboldallee 32, 37073 Göttingen,

Diagnostische Studien gewinnen im Bereich der klinischen Forschung zunehmend an Bedeutung,
sodass die Entwicklung neuer statistischer Verfahren zur Evaluation dieser Studien ein wichtiges
Themengebiet der biostatistischen Methodenforschung bildet. Da die Ausgangslage bei Studien
dieses Typs äußerst heterogen sein kann, stellt die Entwicklung umfassender statistischer
Verfahren ein komplexes Problem dar: Bei Diagnosestudien existiert zum einen eine Vielzahl an
Möglichkeiten zur Definition der diagnostischen Güte wie beispielweise Sensitivität und
Spezifität, prädiktive Werte, Likelihood-Ratios oder auch die Fläche unter der ROC-Kurve. Zum
anderen können hier vielfältige Versuchsdesigns und Datenstrukturen (faktorielle
Versuchsanlagen mit verbundenen und unverbundenen Stichproben) auftreten.
In diesem Vortrag soll ein nichtparametrischer Analyseansatz vorgestellt werden, welcher es
gestattet, verschiedene diagnostische Gütemaße mit einer einheitlichen Methodik zu analysieren.
Die Grundlage dieses Ansatzes bildet dabei eine Analysemethodik für die Fläche unter der ROC-
Kurve, die sich zu einem Auswertungsverfahren von Sensitivität und Spezifität erweitern lässt,
sodass selbst bei unterschiedlichsten diagnostischen Studien eine einheitliche Handhabung in der
Evaluation möglich wird.
Die hier dargestellten Ansätze lassen sich dabei insbesondere auf eine Vielzahl an faktoriellen
Versuchsanlagen anwenden, sodass die präsentierte Methodik ein äußerst hilfreiches Werkzeug
für die Analyse vieler diagnostischer Studien bildet.

Literatur
[1] Kaufmann J, Werner C, Brunner E (2005). Nonparametric Methods for Analysing the
Accuracy of Diagnostic Tests with Multiple Readers. Statistical Methods in Medical Research
14:129–146
[2] Lange K, Brunner E (2012). Sensitivity, specificity and ROC-curves in multiple reader
diagnostic trials — A unified, nonparametric approach. Statistical Methodology 9: 490–500.
[3] Lange K . (2008). Nichtparametrische Modelle für faktorielle Diagnosestudien, Georg-
August- Universität Göttingen, Diplomarbeit
[4] Lange K . (2011). Nichtparametrische Analyse diagnostischer Gütemaße bei Clusterdaten,
Georg-August-Universität Göttingen, Dissertation

                                                             17
Titel:          Zusammenfassung diagnostischer Studien – ein Vorschlag zur Vorgehensweise

Autoren:       Wiebke Sieben, Lars Beckmann, Ralf Bender

Institution:   Institut für Qualität und Wirtschaftlichkeit im Gesundheitswesen (IQWiG)

E-Mail:        Wiebke.Sieben@iqwig.de
               Lars.beckmann@iqwig.de
               Ralf.Bender@iqiwg.de

Abstract:      Dem Anwender stehen für die meta-analytische Zusammenfassung der
diagnostischen Güte aus mehreren Studien seit einiger Zeit Ansätze für eine bivariate Betrachtung
zur Auswahl, bei denen die korrelierten Zielgrößen Sensitivität und Spezifität gemeinsam in
gemischten Modellen modelliert werden. Dabei ist oft nicht der gepoolte Schätzer einer Technologie
sondern vielmehr der Vergleich zweier Technologien von Interesse. Um eine zusätzliche Quelle für
Heterogenität zu vermeiden ist ein möglicher Ansatz, sich bei bivariaten Meta-Analysen auf
vergleichende Studien zu beschränken, innerhalb derer jeweils mindestens zwei diagnostische
Verfahren verwendet und ausgewertet wurden.

Dabei hat sich als besondere Schwierigkeit herausgestellt, dass meist nur wenige vergleichende
Studien zu einer Fragestellung vorliegen. Aufgrund durchgeführter Simulationen ist davon
auszugehen, dass selbst bei vollständig erfüllten Modellannahmen die
Überdeckungswahrscheinlichkeit der Konfidenzregionen für die Sensitivitäts- und Spezifitäts-
Schätzerpaare für jeden Test stark unter dem vorgegebenen Niveau liegt, wenn nur wenige Studien
in die Analyse eingehen. In diesem Vortrag präsentieren wir die Wahl des Modellierungsansatzes, die
Umsetzung in SAS und schlagen ein Vorgehen für die Darstellung und Interpretation in Abhängigkeit
von der Anzahl der Studien und des Verzerrungspotenzials vor.

                                                18
Modelling of ROC curves in meta-analysis of diagnostic test accuracy studies

Gerta Rücker
Institute of Medical Biometry and Medical Informatics
University Medical Center Freiburg
E-mail: ruecker@imbi.uni-freiburg.de

For meta-analyses of diagnostic test accuracy studies, statistical models such as the bivariate
model and the hierarchical model have been developed for analysis. Open questions refer to
identifying and interpreting summary ROC curves when there is only one pair of sensitivity
and specificity reported per study. The objective of this DFG project is to refine our existing
method of analysis that models selection of the reported pair of sensitivity and specificity at
the study level. To this aim, three levels are modelled: (i) the individual level, (ii) the study
level, and (iii) the meta-analysis level.

It is assumed that study investigators have considered the whole empirical ROC curve and
selected the cut-off of the biomarker that maximised an appropriately weighted Youden index.
Decision making based on the whole study data (second level) then leads to a dependence
between otherwise unrelated individuals, as soon as the individual test diagnosis depends on
the chosen cut-off and this in turn depends on the observations made in all other individuals
within the same study.

Under certain assumptions, the model allows to obtain a summary ROC curve by estimating
study-specific ROC curves for the studies in the meta-analysis. As the model accounts for
selection, it avoids overestimation of diagnostic accuracy. By establishing a suitable
parametrisation for all levels, including covariates, we aim to obtain an overall likelihood for
this Youden index-based cut-off selection model.

Reference:

Rücker G, Schumacher M. Summary ROC curve based on the weighted Youden index for
selecting an optimal cutpoint in meta-analysis of diagnostic accuracy. Statistics in Medicine.
2010;29:3069–3078.

                                                19
Statistical Methods for Meta-Analysis of Diagnostic Tests accounting for
               Prevalence – A new Model using trivariate Copulas

                             Annika Hoyer¹, Oliver Kuss²

¹Institut für Statistik, Ludwig-Maximilians-Universität München,
annika.hoyer@campus.lmu.de
²Institut für Medizinische Epidemiologie, Biometrie und Informatik, Medizinische
Fakultät, Martin-Luther-Universität Halle-Wittenberg, Halle (Saale)

In real life and somewhat contrary to biostatistical textbook knowledge, sensitivity and
specificity (and not only predictive values) of diagnostic tests can vary with the
underlying prevalence of disease and Leeflang et al. [1] give empirical examples and
plausible mechanisms causing this phenomenon. In meta-analyses of diagnostic
studies, accounting for this fact naturally leads to a trivariate expansion of the
standard bivariate GLMM [2]. We propose a new model to this task using trivariate
copulas and beta-binomial marginal distributions for sensitivity, specificity and
prevalence. This model has a closed-form likelihood, so standard software (e.g., SAS
PROC NLMIXED) can be used. For both the standard and the copula model, some
complexity is introduced by the design of the respective diagnostic trial where
casecontrol designs with prevalences fixed by the researcher do not allow the
estimation of prevalences, whereas cohort designs do. We illustrate the methods by
the example of Scheidler et al. [3] on radiological evaluation of lymph node
metastases in patients with cervical cancer.

[1] Leeflang MMG, Bossuyt PMM, Irwig L. Diagnostic test accuracy may vary with
prevalence: implications for evidence-based diagnosis. Journal of Clinical
Epidemiology 2009;62:5-12.

[2] Chu H, Nie L, Cole SR, Poole C. Meta-analysis of diagnostic accuracy studies
accounting for disease prevalence: Alternative parameterizations and model
selection. Statist Med 2009;28:2384-2399.

[3] Scheidler J, et al. Radiological evaluation of lymph node metastases in patients
with cervical cancer. A meta-analysis. JAMA. 1997;278(13):1096-1101.

                                          20
Meta-analysis for the comparison of two diagnostic tests to a common gold
       standard: First experiences with quadrivariate statistical models

                             Oliver Kuss¹, Annika Hoyer²

¹Institut für Medizinische Epidemiologie, Biometrie und Informatik, Medizinische
Fakultät, Martin-Luther-Universität Halle-Wittenberg, Halle (Saale),
oliver.kuss@medizin.uni-halle.de
²Institut für Statistik, Ludwig-Maximilians-Universität München

Meta-analysis of diagnostic studies is still a rapidly developing area of biostatistical
research. Only recently, methods for the meta-analytic comparison of two diagnostic
tests to a common gold standard have been called for by applied researchers and
proposed [1,2], an older method is also available [3]. In these meta-analyses the
parameters of interest are the differences of sensitivities and specificities (with their
corresponding confidence intervals) between the two diagnostic tests while
accounting for the various associations within single studies, between the two tests
and within patients. In line with [1] we propose statistical models with a quadrivariate
response (where sensitivity of test 1, specificity of test 1, sensitivity of test 2, and
specificity of test 2 are the four responses) as a sensible approach to this task. Using
a quadrivariate Generalized linear mixed model (GLMM) naturally generalizes the
common standard model of meta-analysis for a single diagnostic test. Quadrivariate
copula models [4] are also possible. In the talk we report on first experiences with the
respective models using an example data set to compare two drugs in
pharmacological stress echocardiography for the diagnosis of coronary artery
disease [5].

[1] No authors given. Evaluating Practices and Developing Tools for Comparative
Effectiveness Reviews of Diagnostic Test Accuracy. Task 3: Methods for the Joint
Meta-Analysis of Multiple Tests. Draft Methods Report. Agency for Healthcare
Research and Quality U.S. Department of Health and Human Services.
http://www.effectivehealthcare.ahrq.gov/ehc/products/291/1120/DiagnosticTest
Methods_DraftReport_20120531.pdf, accessed 09/13/2012
[2] Beckmann L, Sieben W, Bender R. Anwendung von Hotelling’s T2-Statistik zum
Vergleich von zwei diagnostischen Tests in Meta-Analysen. Vortrag, 58.
Biometrisches Kolloquium, March 2012, Berlin.
[3] Siadaty MS, Philbrick JT, Heim SW, Schectman JM. Repeated-measures
modeling improved comparison of diagnostic tests in meta-analysis of dependent
studies. J Clin Epidemiol. 2004 Jul;57(7):698-711.
[4] Kuss O, Hoyer A, Solms A. Meta-analysis for diagnostic accuracy studies: A new
statistical model using beta-binomial distributions and bivariate copulas. (under
review)
[5] Picano E, Bedetti G, Varga A, Cseh E. The comparable diagnostic accuracies of
dobutamine-stress and dipyridamole-stress echocardiographies: A metaanalysis.
Coron Artery Dis. 2000 Mar,11(2):151-9

                                           21
Sie können auch lesen