Schätzung von ein- und zwei-dimensionalen Perzentilkurven mit der LMS-Methode

Die Seite wird erstellt Nikolas-Stefan Eckert
 
WEITER LESEN
Schätzung von ein- und zwei-dimensionalen Perzentilkurven mit der LMS-Methode
Herbstworkshop „Flexible Regressionsmodelle“
                 Magdeburg, 22./23. November 2007

  Schätzung von ein- und zwei-
dimensionalen Perzentilkurven mit
       der LMS-Methode
   Siegfried Kropf1), Brigitte Peters1), Karl-Otto Dubowy2)
     1)   Institut f. Biometrie u. Medizinische Informatik,
           Otto-von-Guericke-Universität Magdeburg
               2) Klinik für Angeborene Herzfehler,
              Herzzentrum NRW Bad Oeynhausen
Problemstellung
Gesucht: altersabhängige Referenzwerte für diagnostische Parameter aus
großen Stichproben
⇒ Detektion von pathologischen Befunden (häufig Perzentile 90 und 97)
⇒ Umrechnen von Rohwerten in SDS-Werte (Standard Deviation Scores)

HR_peak (1/min)                                              HR_peak (1/min)
                                         weiblich    Perz.                                             männlich
220                                                           220
200                                                           200
                                                     97
180
                                                     90       180
160                                                  75
                                                              160
                                                     50
140
                                                     25       140
120                                                  10
                                                      3       120
100
                                                                    3   8 13 18 23 28 33 38 43 48 53 58 63 68 73
      4   9 14 19 24 29 34 39 44 49 54 59 64 69 74
                      Alter in Jahren                                              Alter in Jahren
Zu berücksichtigende Probleme:
•   Parameterwerte werden in der Regel nicht normalverteilt sein.
•   Vollständig nichtparametrische Perzentilschätzung könnte zu große
    Stichproben erfordern.
•   Altersabhängigkeit ist vorhanden, aber zumeist nicht linear
    (z.B. Wachstumsschübe bei Körpergröße).
•   Altersgruppen wären andererseits irgendwie künstlich; die Natur hat
    keine Sprünge.

Vorschlag von Cole und Green (1992):
•   Erweiterung des Normalmodells: es wird unterstellt, dass für die unter-
    suchte Zufallsgröße y = y(t) bei fixem t die Größe yλ normalverteilt ist
    (Box-Cox-Potenz λ; damit schiefe Verteilungen modellierbar).
•   Für die Parameter der resultierenden Verteilung wird angenommen, dass
    sie stetig und glatt über die Zeit variieren; Schätzung über einen penali-
    sierten Likelihoodansatz.
Verteilungsmodell bei fixiertem Alter
•   Zielgröße y soll nur positive Werte annehmen
•   Median µ
•   yλ soll normalverteilt sein (bzw. im Grenzfall λ = 0 soll ln(y) normal-
    verteilt sein), ⇒ Einbeziehung ursprünglich schiefer Verteilungen
•   betrachten dann Box-Cox-transformierte Größe
                    ( y / µ)λ − 1
                 x=               , λ≠0
                           λ
    bzw.
                   x = ln( y / µ) ,   λ=0

•   Abbildung µ → 0 (zentrierte Normalverteilung für x)
•   Standardabweichung von x sei σ; für λ =1 ist σ Variationskoeffizient
    von y
Anwendungen:

•   Standard Deviation Score für einen Wert y der Zielgröße:

      x ( y / µ)λ − 1
    z= =              ( λ ≠ 0)              bzw.      z = x / σ = ln( y / µ) / σ    ( λ = 0)
      σ       λσ

    zur Charakterisierung z.B. eines medizinischen Parameterwertes in
    einem „Standardformat“

•   Berechnung von Perzentilen:

    C100 α = µ (1 + λσZα )1/ λ   ( λ ≠ 0)      bzw.       C100 α = µ e ( σZα )   ( λ = 0)

    (Zα = α-Quantil der Standardnormalverteilung)
Berücksichtigen der Altersabhängigkeit
•   Die drei Parameter λ, µ und σ werden jetzt als altersabhängige
    Größen betrachtet (bzw. abhängig von anderer Einflussgröße).

•   Man unterstellt einen stetigen und glatten Verlauf.

•   Die Zeitverläufe der drei Parameter werden als L(t), M(t) und S(t)
    bezeichnet und geben der Methoden den Namen „LMS-Methode“.

                                                    z=
                                                       (y / M (t )) − 1
                                                                   L( t )

•   Aus der Standardisierungsformel                                            und der für z
                                             L(t )S(t )
    angenommenen Standardnormalverteilung lässt sich die Dichte für y
    und damit die Loglikelihood-Funktion der Stichprobe ableiten:

                         n ⎛                                    y                       z
                                                                                            2
                                                                                              ⎞
    l = l(L, M, S ) = ∑ ⎜⎜ − ln( 2π ) − ln( y i ) + L(t i ) ln    i
                                                                        − ln(S(t i )) −   i   ⎟
                      i =1 ⎝                                   M (t i )                  2 ⎟⎠
•   Um den stetigen und glatten Verlauf der Funktionen L(t), M(t) und
    S(t) zu gewährleisten, wird für jede dieser Funktionen bei der
    Maximisierung der Likelihood-Funktion ein Strafterm eingefügt
    (penalized likelihood):

         1                      1                     1
           α λ ∫ {L′′(t )} d t − αµ ∫ {M ′′(t )} d t − ασ ∫ {S ′′(t )} d t
                          2                     2                     2
    l−                                                                       →   max
         2                      2                     2

                 αλ, αµ und ασ sind Glättungsparameter
                         Genauigkeit vs. Glattheit

•   Zwischen den beobachteten Zeitpunkten wird mittels kubischer
    Splines interpoliert. Optimierung iterativ über Fisher-Scoring, erste
    und zweite Ableitungen können explizit angegeben werden.
•   Für Glättungsparameter werden Empfehlungen gegeben, die aber
    nicht immer gut funktionieren. Auch Tests angeboten.
    Praxis häufig: nach optischem Eindruck, zuerst für µ, dann λ und σ.
Mögliches Problem: unterschiedliche Variabilität über Alter

•   Glättung kann in unterschiedlichen Bereichen der unabhängigen
    Variablen (z.B. Alter) unterschiedlich wichtig sein.

•   Vorschlag von Pan und Cole (2004): Zweiphasiges Vorgehen

     – erst „normale“ Anpassung der Perzentilkurven,

     – dann Alter umskalieren, so dass 50%-Perzentilkurve auf eine
       Gerade verzerrt wird (falls überhaupt monotoner Verlauf),

     – neue Analyse mit umskaliertem Alter.
LMS-Programm nach Cole and Green (1992)
Basisversion frei
Anwendungen im KN Angeborene Herzfehler
•   Erste passive Anwendungen der LMS-Methode in unserem Institut bei
    Qualitätssicherung in Pädiatrischer Endokrinologie (Röhl, Mohnike)
•   Aktuell aktive Normwertermittlungen bzw. Alters- und Geschlechts-
    standardisierung für kardiologische Diagnostik, z.B. Laufbandergometrie.

                   Protokoll zur
                Laufbandergometrie
          • 1,5 Minuten Stufen; Erholung 2km/h eben                 n = 484 weiblich
          • Stufe I      2,5 km/h     0% Steigung
                                                                    n = 580 männlich
          • Stufe II     3,0 km/h     3% Steigung
          • Stufe III    3,5 km/h     6% Steigung                   Alter 3 – 78 Jahre
          • Stufe IV     4,0 km/h     9% Steigung
          • Stufe V      4,5 km/h    12% Steigung
          • Stufe VI      5,0 km/h   15% Steigung
          • Stufe VII    5,5 km/h    18% Steigung
          • Stufe VIII   6,0 Km/h    21% Steigung
          • Stufe IX     6,5km/h     21% Steigung etc.
                                                Dubowy/Baden 2002
• Ca. 50 Funktionsparameter betrachtet.

• Werden automatisch bestimmt und in Standardformat gespeichert.

• Kenntnis aller altersabhängigen Normwerte auch für Experten
  schwer, Umrechnung in Perzentile oder SDS-Werte hilfreich.

• Entsprechende Tabellen getrennt nach Geschlecht erarbeitet.

• Bereitstellung von Umrechnungen / Grafiken über Web vorbereitet,
  zusammen mit CIO in Göttingen, noch Copyrights zu klären.

• Einbau der Umrechnungen in Ergometrie-Software angedacht.

• In klinischen Studien Einfluss von Störgrößen weitgehend eliminiert
  ⇒ Biasvermeidung und Varianzreduktion;
 im Kindes- und Jugendalter besonders wichtig.
Beispiele:

HR_peak (1/min)                                              HR_peak (1/min)
                                         weiblich    Perz.                                             männlich
220                                                           220

200                                                           200
                                                     97
180
                                                     90       180
160                                                  75
                                                              160
                                                     50
140
                                                     25       140
120                                                  10
                                                      3       120
100
                                                                    3   8 13 18 23 28 33 38 43 48 53 58 63 68 73
      4   9 14 19 24 29 34 39 44 49 54 59 64 69 74
                      Alter in Jahren                                              Alter in Jahren
Erweiterung auf 2-dimensionale Grundmenge
Frage: Lassen sich Referenzbereiche angeben in Abhängigkeit von zwei
Einflussgrößen, z.B. Alter und Größe oder Alter und BMI?

Erste (zaghafte) Versuche!

Problem scheint interessant zu sein, aber sehr rechenintensiv, wenn man
nur (ausgewählte) Standardsoftware benutzen will.

Grundansatz ähnlich wie bislang:
      x ( y / µ)λ − 1
    z= =              ( λ ≠ 0)     bzw.     z = x / σ = ln( y / µ) / σ   ( λ = 0)
      σ       λσ

bleibt, nur dass die Parameter λ, µ und σ jetzt aus Funktionen zweier
unabhängiger Variabler ausgelesen werden: L(t,u), M(t,u) und S(t,u).
Loglikelihood analog:
           n ⎛                                                                                2
                                                                                                ⎞
                                                         y                                z
    l = ∑ ⎜⎜ − ln( 2π ) − ln( y i ) + L(t i , ui ) ln        i
                                                                     − ln(S(t i , ui )) −   i   ⎟
         i =1 ⎝                                       M (t i , u i )                       2 ⎟⎠

  Glättung jetzt in zwei Dimensionen:

   1 ⎧⎪ ⎡ ∂ 2                                                                 ⎤ ⎫⎪
                           2                              2                     2
                         ⎤             ⎡ ∂2             ⎤        ⎡ ∂2
l − ∫ ⎨α λt ⎢ 2 L(t , u )⎥ + α λt α λu ⎢       L(t , u )⎥ + α λu ⎢ 2 L(t , u )⎥ ⎬ d t d u
   2 ⎪ ⎣ ∂t
      ⎩                  ⎦             ⎣ ∂t ∂u          ⎦        ⎣ ∂u         ⎦ ⎪⎭
    ⎧
  1 ⎪ ⎡∂      2
                        ⎤
                          2
                                      ⎡ ∂  2
                                                        ⎤
                                                          2
                                                                 ⎡∂   2
                                                                                ⎤ ⎫⎪
                                                                                   2

− ∫ ⎨αµt ⎢ 2 M (t , u )⎥ + αµt αµu ⎢          M (t , u )⎥ + αµu ⎢ 2 M (t , u )⎥ ⎬ d t d u
  2 ⎪ ⎣ ∂t              ⎦             ⎣ ∂t∂u            ⎦        ⎣ ∂u           ⎦ ⎪⎭
    ⎩
    ⎧
  1 ⎪    ⎡  ∂ 2
                       ⎤
                         2
                                      ⎡  ∂ 2
                                                       ⎤
                                                         2
                                                                ⎡  ∂ 2
                                                                              ⎤
                                                                                2
                                                                                  ⎫⎪
− ∫ ⎨ασt ⎢ 2 S(t , u )⎥ + ασt ασu ⎢           S(t , u )⎥ + ασu ⎢ 2 S(t , u )⎥ ⎬ d t d u
  2 ⎪ ⎣ ∂t             ⎦              ⎣ ∂t∂u           ⎦        ⎣ ∂u          ⎦ ⎪⎭
    ⎩
   → max

Glättungsparameter für L, M und S in jeweils zwei Richtungen
• Größere Variabilität zwingt bei gleichbleibenden Stichprobenumfängen
  zu stärkerer Glättung.

• Im Einzelfall abzuwägen, ob man sich durch zweite Einflussgröße
  wirklich verbessert oder ob man sich besser anders behilft (z.B. durch die
  Nutzung von Zielgröße, die bereits auf Körperoberfläche standardisiert ist).

• Man kann durch geeignete Wahl der t- und u- Komponenten der
  Glättungsparameter Prioritäten setzen hinsichtlich der Genauigkeit der
  Modellierung des Einflusses der beiden unabhängigen Variablen.
Probleme bei Realisierung mit (bei uns) vorhandener Software:

SAS/STAT bzw. SAS/IML:
• unterstützt zwar Splines, aber nicht zweidimensional (?)

MatLab:
• unterstützt prinzipiell zweidimensionale Splines
• keine Speicherung der Spline-Koeffizienten, nur Ausgabe der fertig
  gefitteten Daten auf Zielraster ⇒ rein numerische Bildung der
  Ableitungen, Integrale und Optimierung.
• Ausgangswerte für Interpolation müssen auf Rechteckgitter vorliegen
t (Alter)

   u
(Körper-
 größe)

       Beispiel: aus 12 Messwerten werden 70 Gitterpunkte gebildet

        ⇒ beträchtliche Erhöhung der Dimension des Optimierungsproblems
        ⇒ sehr unattraktive Rechenzeiten (> 24 Stunden; Mehrfachläufe mit
          verschiedenen Glättungen erforderlich)
Beispieldarstellung zweidimensionaler Referenzwerte:
         ein diagnostischer Parameter über Alter und Körpergröße
              Median, Ober- und Untergrenze (3 %, 50 %, 97%)
             Darstellung hier nur anhand eines Teils der Daten und
             mit noch zu schwacher Glättung über die Körpergröße

     Diagnostischer
     Parameter

                      Körpergröße
                                                      Alter
Für praktische Anwendung wäre Software-Unterstützung erforderlich oder mehrere
zweidim. Tabellen (z.B. Parameter über Alter in separaten Tabellen nach Körpergröße
Förderhinweis:

Die Arbeit wurde unterstützt durch das Kompetenznetz Angeborene
Herzfehler, gefördert vom Bundesministerium für Bildung und Forschung
(Förderkennzeichen: 01G10210)

                                 Literatur
 •   Cole, T.J. and Green, P.J. (1992). Smoothing reference centile curves:
     the LMS method and penalized likelihood. Statistics in Medicine 11,
     1305-1319.
 •   Dubowy, K.-O., Bernitzki, ST., Peters, B. (2006). Objektive Belastbar-
     keit von Patienten mit angeborenen Herzfehlern. Die medizinische
     Welt 57, 158-163.
 •   Pan, H. and Cole, T.J. (2004). A comparison of goodness of fit tests for
     age-related reference ranges. Statistics in Medicine 23, 1749-1765.
Sie können auch lesen