Schätzung von ein- und zwei-dimensionalen Perzentilkurven mit der LMS-Methode
←
→
Transkription von Seiteninhalten
Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten
Herbstworkshop „Flexible Regressionsmodelle“ Magdeburg, 22./23. November 2007 Schätzung von ein- und zwei- dimensionalen Perzentilkurven mit der LMS-Methode Siegfried Kropf1), Brigitte Peters1), Karl-Otto Dubowy2) 1) Institut f. Biometrie u. Medizinische Informatik, Otto-von-Guericke-Universität Magdeburg 2) Klinik für Angeborene Herzfehler, Herzzentrum NRW Bad Oeynhausen
Problemstellung Gesucht: altersabhängige Referenzwerte für diagnostische Parameter aus großen Stichproben ⇒ Detektion von pathologischen Befunden (häufig Perzentile 90 und 97) ⇒ Umrechnen von Rohwerten in SDS-Werte (Standard Deviation Scores) HR_peak (1/min) HR_peak (1/min) weiblich Perz. männlich 220 220 200 200 97 180 90 180 160 75 160 50 140 25 140 120 10 3 120 100 3 8 13 18 23 28 33 38 43 48 53 58 63 68 73 4 9 14 19 24 29 34 39 44 49 54 59 64 69 74 Alter in Jahren Alter in Jahren
Zu berücksichtigende Probleme: • Parameterwerte werden in der Regel nicht normalverteilt sein. • Vollständig nichtparametrische Perzentilschätzung könnte zu große Stichproben erfordern. • Altersabhängigkeit ist vorhanden, aber zumeist nicht linear (z.B. Wachstumsschübe bei Körpergröße). • Altersgruppen wären andererseits irgendwie künstlich; die Natur hat keine Sprünge. Vorschlag von Cole und Green (1992): • Erweiterung des Normalmodells: es wird unterstellt, dass für die unter- suchte Zufallsgröße y = y(t) bei fixem t die Größe yλ normalverteilt ist (Box-Cox-Potenz λ; damit schiefe Verteilungen modellierbar). • Für die Parameter der resultierenden Verteilung wird angenommen, dass sie stetig und glatt über die Zeit variieren; Schätzung über einen penali- sierten Likelihoodansatz.
Verteilungsmodell bei fixiertem Alter • Zielgröße y soll nur positive Werte annehmen • Median µ • yλ soll normalverteilt sein (bzw. im Grenzfall λ = 0 soll ln(y) normal- verteilt sein), ⇒ Einbeziehung ursprünglich schiefer Verteilungen • betrachten dann Box-Cox-transformierte Größe ( y / µ)λ − 1 x= , λ≠0 λ bzw. x = ln( y / µ) , λ=0 • Abbildung µ → 0 (zentrierte Normalverteilung für x) • Standardabweichung von x sei σ; für λ =1 ist σ Variationskoeffizient von y
Anwendungen: • Standard Deviation Score für einen Wert y der Zielgröße: x ( y / µ)λ − 1 z= = ( λ ≠ 0) bzw. z = x / σ = ln( y / µ) / σ ( λ = 0) σ λσ zur Charakterisierung z.B. eines medizinischen Parameterwertes in einem „Standardformat“ • Berechnung von Perzentilen: C100 α = µ (1 + λσZα )1/ λ ( λ ≠ 0) bzw. C100 α = µ e ( σZα ) ( λ = 0) (Zα = α-Quantil der Standardnormalverteilung)
Berücksichtigen der Altersabhängigkeit • Die drei Parameter λ, µ und σ werden jetzt als altersabhängige Größen betrachtet (bzw. abhängig von anderer Einflussgröße). • Man unterstellt einen stetigen und glatten Verlauf. • Die Zeitverläufe der drei Parameter werden als L(t), M(t) und S(t) bezeichnet und geben der Methoden den Namen „LMS-Methode“. z= (y / M (t )) − 1 L( t ) • Aus der Standardisierungsformel und der für z L(t )S(t ) angenommenen Standardnormalverteilung lässt sich die Dichte für y und damit die Loglikelihood-Funktion der Stichprobe ableiten: n ⎛ y z 2 ⎞ l = l(L, M, S ) = ∑ ⎜⎜ − ln( 2π ) − ln( y i ) + L(t i ) ln i − ln(S(t i )) − i ⎟ i =1 ⎝ M (t i ) 2 ⎟⎠
• Um den stetigen und glatten Verlauf der Funktionen L(t), M(t) und S(t) zu gewährleisten, wird für jede dieser Funktionen bei der Maximisierung der Likelihood-Funktion ein Strafterm eingefügt (penalized likelihood): 1 1 1 α λ ∫ {L′′(t )} d t − αµ ∫ {M ′′(t )} d t − ασ ∫ {S ′′(t )} d t 2 2 2 l− → max 2 2 2 αλ, αµ und ασ sind Glättungsparameter Genauigkeit vs. Glattheit • Zwischen den beobachteten Zeitpunkten wird mittels kubischer Splines interpoliert. Optimierung iterativ über Fisher-Scoring, erste und zweite Ableitungen können explizit angegeben werden. • Für Glättungsparameter werden Empfehlungen gegeben, die aber nicht immer gut funktionieren. Auch Tests angeboten. Praxis häufig: nach optischem Eindruck, zuerst für µ, dann λ und σ.
Mögliches Problem: unterschiedliche Variabilität über Alter • Glättung kann in unterschiedlichen Bereichen der unabhängigen Variablen (z.B. Alter) unterschiedlich wichtig sein. • Vorschlag von Pan und Cole (2004): Zweiphasiges Vorgehen – erst „normale“ Anpassung der Perzentilkurven, – dann Alter umskalieren, so dass 50%-Perzentilkurve auf eine Gerade verzerrt wird (falls überhaupt monotoner Verlauf), – neue Analyse mit umskaliertem Alter.
LMS-Programm nach Cole and Green (1992) Basisversion frei
Anwendungen im KN Angeborene Herzfehler • Erste passive Anwendungen der LMS-Methode in unserem Institut bei Qualitätssicherung in Pädiatrischer Endokrinologie (Röhl, Mohnike) • Aktuell aktive Normwertermittlungen bzw. Alters- und Geschlechts- standardisierung für kardiologische Diagnostik, z.B. Laufbandergometrie. Protokoll zur Laufbandergometrie • 1,5 Minuten Stufen; Erholung 2km/h eben n = 484 weiblich • Stufe I 2,5 km/h 0% Steigung n = 580 männlich • Stufe II 3,0 km/h 3% Steigung • Stufe III 3,5 km/h 6% Steigung Alter 3 – 78 Jahre • Stufe IV 4,0 km/h 9% Steigung • Stufe V 4,5 km/h 12% Steigung • Stufe VI 5,0 km/h 15% Steigung • Stufe VII 5,5 km/h 18% Steigung • Stufe VIII 6,0 Km/h 21% Steigung • Stufe IX 6,5km/h 21% Steigung etc. Dubowy/Baden 2002
• Ca. 50 Funktionsparameter betrachtet. • Werden automatisch bestimmt und in Standardformat gespeichert. • Kenntnis aller altersabhängigen Normwerte auch für Experten schwer, Umrechnung in Perzentile oder SDS-Werte hilfreich. • Entsprechende Tabellen getrennt nach Geschlecht erarbeitet. • Bereitstellung von Umrechnungen / Grafiken über Web vorbereitet, zusammen mit CIO in Göttingen, noch Copyrights zu klären. • Einbau der Umrechnungen in Ergometrie-Software angedacht. • In klinischen Studien Einfluss von Störgrößen weitgehend eliminiert ⇒ Biasvermeidung und Varianzreduktion; im Kindes- und Jugendalter besonders wichtig.
Beispiele: HR_peak (1/min) HR_peak (1/min) weiblich Perz. männlich 220 220 200 200 97 180 90 180 160 75 160 50 140 25 140 120 10 3 120 100 3 8 13 18 23 28 33 38 43 48 53 58 63 68 73 4 9 14 19 24 29 34 39 44 49 54 59 64 69 74 Alter in Jahren Alter in Jahren
Erweiterung auf 2-dimensionale Grundmenge Frage: Lassen sich Referenzbereiche angeben in Abhängigkeit von zwei Einflussgrößen, z.B. Alter und Größe oder Alter und BMI? Erste (zaghafte) Versuche! Problem scheint interessant zu sein, aber sehr rechenintensiv, wenn man nur (ausgewählte) Standardsoftware benutzen will. Grundansatz ähnlich wie bislang: x ( y / µ)λ − 1 z= = ( λ ≠ 0) bzw. z = x / σ = ln( y / µ) / σ ( λ = 0) σ λσ bleibt, nur dass die Parameter λ, µ und σ jetzt aus Funktionen zweier unabhängiger Variabler ausgelesen werden: L(t,u), M(t,u) und S(t,u).
Loglikelihood analog: n ⎛ 2 ⎞ y z l = ∑ ⎜⎜ − ln( 2π ) − ln( y i ) + L(t i , ui ) ln i − ln(S(t i , ui )) − i ⎟ i =1 ⎝ M (t i , u i ) 2 ⎟⎠ Glättung jetzt in zwei Dimensionen: 1 ⎧⎪ ⎡ ∂ 2 ⎤ ⎫⎪ 2 2 2 ⎤ ⎡ ∂2 ⎤ ⎡ ∂2 l − ∫ ⎨α λt ⎢ 2 L(t , u )⎥ + α λt α λu ⎢ L(t , u )⎥ + α λu ⎢ 2 L(t , u )⎥ ⎬ d t d u 2 ⎪ ⎣ ∂t ⎩ ⎦ ⎣ ∂t ∂u ⎦ ⎣ ∂u ⎦ ⎪⎭ ⎧ 1 ⎪ ⎡∂ 2 ⎤ 2 ⎡ ∂ 2 ⎤ 2 ⎡∂ 2 ⎤ ⎫⎪ 2 − ∫ ⎨αµt ⎢ 2 M (t , u )⎥ + αµt αµu ⎢ M (t , u )⎥ + αµu ⎢ 2 M (t , u )⎥ ⎬ d t d u 2 ⎪ ⎣ ∂t ⎦ ⎣ ∂t∂u ⎦ ⎣ ∂u ⎦ ⎪⎭ ⎩ ⎧ 1 ⎪ ⎡ ∂ 2 ⎤ 2 ⎡ ∂ 2 ⎤ 2 ⎡ ∂ 2 ⎤ 2 ⎫⎪ − ∫ ⎨ασt ⎢ 2 S(t , u )⎥ + ασt ασu ⎢ S(t , u )⎥ + ασu ⎢ 2 S(t , u )⎥ ⎬ d t d u 2 ⎪ ⎣ ∂t ⎦ ⎣ ∂t∂u ⎦ ⎣ ∂u ⎦ ⎪⎭ ⎩ → max Glättungsparameter für L, M und S in jeweils zwei Richtungen
• Größere Variabilität zwingt bei gleichbleibenden Stichprobenumfängen zu stärkerer Glättung. • Im Einzelfall abzuwägen, ob man sich durch zweite Einflussgröße wirklich verbessert oder ob man sich besser anders behilft (z.B. durch die Nutzung von Zielgröße, die bereits auf Körperoberfläche standardisiert ist). • Man kann durch geeignete Wahl der t- und u- Komponenten der Glättungsparameter Prioritäten setzen hinsichtlich der Genauigkeit der Modellierung des Einflusses der beiden unabhängigen Variablen.
Probleme bei Realisierung mit (bei uns) vorhandener Software: SAS/STAT bzw. SAS/IML: • unterstützt zwar Splines, aber nicht zweidimensional (?) MatLab: • unterstützt prinzipiell zweidimensionale Splines • keine Speicherung der Spline-Koeffizienten, nur Ausgabe der fertig gefitteten Daten auf Zielraster ⇒ rein numerische Bildung der Ableitungen, Integrale und Optimierung. • Ausgangswerte für Interpolation müssen auf Rechteckgitter vorliegen
t (Alter) u (Körper- größe) Beispiel: aus 12 Messwerten werden 70 Gitterpunkte gebildet ⇒ beträchtliche Erhöhung der Dimension des Optimierungsproblems ⇒ sehr unattraktive Rechenzeiten (> 24 Stunden; Mehrfachläufe mit verschiedenen Glättungen erforderlich)
Beispieldarstellung zweidimensionaler Referenzwerte: ein diagnostischer Parameter über Alter und Körpergröße Median, Ober- und Untergrenze (3 %, 50 %, 97%) Darstellung hier nur anhand eines Teils der Daten und mit noch zu schwacher Glättung über die Körpergröße Diagnostischer Parameter Körpergröße Alter Für praktische Anwendung wäre Software-Unterstützung erforderlich oder mehrere zweidim. Tabellen (z.B. Parameter über Alter in separaten Tabellen nach Körpergröße
Förderhinweis: Die Arbeit wurde unterstützt durch das Kompetenznetz Angeborene Herzfehler, gefördert vom Bundesministerium für Bildung und Forschung (Förderkennzeichen: 01G10210) Literatur • Cole, T.J. and Green, P.J. (1992). Smoothing reference centile curves: the LMS method and penalized likelihood. Statistics in Medicine 11, 1305-1319. • Dubowy, K.-O., Bernitzki, ST., Peters, B. (2006). Objektive Belastbar- keit von Patienten mit angeborenen Herzfehlern. Die medizinische Welt 57, 158-163. • Pan, H. and Cole, T.J. (2004). A comparison of goodness of fit tests for age-related reference ranges. Statistics in Medicine 23, 1749-1765.
Sie können auch lesen