Tutorial: Corona Reproduktionszahl - Heike Nill

Die Seite wird erstellt Franz Hinrichs
 
WEITER LESEN
Tutorial: Corona Reproduktionszahl - Heike Nill
covid19-statistik.de

 Tutorial: Corona Reproduktionszahl
 DR. FLORIAN NILL, Stand 26.04.2020, Update 28.04.2020

Das Robert-Koch-Institut (RKI) hatte im Lagebericht vom 15.04.2020 erstmals aus-
führlicher über seine modifizierte Schätzung der Fallzahlen unter Berücksichtigung
des Meldeverzugs (sog. „Nowcasting“) berichtet und in dem Zusammenhang auch
erstmals darauf hingewiesen, dass die aus diesen Fallzahlen errechnete Reprodukti-
onszahl nun mit = , den Wert 1 unterschritten hätte.

Ab dem Moment wurde quasi über Nacht auf breiter Medienebene anerkannt, dass
nun definitiv nicht mehr von exponentiellem Wachstum gesprochen werden konnte.
Der von Merkel seinerzeit mit Ihren unglücklichen Zielvorgaben von zunächst 10 und
später 14 Tagen eingeläutete Wettbewerb um die jeweils aktuellste Verdoppelungs-
zeit wurde schlagartig beendet.

Seitdem ist die Reproduktionszahl nun die neue allseits bemühte Wahrheitskugel zur
Corona-Lage der Nation. Wenigstens scheint sie selbst für belesenere Wissenschafts-
redakteure zu kompliziert, als dass die Medien jetzt noch versuchen würden, eigene
Berechnungen anzustellen. Auch die JHU ist jetzt ausgesperrt, aktuell wird zur Re-
produktionszahl nur noch das RKI zitiert. Und auch Merkel herself ist nun überzeugt,
dass die Reproduktionszahl das neue Maß der Dinge darstelle.

Trotzdem geht das Verwirrspiel bereits in die nächste Runde: Warum ist denn der
Wert schon seit ca. 20.03. kleiner als eins? Warum hat das damals niemand erwähnt.
Sind wir etwa über das wahre Ausmaß der Epidemie belogen worden? Warum genügt
es nicht, sich mit einem Wert R ≈1 zufrieden zu geben? Warum klettert der Wert von
jüngst 0,7 jetzt schon wieder auf 0,9? Usw., usw., …Dies hat mich bewogen, parallel
zu diesem Tutorial heute auch einen Faktencheck zum Thema online zu stellen.

Folgende Ziele habe ich mir in diesem Tutorial vorgenommen:

 • Eine möglichst nachvollziehbare Definition zu geben, wie das RKI die Repro-
 duktionszahl aus seinen Statistik-Daten berechnet. (Ich habe lange gesucht,
 aber in all ihren Veröffentlichungen der jüngeren Zeit hat das RKI vermieden,
 eine Formel dafür niederzuschreiben).
 • Eine anschauliche – auch grafische – Herleitung, dass und wie die Reprodukti-
 onszahl die Beschleunigung der Infiziertenzahlen (nach oben wie nach unten)
 und somit die Krümmung der entsprechenden Kurven misst.
 • Daraus abgeleitet die Aussage, dass bei konstanten R-Werten
 − R>1 exponentiellem Wachstum,
 − R
26. April 2020 Dr. Florian Nill Home

Wie schnell fährt Covid-19?

Als Bürger der Auto-Nation Deutschland sind uns die folgenden Begriffen sicherlich
vertraut:

 • Gefahrene Strecke in km
 • Gefahrene Geschwindigkeit in km/h
 • Beschleunigung von 0 auf 100 in xxx Sek.

Nun, ich will den Beweis antreten, dass man nicht viel mehr braucht als das, um
auch die Auswirkung der Reproduktionszahl zu verstehen.

Zunächst wohl klar: Wir zählen hier keine km, sondern Covid-19 Infizierte ( ) - und
zwar alle von Beginn an, auch wenn sie mittlerweile wieder gesund sind. Der Buch-
stabe nummeriert hierbei den Tag, an dem wir uns die Zahlen gerade anschauen.

Leider muss ich mich an der Stelle schon gleich selbst unterbrechen, weil ja nicht
klar ist, wie man ( ) gezählt haben will:

 Alle bis zum Tag t Gemeldeten? Welcher Zeitstempel ist mit dann gemeint
 (Abstrich im Labor, Feststellung Testergebnis, Meldung ans Gesundheitsamt,
 Meldung an die Landesämter, Meldung an das RKI)? Oder doch besser alle, die
 am oder vor dem Tag Symptome hatten? Was mache ich mit denen, die gar
 keine Symptome haben? Am allerbesten wäre wohl, wir könnten zählen, wer
 bis zum Tag alles infiziert war!? Leider heißt diese Zahl Dunkelziffer und ist
 daher genauso unfassbar wie die Dunkle Materie da draußen im Weltall …

Lasst mich diese Diskussion einfach nach hinten schieben und annehmen, wir hätten
eine gemeinsame Zählvorschrift für ( ) gefunden, die wir jetzt erstmal durchhalten
wollen.

Zurück zu unserem Auto: Wenn also ( ) unseren gefahrenen Kilometern entspricht,
dann wäre die zugehörige Geschwindigkeit ( ) die Zunahme von ( ) pro Stunde.
Nun, da es schon schwer genug ist, täglich zu zählen, wechseln wir hier besser die
Zeiteinheit und zählen stattdessen den Zuwachs pro Tag, also z.B. von gestern auf
heute:

 ( ) = ( ) − ( − )

Wir nennen ( ) die Neuinfizierten am Tag . Die Zahl hat also die Interpretation ei-
ner Geschwindigkeit. Nun ist der nächste Schritt wohl offensichtlich. Mit Beschleuni-
gung bezeichnet man bekanntlich die Zunahme von Geschwindigkeit (z.B. pro Se-
kunde, pro Stunde oder pro Tag). Es gibt auch negative Beschleunigungen, nämlich
dann, wenn die Geschwindigkeit abbremst. Für den Zuwachs/ die Abnahme an Ge-
schwindigkeit führen wir nun die Bezeichnung ∆ ein:

 ∆ ( ) = ( ) − ( − )

 2
26. April 2020 Dr. Florian Nill Home

Hier ein übersichtliches Beispiel:

 Tag 01.04. 02.04. 03.04. 04.04. 05.04. 06.04. 07.04.
 I(t) 20.000 24.000 32.000 44.000 60.000 80.000 104.000
 N(t) 4.000 8.000 12.000 16.000 20.000 24.000
 ∆N(t) 4.000 4.000 4.000 4.000 4.000
 In dem Beispiel wächst die Zahl der Neuinfizierten jeden Tag linear um 4.000 Personen an.
 Mit anderen Worten, die Beschleunigung liegt konstant bei 4.0002.

In der Realität wäre das ein fatales Beispiel, obwohl es noch lange kein exponentiel-
les Wachstum darstellt. In der Tat, wenn wir die Tage durchnummerieren, beginnend
mit dem 01.04. als = , dann ergibt sich ( ) offensichtlich gemäß folgender Formel
(nachrechnen erlaubt):

 ( ) = . + . ( + )

d.h. ( ) steigt hier „nur“ quadratisch mit der Zeit t an.

Steigung und Krümmung

Um die folgenden Mathe-Daumenschrauben etwas erträglicher zu gestalten, hier ein
paar Grafiken zum obigen Beispiel.

 180.000
 Infizierte I(t)
 160.000

 140.000

 120.000

 100.000

 80.000

 60.000

 40.000

 20.000

 0
 1.4 2.4 3.4 4.4 5.4 6.4 7.4 8.4 9.4

 Infizierte I(t)

 Fig 1: Die Gesamtzahl der Infizierten aufgetragen über der horizontalen Zeitachse

In Fig 1 erkennen wir, dass die Kurve mit jedem Tag steiler wird. Die Steigung ist
hierbei jeweils gegeben durch den Höhenunterschied zwischen zwei benachbarten
Punkten, also gerade durch ( ) = ( ) − ( − )., s. Fig 2:

2
 Um bei Mathephobikern keine Würggefühle zu erzeugen, unterschlage ich hier mal die übliche Sado-Nummer
mit den physikalischen Einheiten .
 3
26. April 2020 Dr. Florian Nill Home

 180.000

 160.000

 140.000

 120.000

 100.000
 N(t)
 80.000
 N(t-1)
 60.000

 40.000

 20.000

 0
 1.4 2.4 3.4 4.4 5.4 6.4 7.4 8.4 9.4

 Infizierte I(t) Zuwachs N(t)

 Fig 2: Die Steigung von I(t) wird durch die täglichen Neuinfizierten N(t) bestimmt.

Die wachsende Steigung in Fig 2 ist also gleichbedeutend mit der zunehmenden Ge-
schwindigkeit ∆ ( ) > . Würden die Neuinfizierten stattdessen konstant bleiben, d.h.
∆ ( ) = , dann wäre auch die Steigung immer gleich und die Kurve wäre eine Gerade
(linearer Anstieg). Schließlich, im Fall abnehmender Neuinfizierter ∆ ( ) < , würde
die Steigung der Kurve abnehmen und das Wachstum würde abbremsen.

Wie man sich auch schnell durch hinschauen überzeugt, ist wachsende Steigung
gleichbedeutend mit Krümmung nach oben und fallende Steigung gleichbedeutend
mit Krümmung nach unten.

Zuwachsraten

Nun treiben wir diese Brain-Gymnastik ja nicht zum Selbstzweck, sondern getrieben
aus der Hoffnung, aus Kennzahlen für die Vergangenheit die Entwicklung für die Zu-
kunft vorhersagen zu können. Hierzu suchen wir nach möglichst allgemein oder zu-
mindest näherungsweise gültigen Beziehungen zwischen gefahrener Strecke, Ge-
schwindigkeit und Beschleunigung, mit Hilfe derer wir aus der heutigen und gestri-
gen Situation die morgige (zumindest näherungsweise) vorausberechnen können. Mit
anderen Worten: Wir bauen uns ein dynamisches Modell.

Das in Corona-Zeiten wohl bekannteste Modell heißt exponentielles Wachstum. Es ist
dadurch beschrieben, dass die Geschwindigkeit proportional zur bereits zurückgeleg-
ten Strecke stetig zunimmt. Sowas endet leider immer tödlich, nicht nur beim Auto-
fahren… In unserem Modell lautet die Formel:

 ( + ) = ( ) (1)

Die Kennzahl heißt im Fall > Zuwachsrate und für < Verminderungsrate.
Wenn r zeitlich konstant bleibt (!), beschreibt Gleichung (1) exponentielles Wachstum
(für > ) bzw. exponentielle Abnahme (für < ). Für = hätten wir keinen Zu-
wachs, d.h. I(t) würde sich zeitlich nicht verändern.
 4
26. April 2020 Dr. Florian Nill Home

Aus der Zuwachsrate errechnet sich auch die sog. Verdoppelungszeit, für weitere De-
tails dazu siehe http://covid19-statistik.de/verdoppelungszeiten.html.

Die Reproduktionszahl

Beim exponentiellen Wachstum steigt auch die Zahl der Neuinfizierten exponentiell
mit der gleichen Zuwachsrate 

 ∆ ( + ) = ( + ) − ( ) = ( ( ) − ( − )) = ( )

Dies lässt sich auch umschreiben in

 ( + ) = ( + ) ( ) (2)

Gleichung (2) können wir nun losgelöst von ihrer Herleitung auch zur Beschreibung
nicht-exponentieller Dynamiken mit zeitveränderlichen Zuwachsraten ( ) verwen-
den3.

Dies führt uns direkt zum Begriff der Reproduktionszahl ( ). Sie gibt an, wie viele
Personen ein Neuinfizierter von heute in Zukunft durchschnittlich anstecken wird.
Nehmen wir für den Moment an, die Ansteckungen wären bereits am Folgetag sicht-
bar, dann würde offenbar gelten

 ( + ) = ( ) ( ) (3)

Das heißt, der Zusammenhang zwischen Zuwachsrate und Reproduktionszahl wäre

 ( ) = + ( ) (4)

Im Allgemeinen ist ( ) zeitlich nicht konstant, sondern hängt von der aktuellen epi-
demologischen Situation ab. Die Fallunterscheidungen für ∆ ( ) in der Diskussion
nach Fig 2 übersetzen sich zunächst in > , < und = , und folglich in

 > ➔ Neuinfizierte werden mehr ➔ Kurve krümmt sich nach oben
 < ➔ Neuinfizierte werden weniger ➔ Kurve krümmt sich nach unten
 = ➔ Neuinfizierte bleiben gleich ➔ Kurve verläuft linear (geradlinig)

Leider ist Gleichung (3) nun doch etwas zu einfach gedacht. Neuinfizierte sind in der
Regel über mehrere Tage infektiös. Außerdem vergehen auch mehrere Tage, bis ein
Neuinfizierter als solcher erkannt wird und damit in der Statistik für ( ) auftaucht.
Deswegen führt die Biomathematik hier eine sog. Generationszeit in die Modellie-
rung ein. Man interpretiert hierbei Veränderungen nicht von einem Tag zum nächs-
ten, sondern betrachtet jeweils Durchschnittswerte über Zeitintervalle von Tagen.

In diesem Sinne betrachten wir jetzt die Zahl der über die letzten g Tage gemittelten
Neuinfizierten ( )

 (5)
 ( ) = [ ( ) − ( − )]
 
3 In dem Fall unterscheidet sich die Zuwachsrate in (2) von der in (1).
 5
26. April 2020 Dr. Florian Nill Home

Analog zu Gleichung (3) kommen wir dann zu einer korrigierten Reproduktionszahl 
gemäß

 ( + ) = ( ) ( ) (6)

 ( ) gibt also an, wie viele Personen von einem innerhalb der letzten g Tage Neuin-
fizierten in den nächsten g Tagen durchschnittlich angesteckt werden4.

Die Experten des RKI argumentieren nun, dass bei SARS-CoV-2 der Ansatz mit g=4
Tagen momentan der passendste sei:

 Die Generationszeit beschreibt die mittlere Zeitspanne von der Infektion einer Person bis
 zur Infektion der von ihr angesteckten Folgefälle. Sie entspricht etwa dem seriellen Inter-
 vall, dass die mittlere Dauer zwischen dem Erkrankungsbeginn eines Falles und dem Er-
 krankungsbeginn seiner Folgefälle angibt. Diese Zeitspanne schätzen wir auf etwa 4 Tage,
 weil die Infektiosität zu Beginn der Infektion besonders hoch ist und sich die infizierte Per-
 son vor dem Symptombeginn nicht darüber bewusst ist, dass sie bereits andere anstecken
 kann. Die Generationszeit ist dabei keine stabile Eigenschaft des Erregers, sondern hängt
 ebenso wie die Reproduktionszahl von verschiedenen Faktoren ab und kann sich über die
 Zeit verändern. Zum Beispiel führen Maßnahmen zur Isolation von bestätigten Fällen und
 Quarantäne von Kontaktpersonen nicht nur zu einer Verringerung der Anzahl von Folge-
 fällen, sondern auch zu einer Verkürzung der Generationszeit, weil die wenigen Anste-
 ckungen direkt am Anfang der Infektion passieren.
 https://www.rki.de/DE/Content/Infekt/EpidBull/Archiv/2020/Ausga-
 ben/17_20.pdf?__blob=publicationFile (online-Vorabversion vom 15.04.20)

Analog zu Fig 2 schauen wir uns jetzt diese neue Begriffswelt im Diagramm Fig 3
an:

 180.000
 I(t+4)
 160.000

 140.000

 120.000
 4 N4(t+4)
 100.000

 80.000
 I(t)
 60.000

 40.000 4 N4(t)
 I(t-4)
 20.000

 0
 4
 1.4 2.4 3.4 4.4 5.4 6.4 7.4 8.4 9.4

 Infizierte I(t) Zuwachs N(t) 4-Tages-Zuwachs

 Fig 3: Geometrische Visualisierung der Neuinfektionen ( )

4
 Das Modell nimmt auch an, dass nach den ersten g Tagen keine Infektiosität mehr vorhanden ist.
 6
26. April 2020 Dr. Florian Nill Home

Wir lesen hieraus ab, dass ( ) die Steigung der interpolierenden Geraden (rot) zwi-
schen I(t) und I(t-4) misst, und die korrigierte Reproduktionszahl ( ) gerade das
Verhältnis der Steigungen zwischen I(t+4) - I(t) und I(t) - I(t-4) angibt:

 ( + ) − ( ) (7)
 ( ) = ( + )/ ( ) =
 ( ) − ( − )

Somit bekommen wir die gleiche geometrische Interpretation wie zuvor:

Für ( ) > wachsen die Neuinfektionen im Generationszeitraum von 4 Tagen, für
 ( ) = bleiben sie gleich und für ( ) < nehmen sie ab.

In unserem Eingangsbeispiel berechnen sich diese Werte wie folgt:

 Tag 01.04. 02.04. 03.04. 04.04. 05.04. 06.04. 07.04. 08.04. 09.04.
 I(t) 20.000 24.000 32.000 44.000 60.000 80.000 104.000 132.000 164.000
 N(t) n.a. 4.000 8.000 12.000 16.000 20.000 24.000 28.000 32.000
 ∆N(t) n.a. 4.000 4.000 4.000 4.000 4.000 4.000 4.000 4.000
 R(t) n.a. 2,0 1,5 1,3 1,3 1,2 1,2 1,1 n.a.
 N4(t) n.a. 10.000 26.000
 R4(t) n.a. 2,6 n.a.

Offenbar führt also die Wahl einer höheren Generationszeit bei zunehmendem
Wachstum ( ) > zu deutlich höheren Reproduktionszahlen.

Zusatzbemerkung:

Nach der Konvention des RKI würde Gleichung (7) die Reproduktionszahl zum Zeit-
punkt t+4 berechnen (Epid Bull 2020;17:10 – 15):

 Der so ermittelte R-Wert wird dem letzten dieser 8 Tage zugeordnet, weil erst
 dann die gesamte Information vorhanden ist. Daher beschreibt dieser R-Wert
 keinen einzelnen Tag, sondern ein Intervall von 4 Tagen. Das dazu gehörende
 Infektionsgeschehen liegt jeweils eine Inkubationszeit vor dem Erkrankungs-
 beginn.

Das kann man jetzt als Geschmacksache abtun (ist es auch), aber aus systemati-
schen Gründen würde ich doch lieber bei meiner Konvention bleiben:

 a. Aus mathematisch-geometrischen Gründen sollte der Zeitstempel in der Mitte
 der Krümmungsperiode gewählt sein, die gerade beschrieben wird.
 b. Aus fachlicher Sicht ist die Reproduktionszahl sowohl eine Eigenschaft der In-
 fektiösen wie auch der Infizierbaren (bzw. deren Anteil in der Bevölkerung).
 Aber ihre wesentliche Zweckbestimmung ist, aus den jüngst Neuinfizierten die
 morgigen Neuinfizierten zu prognostizieren. Also sollte man sie dem Zeitpunkt
 an der Schnittstelle zwischen diesen beiden Ereignissen zuordnen.

 7
26. April 2020 Dr. Florian Nill Home

Ergebnisse des RKI

Ab jetzt sprechen wir der Einfachheit halber nur noch von der Reproduktionszahl ge-
mäß Definition (7) und lassen die tiefgestellte 4 wieder weg. Der Vollständigkeit hal-
ber sei auch noch erwähnt, dass wir eigentlich immer von der sog. effektiven Repro-
duktionszahl zum derzeitigen Epidemie Verlauf sprechen, die Basisreproduktionszahl
wäre die zur Anfangszeit der Epidemie Gültige.

Um uns ( ) zu einem angefragten Zeitpunkt t aus Gleichung (7) zu bestimmen,
müssen wir uns immer die Infiziertenzahlen I(t) aus den vergangenen 8 Tagen be-
sorgen, was auch bedeutet, immer mindestens die Generationszeit der letzten 4
Tage abzuwarten. Da die Daten aber aufgrund der allseits beklagten rückwirkenden
Nachmeldungen frühestens nach einer Abklingdauer von weiteren 3 Tagen vertrau-
enswürdig und stabil werden (Aussage RKI), kann R(t) derzeit frühestens mit einem
Verzug von 7 Tagen ausgewertet werden. Dass das RKI den Wert immer dem Ende
der 8-Tagesperiode zuordnet, ist nur eine scheinbar bessere Aktualität. Beschrieben
wird mit R der Sachverhalt eines Geschehens, das sich über 8 Tage hinzieht. Mit wel-
chem Zeitstempel man diesen Zeitraum benennt, sollte man der Klarheit halber zu
jeder Auswertung dazuschreiben. Unabhängig davon sollten man auch immer im
Auge behalten, dass spätere Datennachmeldungen die Zahl rückwirkend noch bis in
die erste Nachkommastelle verändern können.

Nun zum Diskussionsgegenstand der Medien in der vergangenen Woche. In der oben
bereits zitierten Studie Epid Bull 2020;17:10 – 15 wurde folgendes Diagramm veröf-
fentlicht

Fig 4: https://www.rki.de/DE/Content/Infekt/EpidBull/Archiv/2020/Ausgaben/17_20.pdf?__blob=publi-
cationFile Vorabversionen waren online am 09.04. und 15.04.20. Die Öffentlichkeit wurde erst mit dem
Lagebericht vom 15.04.2020 auf das Paper aufmerksam gemacht.

Das Diagramm Fig 4 zeigt die vom RKI aus den Statistikerhebungen gewonnen
Werte für R im Zeitraum 02.03. – 09.04.2020. Zwei Schlussfolgerungen hieraus
möchte ich hervorheben:

 8
26. April 2020 Dr. Florian Nill Home

• Die Schwankungen der Auswertungen zu unterschiedlichen Datenständen sind
 deutlich dokumentiert. Die jeweils jüngsten Werte zu einem Datenstand sind we-
 gen der hohen Zahl der späteren Datennachmeldungen immer mit relativ großen
 Ungenauigkeiten behaftet. Eine Aussage von der Art „gestern lag R noch bei 0,7,
 heute liegt er bei 0,9“ hat also noch keinen Alarmierungswert. Stattdessen
 müsste man zu jedem neuen Wert eigentlich auch die Veränderungen der frühe-
 ren Werte angeben.
• Die R-Werte sind in der Zeit vom 11.03.-20.03 drastisch von ca. 3,3 auf 1 gefal-
 len. Seitdem schwanken die Werte dauerhaft leicht unterhalb von 1. Dies bestä-
 tigt meine mittlerweile 4 Wochen alte Analyse, der zufolge bereits seit dem
 20.03. nur noch lineares Wachstum vorliegt, siehe meine Dashboard Übersicht in
 http://covid19-statistik.de/dashboard mit letztem Stand vom 16.04. sowie Vor-
 versionen ab dem 28.03. in http://covid19-statistik.de/covid-19.pdf.

Die obige Grafik hatte vergangene Woche ein erhebliches Medienecho erzeugt, daher
habe ich mit dem heutigen Datum hierzu auch einen Faktencheck online gestellt.

Was bedeutet Nowcasting?

Gleichzeitig mit der Veröffentlichung der obigen Grafik hatte das RKI auch seine sta-
tistische Datenbasis umgestellt. Bisher gab es schon seit einiger Zeit immer zwei un-
terschiedliche Darstellungen für die Verteilung der Neuinfizierten (Fig 5 und Fig 6):

 Fig 5: Verteilung der Neuinfizierten N(t). In dieser Verteilung wird als Zeitstempel das Erkran-
 kungsdatum genutzt, falls bekannt, ansonsten das Meldedatum

 9
26. April 2020 Dr. Florian Nill Home

 Fig 6: In dieser Verteilung wird als Zeitstempel grundsätzlich das Meldedatum genutzt,
 auch wenn ein früheres (oder späteres) Erkrankungsdatum bekannt ist.

Das bekannte Problem bei der Verteilung nach Meldedatum ist die lange Verzöge-
rungszeit von der Infektion bis zur Meldung beim Gesundheitsamt. Hierdurch ist die
gesamte Kurve in Fig 6 gegenüber dem realen Krankheitsgeschehen gut 1 Woche
nach rechts verschoben. Man könnte argumentieren, dass es sich wenigstens um ei-
nen homogenen Shift handele, aber das ist wohl eher Wunschdenken.

Deswegen nutzte das RKI für seine Auswertungen bisher die Verteilung gemäß Fig 5.
Der Schwerpunkt dieser Verteilung ist gegenüber Fig 6 nicht einfach nur ca. 1 Woche
nach links verschoben ist, sondern zeigt auch deutlich erkennbar eine andere Kontur.
Dies mag auch daran liegen, dass hier Datensätze mit unterschiedlichen Zeitstempel
zusammengeworfen werden. Für mich ist daher nicht eindeutig belegt, ob diese Ver-
teilung nun näher an der Realität liegt.

Gemeinsam ist beiden Verteilungen das Problem, dass teilweise erhebliche Zeit ver-
geht, bis die Daten von den Gesundheitsämtern zum RKI gelangen. Zwar erzeugt der
Verzug keine zusätzlichen Datenfehler, die Daten werden gemäß ihrer Zeitstempel
beim RKI wieder richtig einsortiert, aber das kann gut auch mal länger als 7 Tage
dauern.

Angesichts des gewaltigen Drucks der Öffentlichkeit, der keine Akzeptanz für einen
Reporting Delay in dieser Größenordnung zulässt, hat das RKI am 15.04. mit ihrem
Nowcasting ein neues Schätzverfahren vorgestellt, das die noch fehlenden Daten nun
„vorausahnen“ soll. Zum einen werden hierbei fehlende Angaben zum Krankheitsbe-
ginn durch Schätzwerte „imputiert“, und zum anderen werden auch Schätzungen für
die Zahl der noch gar nicht gemeldeten aber hypothetisch bereits symptombehafte-
ten Fälle mit eingerechnet. Die Erwartung hierbei ist, dass diese Fälle in einigen Ta-
gen, so wie geschätzt, dann auch wirklich in den Daten auftauchen werden. Hierbei
wird auf Wahrscheinlichkeiten für den Delay zwischen Erkrankungsdatum und Melde-
datum aus den vergangenen Wochen zurückgegriffen. Außerdem werden wohl auch

 10
26. April 2020 Dr. Florian Nill Home

noch gleitende Mittelwerte gebildet, um die Sonn- und Feiertagslücken in den gemel-
deten Daten auszubügeln. Das Ergebnis wird mit folgendem Schaubild kommuniziert:

 Fig 7: Gemäß Nowcasting korrigierte Verteilung der Neuinfektionen. Man sieht hellblau die dazu
 geschätzten Balken. Diese Korrekturen werden umso höher, aber auch unschärfer, je jünger die
 Vergangenheit. Lagebericht vom 15.04.2020, Datenstand 12.04.20.

Ob sich dieser Aufwand lohnt, kann man als Außenstehender kaum beurteilen. Ich
habe auch noch keine Gegenüberstellung gesehen, die ein Nowcasting von vor 7 Ta-
gen mit den heutigen Erkenntnissen abgleicht. Wie auch immer, Fig 4 zeigt jeden-
falls, dass die Kennzahlen trotz des sicherlich gewaltigen Rechenaufwands immer
noch starken Schätzungenauigkeiten unterliegen, wenn sie jünger als 2 Wochen vor
dem letzten Datenstand liegen. Ob man sich da nicht gleich von vornherein auf die
Verteilung Fig 5. hätte beschränken können, sei mal dahingestellt.

Die der Verteilung Fig 7 zugrunde liegenden Zahlen stehen der Allgemeinheit nicht
zur Verfügung. Die Verteilung gemäß Fig 5 wurde zu Beginn vergangener Woche
erstmals in das RKI-Dashboard aufgenommen und kann nun per mouse-over täglich
manuell ausgelesen werden. Eine Gegenüberstellung der aus dieser Verteilung be-
rechneten Reproduktionszahlen mit den Werten in Fig 4 plane ich in Kürze online zu
stellen.

Update 28.04.2020:

Heute bin ich auf die Corona-Seite des Instituts für Statistik der LMU München mit
folgenden Originalartikeln aufmerksam geworden:

 • Nowcasting the COVID-19 Pandemic in Bavaria
 Preliminary Version 23.04.2020, submitted to Biometrical Journal
 • Analyse der Epidemischen Covid-19 Kurve in Bayern durch Regressionsmodelle mit Bruch-
 punkten, Version 25.04.2020

Im ersten wird das Nowcasting auf wissenschaftlicher Ebene anhand der Daten des
LGL Bayern vorgestellt, im zweiten wird auf Basis dieser Daten der Verlauf der
 11
26. April 2020 Dr. Florian Nill Home

Neuinfizierten in Bayern durch eine gestückelte Exponentialverteilung (d.h. im Log-
Diagramm stückweise lineare Regression) mit 4 Bruchpunkten approximiert.

Am auffälligsten sei hierbei der auch im Deutschlandtrend Fig 7 deutlich erkennbare
abrupte Übergang von steigende in fallende Werte ab 16.03. Damit verbunden fällt
ab 19.03. auch der R-Wert für Bayern unter 1, wobei dort R mit einem aufwändige-
ren Modell basierend auf einer Reproduktionszeit von 10 Tagen berechnet wird. (s.
https://corona.stat.uni-muenchen.de/nowcast/, dort stehen auch die Nowcast-Daten
für Bayern zum Download bereit).

Da die Nowcast-Werte auf den Zeitstempel „Erkrankungsdatum“ gelegt sind, wäre
unter Annahme einer Inkubationszeit von 5 Tagen dieser Effekt auf das Infektionsge-
schehen vom 11.03. zurückzuführen. Als Interpretation wird angeboten, dies könne
wegen der zeitlichen Koinzidenz als Effekt der Rede der Bundeskanzlerin, in der sie
erstmals zur Meidung von Sozialkontakten aufrief, der medialen Berichterstattung
aus Bergamo, sowie der freiwilligen Umstellung auf Heimarbeit und Telearbeit zuge-
ordnet werden.

Selbst wenn wir dies als valide Begründung unterstellen, würde es doch zeigen, dass
mit freiwilligen Maßnahmen nach dem Schweden-Modell die Dynamik der Epidemie
bereits zu einem Großteil unterbunden worden wäre.

 12
Sie können auch lesen