Eignung von Personenmerkmalen als Datengrundlage zur Verknüpfung von Registerinformationen im Integrierten Registerzensus - NO. WP-GRLC-2019-01 | ...

Die Seite wird erstellt Julia-Hortensia Roth
 
WEITER LESEN
Eignung von Personenmerkmalen als Datengrundlage zur Verknüpfung von Registerinformationen im Integrierten Registerzensus - NO. WP-GRLC-2019-01 | ...
NO. WP-GRLC-2019-01 | DECEMBER 3, 2019

                       , 2011Klicken Sie hier, um Text einzugeben.

Eignung von
Personenmerkmalen als
Datengrundlage zur
Verknüpfung von
Registerinformationen im
Integrierten
Registerzensus

                                                       Rainer Schnell
Eignung von Personenmerkmalen als Datengrundlage zur Verknüpfung von Registerinformationen im Integrierten Registerzensus - NO. WP-GRLC-2019-01 | ...
Inhaltsverzeichnis
1 Hintergrund und Fragestellung                                                                                  3

2 Eignung der Personenmerkmale                                                                                   3
  2.1 Ausgangslage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .                             3
  2.2 Literaturstand zur Eindeutigkeit von Personenidentifikatoren . . . . . . .                                 4
  2.3 Eigene Analysen zur Eindeutigkeit von Personenidentifikatoren . . . . . .                                  5
       2.3.1 Berücksichtigung von Personen mit Migrationshintergrund . . . .                                     6
       2.3.2 Analysen auf der Basis der Simulationsgrundgesamtheit . . . . . .                                   7
       2.3.3 Vergleich: Uniqueness in einem amerikanischen Populationsdaten-
              satz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .                            8
       2.3.4 Abschätzung der Anzahl fehlerhaften Identifikatoren . . . . . . .                                    8
  2.4 Erfahrungen mit Record-Linkage administrativer Daten in vergleichbaren
       Ländern . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .                            9
  2.5 Temporalität der Identifikatoren . . . . . . . . . . . . . . . . . . . . . . .                             11
  2.6 Die Forderung nach einer Falsch-Positiv-Rate von Null . . . . . . . . . .                                  11
  2.7 Beurteilung des Ausmaßes der Zweifelsfälle . . . . . . . . . . . . . . . . .                               12
  2.8 Differenzierung der Verknüpfungszwecke . . . . . . . . . . . . . . . . . .                                 13
       2.8.1 Verknüpfung der Melderegister mit einem zentralen Datenbestand                                      13
       2.8.2 Mehrfachfallprüfung . . . . . . . . . . . . . . . . . . . . . . . . .                               13
       2.8.3 Verknüpfung mit weiteren Datenquellen . . . . . . . . . . . . . .                                   14
       2.8.4 Verknüpfung für administrative Zwecke . . . . . . . . . . . . . . .                                 14
  2.9 Maßnahmen zur Verbesserung niedriger Linkageraten . . . . . . . . . . .                                    15
  2.10 Manuelle Nachbearbeitung . . . . . . . . . . . . . . . . . . . . . . . . . .                              15
  2.11 Generelle Einführung einer einheitlichen Identifikationsnummer . . . . .                                  16
  2.12 Hybridverfahren für einen eventuellen Übergang von Personenmerkmalen
       zu einer PID . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .                          16
  2.13 Verschlüsselte Identifikatoren: Privacy Preserverving Record Linkage . .                                  17
       2.13.1 Dezentrales PPRL . . . . . . . . . . . . . . . . . . . . . . . . . .                               17
       2.13.2 Nachbearbeitung verschlüsselter Identifikatoren . . . . . . . . . .                                18
       2.13.3 Verfahren des PPRL . . . . . . . . . . . . . . . . . . . . . . . . .                               18

3 Gestaltung des Verknüpfungsverfahrens                                                                          19
  3.1 Datenerfassungsfehler . . . . . . . . . . . . . . . . .    .   .   .   .   .   .   .   .   .   .   .   .   19
  3.2 Unvollständige Identifikatoren . . . . . . . . . . . .     .   .   .   .   .   .   .   .   .   .   .   .   20
  3.3 Pre-Processing . . . . . . . . . . . . . . . . . . . .     .   .   .   .   .   .   .   .   .   .   .   .   20
  3.4 Notwendigkeit und Kriterien für Blockingverfahren          .   .   .   .   .   .   .   .   .   .   .   .   21
  3.5 Blockingverfahren . . . . . . . . . . . . . . . . . . .    .   .   .   .   .   .   .   .   .   .   .   .   22
  3.6 Blockingvariablen . . . . . . . . . . . . . . . . . . .    .   .   .   .   .   .   .   .   .   .   .   .   23

                                             1
3.7   Geo-Blocking . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .   23
   3.8   Wahl des Linkage-Verfahrens . . . . . . . . . . . . . . . . . . . . . . . . .    24
         3.8.1 Klassifikationsverfahren . . . . . . . . . . . . . . . . . . . . . . .     24
         3.8.2 Ähnlichkeitsfunktionen . . . . . . . . . . . . . . . . . . . . . . . .     25
         3.8.3 Skalierbarbarkeit . . . . . . . . . . . . . . . . . . . . . . . . . . .    26
         3.8.4 Implementierung . . . . . . . . . . . . . . . . . . . . . . . . . . .      26
         3.8.5 Software Entwicklung und Implementierung des Linkageverfahrens             27

4 Test des Verknüpfungsverfahrens                                                         28
  4.1 Zielkriterien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .   28
  4.2 Maße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    29
  4.3 Schichtung der Teststichprobe . . . . . . . . . . . . . . . . . . . . . . . .       30
       4.3.1 Hard-to-Count-Indizes (HTC-Indizes) . . . . . . . . . . . . . . . .          30
       4.3.2 Weitere Populationen für einen HTC-Index oder eine direkte Schich-
              tung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .    32
  4.4 Qualitätssicherung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .      33
       4.4.1 Unabhängige Primärdatenerhebungen . . . . . . . . . . . . . . . .            33
       4.4.2 Mikrozensus als Datenquelle . . . . . . . . . . . . . . . . . . . . .        33
       4.4.3 Andere Datenquellen: Strom, Mobilfunk, Post . . . . . . . . . . .            33
       4.4.4 Lebenszeichenansatz . . . . . . . . . . . . . . . . . . . . . . . . .        34
  4.5 Abfolge der Bearbeitung . . . . . . . . . . . . . . . . . . . . . . . . . . .       35
  4.6 Problemfelder bei der Software-Entwicklung . . . . . . . . . . . . . . . .          35

5 Sonstige Empfehlungen                                                                36
  5.1 Öffentlichkeitsarbeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
  5.2 Begleitforschung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

6 Zusammenfassung                                                                38
  6.1 Umfang und Qualität der Personenmerkmale . . . . . . . . . . . . . . . . 38
  6.2 Technische Einzelheiten des Verknüpfungsverfahrens . . . . . . . . . . . . 38

A Erstellen einer Simulationsgrundgesamtheit                                              40

Literaturverzeichnis                                                                      41

                                             2
1 Hintergrund und Fragestellung
Im Rahmen der Überlegungen zur Verknüpfung von Registerinformationen im Integrier-
ten Registerzensus soll das vorliegende Gutachten drei Fragen klären:
   1. Eignen sich die in Registern vorhandenen Merkmale grundsätzlich zur Verknüpfung
      von Personendatensätzen im Integrierten Registerzensus?
   2. Wie sollte ein zu entwickelndes Verfahren für die Registerverknüpfung aussehen?
   3. Wie kann das Verfahren beurteilt werden?
Die erste Fragestellung wurde dahingehend präzisiert, dass abgeschätzt werden muss, ob
Eindeutigkeit von Merkmalskombinationen zur Identifikation einer Person trotz schlech-
ter Datenqualität und variierender Merkmalsmengen erreicht werden kann.
Die zweite Frage bezieht sich auf das Problem, ob die zu erwartenden Inkonsistenzen
zwischen verschiedenen Registern kompensiert werden können. Diese Inkonsistenzen be-
ziehen sich zunächst nur auf die Quasi-Identifikatoren, daher sind hier Record-Linkage-
Verfahren notwendig.
Die dritte Frage richtet sich auf Verfahren, mit denen die Ergebnisse des Record-Linkage
eines Registerzensus beurteilt werden können.
Da es zu den Fragen kaum empirische Studien aus Deutschland gibt, werden internatio-
nale Arbeiten zu gleichen oder ähnlichen Problemen zur Plausibilität der Argumentation
herangezogen. Einige Ergebnisse des Gutachtens sind neu, so z.B. die Abschätzung der
notwendigen Zahl der Identifikatoren. Andere Ergebnisse basieren auf einer Simulation
der Grundgesamtheit, die im Anhang beschrieben wird.
Explizit nicht Gegenstand des Gutachtens sind die Details einzelner möglicher Regi-
sterverknüpfungen oder die zu verwendenden Verlustfunktionen. Beide Fragestellungen
erfordern weitergehende Analysen, die über ein Gutachten deutlich hinausgehen. So müs-
ste für jede Verknüpfung der vorhandene Merkmalskranz bekannt und in seiner Qualität
beurteilbar sein. Mit veröffentlichten Daten ist dies nicht möglich, da es eine entspre-
chende Registerforschung nicht gibt.

2 Eignung der Personenmerkmale

2.1 Ausgangslage
Die in Deutschland vorhandenen zahlreichen administrativen Register sind überaus he-
terogen (Statistisches Bundesamt 2017). Die im Rahmen eines Konzepts zum Register-
zensus als zentral betrachteten Register (Körner/Krause/Ramsauer 2019) unterscheiden
sich in den vorhandenen Merkmalen, Standardisierungen und Aktualisierungsfrequenzen.

                                           3
Merkmale                                            Szenario 1     Szenario 2       Szenario 3
    Nachname                                                3               3                3
    Vorname                                                 3               3                3
    Geburtsname                                             3               3               (3)
    Geburtsdatum                                            3               3                3
    Geburtsort und -staat                                   3              (3)              (3)
    Geschlecht                                              3               3                3
    Familienstand                                           3                               (3)
    Staatsangehörigkeit                                     3               3               (3)
    Anschrift (Straße, Hausnummer,
                                                            3                                3
    PLZ, Stadt, Bundesland)
    Angaben zu Ehepartnern und Kindern                      3

                                         Tabelle 1: Szenarien

Vereinfacht man die verschiedenen Merkmalsschemata, dann führt dies zur Annahme
unterschiedlicher Szenarien, welche Identifikatoren in welchen Datenbanken vorhanden
sind (siehe Tabelle 1). Auf diese verschiedenen Szenarien wird im Folgenden Bezug ge-
nommen.

2.2 Literaturstand zur Eindeutigkeit von Personenidentifikatoren
Die Literatur zur eindeutigen Identifizierbarkeit von Personen durch Namen ist wenig
umfangreich. Dies liegt an der aufgrund von Datenschutzauflagen sehr begrenzten Zu-
gänglichkeit von Registerdaten, die die gemeinsame Verteilung von Vor- und Nachnamen
enthalten.1 Für Forschungszwecke sind entsprechende Datenbestände bislang kaum zu-
gänglich (Schnell 2019b).
Auf der Basis des norwegischen Wissenschaftlerregisters (Research Personnel Register)
mit 31.135 Personen ermittelte Aksnes (2008), dass 86% dieser Population einen Nach-
namen haben, den sie allein tragen. Allerdings besitzen 1.4% eine Kombination von Vor-
und Nachnamen, den mindestens eine weitere Person besitzt.
Tucker (2001) gibt auf der Basis amerikanischer Telefon-CDs von 1997 mit 100 Mil-
lionen Einträgen 1.75 Millionen verschiedene bekannte Vornamen und 1.25 Millionen
bekannte Nachnamen an. Dies ergäbe 2.1 ∗ 1012 mögliche Kombinationen. Tatsächlich
erscheinen aber nur 27.3 Millionen Kombinationen. Im Mittel erscheint jede Kombina-
tion dreimal, wobei die Standardabweichung aber 70 (sic!) beträgt. Für Kanada be-
richtet Tucker (2002) auf der Basis von 12 Millionen Telefoneinträgen 2.87 Millionen
Vor- und Nachnamenskombinationen. Mithilfe eines einfachen Modells schätzen Char-
pentier/Coulmont (2018) die Wahrscheinlichkeit für die USA, dass eine Person eine

1
    In vielen Ländern reichen die Informationen Vorname, Nachname, Geburtsdatum und Anschrift für
    einen Identitätsdiebstahl aus. Daher gibt es für diese Kombination von Informationen einen illegalen
    Markt (Ries 2019).

                                                    4
Vor-Nachnamenskombination besitzt, den eine andere Person auch besitzt, auf 95.1%.
Für Frankreich schätzen sie diese Wahrscheinlichkeit auf 80%.
Bethlehem (2008) gibt für ein niederländisches Projekt für die Verknüpfung von Steu-
erdaten mehrerer Jahre mit Anschrift, Geschlecht und Geburtsdatum einen Anteil kor-
rekter Verknüpfungen von mehr als 99.7% an.
Ansolabehere/Hersh (2017) geben an, dass sich 4.5% der Records des texanischen Wäh-
lerverzeichnis mit keiner anderen staatlichen Datenbank verbinden ließen.
Zusammenfassend kann festgestellt werden, dass Name und Vorname sowie Geschlecht
kaum ausreichen, um eine Person eindeutig zu identifizieren, sobald die Zahl der Personen
nicht trivial ist. Anschrifteninformationen sind in der Regel wenig hilfreich, da sich –
insbesondere in Subgruppen – erhebliche Änderungen in großer Zahl ereignen und die
Art der Anschrifteninformation für die selbe Anschrift stark variiert. In welcher Weise
sich Fehler in den Informationen auf die Verlinkbarkeit auswirken ist bislang in der
Literatur nicht ausreichend dokumentiert.

2.3 Eigene Analysen zur Eindeutigkeit von Personenidentifikatoren
Aufgrund dieser ungenügenden Datenlage wurden eigene Analysen durchgeführt. Zu
den international wenigen Datenbanken, die gesamte Populationen abdecken, gehören
die Wählerverzeichnisse einiger amerikanischer Bundesstaaten. Für einige Bundesstaa-
ten sind diese Datenbanken öffentlich und kostenlos zugänglich, z.B. Ohio und North
Carolina. Da die Daten für North Carolina auch in mehreren zeitlich versetzten Varian-
ten zugänglich sind, wurden zunächst diese Wählerregister (n=7.550.735, vom 1.06.2019)
ausgezählt. Für die Kombination Vor- und Nachname mit vollem Geburtsdatum ergeben
sich 0.45% echte Duplikate.
Eine eigene vorherige Analyse einer türkischen Verwaltungsdatenbank mit mehreren
Millionen Einträgen ergab mit 5.2% eine deutlich höhere Zahl Duplikate (Schnell/Borgs
2016). Die Ursache hierfür liegt vor allem in der Häufung der Fälle mit dem Geburts-
datum 1. Januar. Ein kleineres Problem in diesem Datensatz besteht in der bedeutend
größeren Schiefe der Namensverteilung.
Insgesamt sind die Ergebnisse anderer Länder vermutlich nur begrenzt auf Deutschland
zu verallgemeinern. Dies liegt u.a. an der unterschiedlichen Zusammensetzung der Po-
pulation in Hinsicht auf ethnische Heterogenität und den Besonderheiten des deutschen
Namensrechtes.
In Ermangelung anderer kurzfristig verfügbarer Datenbanken wurde – wie in der Lite-
ratur üblich – auf Telefon-CDs zurückgegriffen. In der Telefon-CD 2019 finden sich nach
einer Datenbereinigung durch eigene Berechnungen ca. 11.35 Millionen Privatpersonen
mit Namen. Dabei ergeben sich insgesamt 233.101 verschiedene Vornamen und 677.476
verschiedene Nachnamen. Empirisch lassen sich 6.46 Millionen unterschiedliche Vor- und
Nachnamenskombinationen zeigen. Berechnet man die empirische Verteilungsfunktion
dieser Kombinationen, dann ergeben sich die Quantile der Abbildung 1.

                                           5
1500

                    1000

                n
                    500

                       0   60%

                                 70%

                                       80%

                                             90%

                                                   95%

                                                         96%

                                                                 97%

                                                                         98%

                                                                               99%

                                                                                     99.5%

                                                                                             99.9%

                                                                                                     99.99%

                                                                                                              100%
                                                               Quantil

Abbildung 1: Quantile der Anzahl der Träger gleichen Vor- und Nachnamens. Datenba-
             sis: Telefon-CD 2019.

Nur 0.5% der Personen besitzen eine Vor- und Nachnamenskombination, die mehr als
21 mal erscheint. 0.1% der Personen haben eine Kombination, die mehr als 221 mal im
Datenbestand existiert. Das Maximum liegt bei 1709 Personen mit gleichem Namen.
Geht man – konservativ – von 365 ∗ 75 von 27.375 Geburtstagskombinationen für die
Kombination Tag/Monat/Jahr (DOB) sowie Gleichverteilung der Geburtstage und Un-
abhängigkeit aller Merkmale aus, dann scheint zunächst die Zahl der Kombinationen
DOB * Name auszureichen, um Personen eindeutig zu identifizieren.
Dies ist aber bekanntlich aufgrund des Geburtstagsparadoxons nicht der Fall (Diaco-
nis/Mosteller 1989). Geht man von 36.500 möglichen Geburtstagen aus, wird die Wahr-
scheinlichkeit von 0.5 für zwei oder mehr Personen mit gleichem Geburtstag bereits bei
226 Personen erreicht. Diese Grenze wird bei mehr als 2.200 Gebäuden in Deutschland
überschritten. Selbst bei Anschrift und DOB als Gruppierungsmerkmal („Block“, siehe
dazu Abschnitt 3.4) wird also vermutlich mehr als 2.200mal keine Eindeutigkeit ohne
einen Namensbestandteil erreicht.

2.3.1 Berücksichtigung von Personen mit Migrationshintergrund
Aufgrund der kulturellen Besonderheiten der Namenssysteme (Lawson 2016) erschien
eine gesonderte Analyse der Verteilung der Anzahl der Träger gleichen Vor- und Nach-
namens bei arabischem Migrationshintergrund notwendig. Im Auftrag des Verfassers
haben Humpert/Schneiderheinze GbR eine entsprechende Klassifikation der Telefonda-
ten 2019 vorgenommen. Betrachtet man nur diejenigen Personen, die aufgrund onoma-
stischer Kriterien arabischen Ländern zugeordnet wurden1 , dann werden 39.876 Perso-
nen entsprechend klassifiziert. Der Datensatz enthält 11.034 unterschiedliche Vornamen
und 22.201 unterschiedliche Nachnamen; es resultieren 37.281 unterschiedliche Vor- und

1
    Die Zuordnung wurde von mir vorgenommen. Es handelt sich um die Ländercodes 438, 439, 451, 472,
    475, 641, 643, 662.

                                                         6
0.8
                           0.6
                 Prozent

                           0.4
                           0.2
                           0.0

                                 1    2     3    4     5     6     7     8     9

                                                       n

Abbildung 2: Anzahl der Träger gleichen Vor- und Nachnamens bei arabischem Migra-
             tionshintergrund auf der Basis onomastischer Klassifikation. Datenbasis:
             Telefon-CD 2019.

                Identifikatoren                        Uniqueness      Zweifelsfälle
                Vorname, Nachname, PLZ, DOB                > 99.99          80.000
                Vorname, Nachname, DOB                     > 99.50         199.000
                Vorname, Nachname, PLZ                     > 98.55       1.200.000

Tabelle 2: Uniqueness in der simulierten Grundgesamtheit bei vollständigen und fehler-
           freien Identifikatoren und daraus resultierende Zweifelsfälle

Nachnamenskombinationen. Die Häufigkeitsverteilung der Anzahl der Träger gleichen
Namens zeigt, dass fast 95% der Personen eine Vor- und Nachnamenskombination be-
sitzen, die einmal vorkommt (Abbildung 2). Diese Subgruppe lässt allein aufgrund ihrer
Namensbestandteile keine besonderen Identifikationsprobleme erwarten.1

2.3.2 Analysen auf der Basis der Simulationsgrundgesamtheit
Bei einer Grundgesamtheit von fast 82.960.000 Records ergeben sich bei vollständigen
und fehlerfreien Identifikatoren in der Simulation die vorläufigen Ergebnisse der Tabelle
2. Uniqueness ist dabei die Zahl der Kombinationen der Identifikatoren * 100 / Zahl der
Records.

1
    In anderen ethnischen Subgruppen sind deutlich höhere Anteile an identischen Namen erwartbar.
    Yao/Zhao (2006) berichten für eine Stichprobe von 570.000 Personen in einer Stichprobe aus dem
    chinesischen Zensus, dass 8.7% einen Nachnamen aus einem Buchstaben besitzen und die Mehr-
    heit der Personen einen Nachnamen aus zwei Buchstaben. Den Anteil von Personen mit gleichem
    Nachnamen bei den Einbuchstabennamen berichten sie mit 67.7%, den entsprechenden Anteil bei
    Zweibuchstabennamen mit 32.4%.

                                                 7
Identifikatoren            FP
                             LN                      0.980
                             LN,   DOB               0.286
                             LN,   DOB, FN           0.009
                             LN,   DOB, ZIP        < 0.001
                             LN,   FN, DBY           0.294
                             LN,   FN, ZIP           0.028
                             LN,   FN, DBY, ZIP    < 0.001
                             LN,   DBY               0.833
                             LN,   DBY, ZIP          0.075

Tabelle 3: Anteil falsch positiver Links nach den zur Verfügung stehenden Identifikato-
           ren: Nachname (LN), Vorname (FN), Geburtstag (DOB), Geburtsjahr (DBY),
           Postleitzahl (ZIP). Datenbasis: US Social Security Death Master File. Daten
           aus Hillestad et al. (2008).

Bei fehlerhaften Identifikatoren sind höhere Zahlen erwartbar. Alle Erfahrung lehrt, dass
mit weit größeren Datenfehlern in der Praxis zu rechnen ist, als die Datenerfassungsre-
geln erwarten lassen.

2.3.3 Vergleich: Uniqueness in einem amerikanischen Populationsdatensatz
Eine entsprechende Analyse mit amerikanischen Gesundheitsdaten (Hillestad et al. 2008)
zeigt ähnliche Ergebnisse. Bei den Daten handelt es sich um die ca. 80 Millionen Ver-
storbenen aus dem Social Security Death Master File (Tabelle 3).
Aufbauend auf die Arbeit von Golle (2006) geben Lin/Harvey (2015) zwischen 61 und
77% Uniqueness je nach Bundesstaat für die USA für die Kombination der Merkmale
Sex, DOB und ZIP an. Über alle Subgruppen gab es keine Veränderungen zwischen
dem Zensus 2000 und dem Zensus 2011, so dass die Ergebnisse von Hillestad vermutlich
unverändert gelten.

2.3.4 Abschätzung der Anzahl fehlerhaften Identifikatoren
In Großstädten wie Frankfurt, Berlin, Hamburg und Bremen sind regelmäßig mehr als
1.5% der Wahlbenachrichtigungen nicht zustellbar; in Berlin 2011 waren es mehr als
2.5%. In diesen Fällen ist vermutlich nur das Adressfeld falsch, daher ist eine ähnliche
Fehlerrate für andere Felder erwartbar. Weiterhin erscheint eine höhere Datenqualität
für Wahlberechtigte plausibel, so dass die Schätzung mit 2% Fehlern pro (eigentlich
vorhandenem) Feld konservativ erscheint.
Nimmt man 4 Identifikatoren als notwendig für einen Link an, dann ergibt sich ein An-
teil von (1 − 0.02)4 = 0.922 mit vollständigen und fehlerfreien Identifikatoren. Da zwei
Files verknüpft werden müssen, gilt dieser Anteil auch im zweiten Datensatz. Entspre-
chend würde man den Anteil vollständiger Paare mit 0.922 ∗ 0.922 ≈ 0.85 schätzen. Das

                                           8
Anzahl der                 unvollständige
                           Identifikatoren       F         Records
                                  4             0.922       6,443,000
                                  5              .996          319,00
                                  6              .999          13,000
                                  7                 1
deutlich, dass die Linkageprobleme vor allem auf temporäre und transiente Populationen
wie Migranten und Studenten zurückzuführen sind.
Harron et al. (2017) berichten für ein Linkage der Hospitalaufenthalte (HES) mit den
Daten des NHS (genauer mit den PDS-Daten1 ) von nicht-übereinstimmenden oder feh-
lenden Daten von 0.11% für Geschlecht und Alter und von 53% (sic!) für die Postleitzahl
der Adresse. Die Fehlerraten variieren signifikant nach Alter, Geschlecht und ethnischer
Zugehörigkeit.
Auf der Basis des Linkages des NHS Patient Register zum Zensus 2011 gibt das ONS für
Vorname, Nachname, DOB und Sex eine Uniqueness von 98.87% an (Office for National
Statistics 2013).
Die Untererfassung in Zensen ist in den USA seit langer Zeit Gegenstand intensiver
politischer Debatten, da die Stimmenallokation im Repräsentantenhaus und die Vertei-
lung staatlicher Mittel für Förderungsprogramme vom Zensusergebnis abhängt. Dies hat
Anlass zu einer langen methodischen Diskussion und Forschung um das Undercoverage
in den USA geführt (Choldin 1994, Anderson/Fienberg 1999, O’Hare 2019). Ähnlich
intensive methodische Bemühungen um die Untererfassung finden sich verstärkt beim
britischen ONS in der Begleitforschung zum Zensus2 und bei Statistics New Zealand.
Undercoverage bei Registerzensen ist ein spezielles Problem; die Forschung in Hinsicht
auf Korrekturen ist daher keineswegs abgeschlossen (Elkin/Dent/Rahman 2012, Gerritse
et al. 2016).
Die weltweit am meisten verwendete Methode zur Abschätzung des Coverage eines Zen-
sus ist ein Post Enumeration Survey (PES). Unter einem PES wird die vollständige
Neuerfassung einer Zufallsstichprobe eines Zensus, gefolgt von einem Abgleich jeder im
PES aufgefundenen Person mit dem Zensus verstanden. Um mit einem PES Schätzungen
über Under- und Overcoverage durchführen zu können, ist die vollständige Unabhängig-
keit aller Verfahrensschritte des PES vom Zensus erforderlich (United Nations Secreta-
riat 2010). In diesem Sinn ist die Wiederholungsbefragung des 2011 in Deutschland kein
PES, da die Anschriften aus dem Zensus übernommen wurden (Klink/Bihler 2015a).
Der britische PES ist der Census Coverage Survey (CSS).
Aufgrund der zeitlichen Verzögerung vieler Register könnten bei vielen Registern eher
Overcoverage als Undercoverageprobleme die Folge sein, so z.B. durch späte Registrie-
rung von Umzügen oder Todesfällen (Savage/Bycroft 2014). Als Maßnahmen gegen Over-
coverage in Registern empfehlen Savage/Bycroft (2014)
   1. Verknüpfung mit externen Migrationsdaten,
   2. die Verwendung eines Lebenszeichenansatzes,
   3. die vorherige Deduplizierung der Datensätze,
   4. die Verwendung mehrerer Zeitpunkte für Registerauszüge.

1
    Der „Personal Demographics Service“ (PDS) ist eine britische Infrastruktureinrichtung, die es Ange-
    hörigen der Gesundheitsberufe ermöglicht, Patienten ihren Akten zuzuordnen, siehe https://digital.
    nhs.uk/services/demographics.
2
    Unter der Bezeichnung „beyond 2011“ wurden zahlreiche technische Berichte zur Weiterentwicklung
    des Zensus publiziert. Diese Berichte sind über den Archiv-Server der britischen Verwaltung (https:
    //webarchive.nationalarchives.gov.uk) auffindbar.

                                                   10
Alle vorhandenen Erfahrungen deuten auf erhebliche Probleme der Register bei temporä-
ren Migranten hin. Um das Problem des Overcoverage temporärer Migranten verringern
zu können, ist eine Verwendung von Datenbanken, deren hochfrequente Aktualisierung
unabhängig vom aktiven Handeln der Personen erfolgt, zu empfehlen. Solche Möglich-
keiten bestünden z.B. in der Nutzung von Handyvertragsdaten oder Postzustellungsin-
formationen. Vermutlich sind hierfür besondere gesetzliche Regelungen erforderlich.

2.5 Temporalität der Identifikatoren
Blackwell et al. (2015) betonen zwei Probleme für das Matching:
   1. Eine tatsächliche Veränderung der Identifikatoren einer Person (Umzug, Namens-
      wechsel) benötigt je nach Datenbank unterschiedlich lang, um registriert zu wer-
      den.
   2. Administrative Systeme variieren in der Art und Genauigkeit, mit der Adressen
      registriert werden. Dies gilt insbesondere für komplexe Wohnsituationen, wie Stu-
      dentenwohnheime oder Gebäude mit mehreren Anschriften oder Adresszusätzen.
Der zweite Punkt ließe sich durch eine andere Form des Geoblockings angehen (siehe
Abschnitt 3.7). Der erste Punkt hat bisher wenig Aufmerksamkeit gefunden. Lediglich
Hu et al. (2017) haben ein experimentelles Modell vorgestellt, dass die Temporalität
eines Identifiers im Linkage berücksichtigt. Gibb/Shrosbree (2014) zeigen, dass die Be-
rücksichtigung unterschiedlicher Zeiträume im Signs-of-Life-Ansatz1 für einen Register-
zensus je nach Altersgruppe und akzeptierter Zeit für eine Zustandsänderung zu selekti-
vem Under- oder Undercoverage führen kann. Systematische Studien zur Temporalität
der Identifikatoren existieren darüber hinaus nicht. Es wird vorgeschlagen, den Effekt
der datenbankspezifischen Temporalität der Identifikatoren in einer Simulationsstudie
in Hinsicht auf die zu erwartenden Matchraten zu untersuchen.

2.6 Die Forderung nach einer Falsch-Positiv-Rate von Null
Bei der Beauftragung von Record-Linkage-Projekten findet sich häufig eine Forderung
nach einer Falsch-Positiv-Rate von Null (FP-Null-Regel, zur Definition von Falsch-
Positiv siehe Tabelle 5). Dies bedingt notwendigerweise eine hohe Zahl falsch negativer
Records, also Paare, die nicht als solche erkannt wurden. Will man auch keine hohe
Falsch-Negativ-Rate, wird ein hoher manueller Aufwand bei der Nachbearbeitung un-
vermeidlich. Das Beispiel des automatischen Abgleichs des Post-Enumeration-Surveys
(PES) des Zensus 2011 des ONS zeigt dies deutlich.
Der PES des Census 2011 des ONS wurde als Census Coverage Survey (CCS) bezeich-
net und mit dem Zensus verlinkt (Office for National Statistics 2012). Das Ergebnis
des automatischen Matches der 355347 Fälle des CSS über alle 348 Gebiete zeigt die
1
    Der Signs of Life-Ansatz wurde in Estland entwickelt (Tiit 2017). Der Ansatz basiert auf der Zählung
    der Veränderungen in vielen Registern für eine Person. Diese Zahl muss während eines Zeitraums einen
    zu schätzenden Mindestwert übersteigen, damit für diese Person der Residenzstatus aufrechterhalten
    wird.

                                                   11
Haushalte

                          Personen

                                      0   20    40   60   80   100

                                           Prozent Match

Abbildung 3: “Automatic Match Rate“ für den Census 2011 mit dem Census Coverage
             Survey (CCS) in England und Wales in jeweils 348 Gebieten (area co-
             des). Daten aus einem ONS-File, verlinkt in: Office for National Statistics
             (2012).

Abbildung 3. Auffällig ist dabei zunächst die Spannweite der Ergebnisse. Die mittleren
Raten liegen bei 65% für Haushalte und 70% für Personen. Diese niedrigen Ergebnis-
se werden vermutlich durch die Entscheidungsregel, dass die Falsch-Positiv-Rate Null
sein sollte, verursacht. Dies führte unweigerlich zu einer großen Anzahl von falsch ne-
gativen Ergebnissen, die dann manuell nachbearbeitet werden mussten. Die endgültigen
Linkage-Ergebnisse des CCS mit dem Census 2011 liegen bei 81.2%, das Linkage mit
dem Patientenregister und dem CCS erbringt eine Linkagerate von 79.3% selbst nach
der manuellen Nachbereitung (Blackwell et al 2015).
Deutlich bessere Linkagerate berichten Gibb/Shrosbree (2014) für Neuseeland. Je nach
Datenbankpaar werden dort 0.1–0.3% als Falsch-Positive Links geschätzt. Falsch-Negative
lassen sich mit Datenbanken allein schwerer schätzen. Als Obergrenze geben diese Au-
toren für den Link der Datenbanken Bildung/Steuern 14% an.
Insgesamt muss auf der Grundlage vorliegender Linkagestudien mit einer FP-Null-Regel
beim Vorliegen der Identifikatoren Name, Vorname, Geschlecht und DOB mit Anteilen
nicht-eindeutig linkbarer Records deutlich über 10% gerechnet werden. In diesen Fälle
wäre dann die Erhebung zusätzlicher Informationen zumindest in Stichproben unver-
meidlich.

2.7 Beurteilung des Ausmaßes der Zweifelsfälle
Mit wenigen Ausnahmen (z.B. Pankowska et al. 2019) bezieht sich die statistische Li-
teratur zu den Effekten von Matchingfehlern fast ausschließlich auf Regressionsmodelle
(Winkler 2018, Ridder/Moffitt 2007). Für spezielle Anwendungsfälle, so z.B. für das
Capture-Recapture zur Schätzung von Undercoverage in Zensen wurden Korrekturmo-
delle vorgeschlagen (DeWolf/Van der Laan/Zult 2019). Angesichts des derzeitigen Stan-

                                           12
des der Forschung scheint die Anwendung von Korrekturverfahren für Linkagefehler für
Populationsschätzungen eher zur Abschätzung der möglichen Unsicherheiten geeignet
als zur tatsächlichen Korrektur.

2.8 Differenzierung der Verknüpfungszwecke
Das Ausmaß und die Art der Fehler, die man bereit ist in Kauf zu nehmen, hängt vom
Anwendungsfall ab. Daher müssen die Verknüpfungszwecke unterschieden werden.

2.8.1 Verknüpfung der Melderegister mit einem zentralen Datenbestand
Die Verknüpfung lokaler Melderegister in einen zentralen Datenbestand sollte aufgrund
der hohen Zahl der verfügbaren Indikatoren unproblematisch sein. Potentielle Probleme
bestehen hier nahezu ausschließlich durch unvollständige bzw. sozial vereinbarte Anga-
ben bei Geburtsort und Geburtsdatum bei Migranten. Ein kleines Problem wird bei
Mehrlingen mit ähnlichen Namen entstehen. Es ist plausibel, innerhalb eines lokalen
Einwohnermelderegisters von der Abwesenheit echter Dubletten auszugehen; Erfahrun-
gen mit anderen Registern legen es nahe, dies trotzdem explizit für jedes Register zu
prüfen. Mit Ausnahme der Migranten wird der Abgleich der Melderegister weitgehend
automatisierbar sein. Sollte hierfür eine einheitliche Personenkennziffer (wie die steuer-
liche Identifikationsnummer) zur Verfügung stehen, wird der Abgleich technisch wesent-
lich vereinfacht.1 Die Probleme mit Personen, die keine Steuernummer besitzen, sind
offensichtlich. Bei diesem Personenkreis ist mit Unvollständigkeit der Identifikatoren zu
rechnen. Das Heranziehen weiterer Datenbestände oder auch Nacherhebungen ist dann
kaum zu vermeiden.

2.8.2 Mehrfachfallprüfung
Die Mehrfachfallprüfung ordnet Personen, die mehrfach in verschiedenen lokalen Regi-
stern gemeldet sind ihrer alleinigen oder Hauptwohnung zu (Michel 2004, Diehl 2012).
Diese Prüfung kann erst nach Deduplizierung der Einzelregister erfolgen. Da der gleiche
Datenbestand wie bei der Verknüpfung von Datenlieferungen aus den Melderegistern
vorliegt, ist bei vollständigen Daten nicht mit weiteren Problemen zu rechnen. Dies gilt
nicht für Personen mit unvollständigen oder widersprüchlichen Angaben, vor allem für
Migranten und Bewohnern von Sonderbereichen. Zu Planungszwecken sollte mit 1–2%
Fällen gerechnet werden, die nicht maschinell aufgeklärt werden können. Zusätzlich muss
das Problem des Undercoverage der Melderegister erwähnt werden. Für eine quantitative
Abschätzung liegen aufgrund der Binnenmigration und den Problemen der Abschätzung
der Zahl der Personen mit unklarem Aufenthaltsstatus nicht genügend Informationen

1
    Über ein projektspezifisches Passwort, das zusammen mit einer einheitlichen Personenkennziffer als
    Schlüssel verwendet wird, lassen sich – wie in Frankreich oder Österreich – ein großer Teil der Be-
    denken aus Sicht des Datenschutzes lösen. Diese juristischen Probleme sind nicht Gegenstand des
    Gutachtens. Die technischen Probleme bei dieser Art des Abgleichs sind trivial.

                                                   13
vor. Überträgt man die Erfahrungen in anderen Ländern, erscheint ein Undercoverage
von 0.5% der Register plausibel.

2.8.3 Verknüpfung mit weiteren Datenquellen
Nach den Ausführungen in Abschnitt 2.3.2 sind beim Vorliegen vollständiger Angaben
für Name, Vorname, Geburtsort und Geburtsjahr nahezu ausreichende Informationen
vorhanden, um fast alle Personen eindeutig zu identifizieren. Fehlen Angaben sind zu-
sätzliche Identifikatoren unverzichtbar. Davon ist mit Sicherheit auszugehen. Wird die
Zahl der geeigneten Identifikatoren kleiner als 6, muss mit erheblichen und leider auch
selektiven Falsch-Negativen Links aufgrund fehlender Identifikatoren gerechnet werden.
Ich muss dringend davon abraten, mit der kleinstmöglichen Identifikatorenmenge zu lin-
ken. Die falsch-negativen Links werden zu Artefakten führen, die vermutlich in vieler
Hinsicht zu fälschlich positiven Beurteilungen inhaltlicher Art führen. Liegt die Kom-
bination einer geringen Zahl von Identifikatoren mit Fehlerbelastung vor, dann wird
die Forderungen nach einer Falsch-Positiv-Rate von Null zu massiven inhaltlichen Ver-
zerrungen führen. Sozialpolitisch wünschenswerte Zustände (wie Bildung, Gesundheit,
Integration, Teilhabe) werden überschätzt und sozialpolitisch nicht wünschenswerte Zu-
stände (wie Arbeitslosigkeit) werden unterschätzt.

2.8.4 Verknüpfung für administrative Zwecke
Sollte man weniger an statistischen Systemen als an administrativen Systemen inter-
essiert sein, so sind keinerlei falsch-positive Ergebnisse akzeptabel. Ein Beispiel hierfür
ist das Identitätsmanagement in klinischen Kontexten (n
Ähnlichkeits-   Schwellenwert-                      Manuelle
 Datenbereinigung   Standardisierung    Blocking                                     Zusammenführung
                                                    berechnung       berechnung                        Überprüfung

                                 Abbildung 4: Ablauf eines Linkage-Prozesses

2.9 Maßnahmen zur Verbesserung niedriger Linkageraten
Es bleiben nur drei prinzipielle Möglichkeiten zur Verbesserung niedriger Linkageraten:
   1. Erhöhung der Zahl der Identifikatoren,
   2. Verwendung mehrerer Datenbanken,
   3. manuelle Nachbearbeitung unklarer Fälle.
Es ist naiv, aus der Tatsache, dass eine Verwaltungsregel das Vorhandensein eines Merk-
mals vorschreibt, zu schließen, dass Merkmal sei in allen Fällen vorhanden. Bei 4 Merk-
malen und einer Fehlerrate von 2% sind bei zwei Files nur 85% aller Record-Paare
vollständig. Möchte man mindestens 4 Merkmale bei 2% Fehlerrate pro Identifikator,
dann ergibt sich die Tabelle 4.
Aus diesem Grund ist die Erhöhung der Zahl der Identifikatoren die erste und wichtig-
ste Maßnahme. Die manuelle Nachbearbeitung ist wenig ertragreich, wenn auf dieselben
Informationen zurückgegriffen werden muss. Eine Nacherhebung im Rahmen einer ma-
nuellen Nachbearbeitung aufgrund fehlender Eindeutigkeit verursacht Kosten, die schwer
zu rechtfertigen sind. Die Verwendung mehrerer Datenbanken löst das Problem nicht,
da die Verfahren zur eindeutigen Identifikation einer Person mit unvollständigen Merk-
malen in vielen Datenbanken zur fehlerträchtigen Entwicklung von Entscheidungsregeln
auf der Basis weniger Fälle basieren muss. Zur Aufklärung uneindeutiger Identifikation
eignet sich daher die Verwendung vieler Datenbanken nicht.

2.10 Manuelle Nachbearbeitung
In der Literatur wird die Nachbearbeitung unklarer potentieller Matches als „clerical
editing“ bezeichnet. Während die manuelle Überprüfung meist auf der Grundlage der
gleichen Daten erfolgt, die auch für die maschinelle Entscheidung zur Verfügung ste-
hen, wird insbesondere bei Prozessen, die keine falsch-positiven Links und nur wenige
falsch-negative Links zulassen, die Einholung zusätzlicher Informationen erforderlich. Ein
Beispiel dafür ist das Linkage des britischen NHS, das in erheblichem Ausmaß Linkage-
Entscheidungen durch Menschen fällen lässt. Hierbei werden weitere individuelle Infor-
mationen durch Aktenlage oder Anrufe ermittelt. Ein solches semi-manuelles Linkage
ist kostenintensiv, aber bei rechtlich relevanten Linkageentscheidungen unvermeidlich.
Geht man von 1% ungeklärter Links aus, handelt es sich um 830.000 unklare Fälle. Will
man tatsächlich alle Fälle manuell aufklären und nimmt eine Stunde Aufklärungszeit
pro Fall an, dann benötigt man bei 1600 Stunden pro Mitarbeiter pro Jahr ca. 520
Vollzeitstellen für ein Jahr. Das ergäbe Personalkosten oberhalb von 24 Millionen Euro.

                                                     15
Möchte man aufgrund des Verwendungszwecks keine eindeutige Aufklärung aller Zwei-
felsfälle, kann man auf Stichproben zurückgreifen, um den möglichen Fehler abzuschät-
zen. Auch hier empfiehlt sich eine Schichtung mit einem HTC-Index (siehe 4.3.1).

2.11 Generelle Einführung einer einheitlichen Identifikationsnummer
Die Vorteile einer einheitlichen Personenidentifikationsnummer (PID) sind in der tech-
nischen Literatur unumstritten. Eine eineindeutige Nummer mit integrierten Prüfziffern
ermöglicht einen fehlerfreien und höchst effizienten Abgleich aller Datenbanken, in denen
diese PID enthalten ist. Daher verwenden viele Länder entsprechende Personenkennzif-
fern.1
Aufgrund der vielen technischen Vorteile stellt sich die Frage nach den Kosten der Ein-
führung eines solchen Systems. Nach meinem Wissen gab es zwei Studien in der wis-
senschaftlichen Literatur zu dem Problem der einmaligen Kosten für die Einführung
eindeutiger Identifikatoren. Für die USA geben Hillestad et al. (2008) Kosten zwischen
1.5 und 11.1 Milliarden (sic!) Dollar an. Dies entspräche bei linearer Skalierung aufgrund
der unterschiedlichen Populationsgröße 0.45 – 3.3 Milliarden Euro in Deutschland. Für
die Schweiz geben Winterleitner/Dungga/Spicher (2018) Einführungskosten zwischen
110 und 268 Millionen CHF mit jährlichen Unterhaltskosten von 21 Millionen CHF an.
Die Einführungskosten entsprächen bei linearer Skalierung 1.2–2.9 Milliarden Euro.
Es ist davon auszugehen, dass aufgrund der föderalen Struktur in Deutschland und der
weit größeren Zahl von Registern die Kosten in Deutschland deutlich höher liegen wür-
den. Eine verlässliche Abschätzung erfordert ein interdisziplinäres Forschungsprojekt un-
ter Einbeziehung von Verwaltungsjuristen, Betriebswirten, Verwaltungswissenschaftlern,
Gesundheitswissenschaftlern und Informatikern. Trotz der zu erwartenden Kosten ist
sowohl in der öffentlichen Verwaltung, der Medizin und der Privatwirtschaft mit erheb-
lichen Kosteneinsparungen zu rechnen. Entsprechend erwähnen beide zitierten Studien
die Kosten, die bei der Nicht-Einführung solcher Systeme entstehen. Nicht zuletzt muss
auf die bedeutenden Möglichkeiten der Forschung mit Hilfe solcher Identifikationsnum-
mern hingewiesen werden: Fast alle sinnvollen Analysen von administrativen Daten (und
Big Data im Allgemeinen) erfordern die eineindeutige Verknüpfung mehrerer Register
auf Mikrodatenebene (Schnell 2019a).

2.12 Hybridverfahren für einen eventuellen Übergang von
     Personenmerkmalen zu einer PID
Abgesehen von den administrativen und technischen Problemen bei der Einführung eines
solchen Identifikationssystems auf der Basis einer PID ist mit politischen Widerständen
zu rechnen, da es sowohl politische als auch ethische Bedenken gegen PIDs gibt (z.B.

1
    Der Eintrag https://en.wikipedia.org/wiki/National_identification_number in der englischen Wiki-
    pedia ist das einzige Beispiel, das dem Autor bekannt ist, bei dem ein Wikipedia-Eintrag vollständiger
    und korrekter als die verfügbaren wissenschaftlichen Veröffentlichungen.

                                                    16
Watner/McElroy 2004, Alston 2019). Entsprechend langwierig wird die Einführung sol-
cher Systeme sein. Daher werden lange Zeit viele Datenbanken keine solche PID enthal-
ten oder nur für aktualisierte Einträge. In dieser Übergangsphase ist dann eine PID nur
für Teile der Population verfügbar.
Das ist technisch nur dann unproblematisch, wenn für die Übergangsphase die zu ver-
linkenden Datenbestände sowohl die PID als auch die Personenmerkmale enthalten. In
diesem Fall stellt die PID im Record-Linkage bei einem Hybridverfahren nur einen per-
fekten Block dar. Das bedeutet, dass in einem ersten Schritt alle Fälle gelinkt werden,
für die eine PID vorhanden ist. Anschließend werden die Fälle gelinkt, die nicht über
PID gematcht wurden.
Man könnte die parallele Datenhaltung der PID und der Personenidentifikatoren nur
dann vermeiden, wenn zumindest für die Übergangsphase zusätzlich zur PID eine ver-
schlüsselte Form der Identifikatoren gespeichert wird. Dies ist z.B. beim Test des Bloom-
Filter-Verfahrens (Schnell et al. 2015) für alle Neugeborenen der Fall (Gemeinsamer
Bundesausschuss 2017).

2.13 Verschlüsselte Identifikatoren: Privacy Preserverving Record
     Linkage
Sowohl die Europäische Datenschutzgrundverordnung (European Union 2016) als auch
die Literatur zur notwendigen Kontextabhängigkeit der Einschätzung, was „privacy“ be-
deutet (Elliot et al. 2016), lassen mir eine zentrale Verarbeitung nicht-pseudonymisierter
Identifikatoren im Rahmen einer nationalen Statistikbehörde unproblematisch erschei-
nen. Sollte diese Rechtsauffassung nicht geteilt werden, dann sind spezielle Verfahren
des Record-Linkage notwendig. Record-Linkage mit verschlüsselten Identifikatoren wird
in der Literatur als „Privacy Preserving Record Linkage“ (PPRL) bezeichnet.

2.13.1 Dezentrales PPRL
Arbeiten mit unverschlüsselten Identifikatoren bei Populationsdatenbanken erfordert in
der Mehrheit der Fälle die organisatorische Trennung zwischen den Identifikatoren und
den inhaltlichen Daten. In vielen medizinischen Projekten werden so Treuhänderstruk-
turen oder Vertrauensstellen mit dem Linkage der Identifikatoren betraut. Man könnte
versucht sein, die Identifikatoren vor der Übermittelung an die Linkage-Stellen dezen-
tral zu pseudonymisieren. Ein solches Vorgehen eignet sich nur dann, wenn sehr wenige
dezentrale Einheiten mit der Pseudonymisierung betraut werden. Schon bei mehr als
drei beteiligten Stellen werden Koordinationsprobleme auftreten. Dies gilt verstärkt im
Bereich des Pre-Processing. Schon allein aus diesem Grund rate ich von dezentraler
Pseudonymisierung ab. Da weiterhin ein nicht unerheblicher Anteil von Fällen erwartet
wird, bei denen eine manuelle Abklärung notwendig werden wird, ist eine dezentrale
Pseudonymisierung nur dann akzeptabel, wenn Abweichungen weit jenseits der unab-
dingbaren internationalen Qualitätsstandards von Zensen akzeptiert werden.

                                           17
2.13.2 Nachbearbeitung verschlüsselter Identifikatoren
Es muss darauf hingewiesen werden, dass die in Tabelle 1 erwähnten unterschiedlichen
Szenarien über die zur Verfügung stehenden Identifikatoren es mit nahezu Sicherheit
erwartbar werden lassen, dass mit den vorhandenen Identifikatoren nur im Szenario 1
eine weitgehend eindeutige Identifikation möglich sein wird. In den anderen Szenarien
werden weitere Merkmale zur Identifikation herangezogen werden müssen.
Dies können andere Standardidentifikatoren sein – wie z.B. Geburtsort – aber auch
Merkmale, die eher zu den inhaltlichen Merkmalen gerechnet werden, wie z.B. die Zahl
der Geschwister oder vorherige Schulen oder Arbeitsstätten. Die Abgrenzung zwischen
Identifikatoren und inhaltlichen Merkmalen ist bei einem bundesweiten Projekt mit feh-
lenden Identifikatoren schwieriger als sonst. Um genügend redundante Informationen für
die Fälle mit fehlenden oder unbrauchbaren Informationen zu erhalten, sollte der Merk-
malskranz der zur Verfügung stehenden Merkmale erweitert werden. Dies wird ohne
gesetzliche Regelungen vermutlich schwierig, daher erscheinen mir detaillierte Analysen
und Simulationen aufgrund der Erfahrungen mit dem Zensus 2021 unabdingbar.
Da die verschlüsselten Identifikatoren keine Re-Identifikation erlauben, muss zur Aufklä-
rung von verbleibenden Zweifelsfällen die Pseudonymisierung aufgehoben werden. Sollte
dies dezentral erfolgen, ist mit erheblichen Kosten zu rechnen. Vermutlich wird dieser
Schritt daher nicht erfolgen, so dass eine Entscheidung über einen Match nur anhand der
verschlüsselten Identifikatoren fallen kann. Dies wird zu einem erheblichen Anteil falsch-
negativer Matches führen. Das Ausmaß lässt sich nur durch Simulationen abschätzen.

2.13.3 Verfahren des PPRL
In den letzten zehn Jahren wurden zahlreiche Verfahren des Privacy-Preserving-Record-
Linkage (Vatsalan et al. 2013) entwickelt. In der Regel scheiden für große Datensätze
mit Millionen von Records alle „Secure Multiparty Protokolle“ aufgrund ihrer Rechen-
zeit in der Größenordnung von Jahren aus. Bei Datensätzen dieser Größe kommen nur
Varianten exakt verschlüsselter Identifikatoren einerseits (z.B. das ONS-Verfahren, Offi-
ce for National Statistics 2013) und Bloom-Filter basierte Ansätze (Schnell et al. 2009)
andererseits in Frage.
Exakt verschlüsselte Verfahren wie das ONS-Verfahren erfordern in der Regel aufwändi-
ges Preprocessing, das im Fall eines Registerzensus problematisch ist (2.13.1). Hierdurch
entstehen in der Regel höhere Raten an Falsch-Negativ-Links. Obwohl solche Verfahren
häufig als sicher betrachtet werden, ist dies falsch: Das ONS-Verfahren wurde erfolg-
reich von Culnane/Rubinstein/Teague (2017) angegriffen. Obwohl ein solcher Angriff
auf die deutschen Krebsregisterverschlüsselung bislang nicht publiziert wurde, erscheint
die Form des Angriffs auf die Krebsregisterverfahren problemlos übertragbar.
Daher gelten in der PPRL-Literatur andere Verfahren als überlegen. Smith (2017) geht
so weit zu sagen, dass der „(. . . ) Bloom filter approach (. . . ) has become almost a de-facto
standard for Privacy-preserving Record Linkage“. Speziell für Register wurde das Kon-
zept der „Cryptographic Longterm Keys“ (CLKs) entwickelt (Schnell/Bachteler/Reiher
2011). CLKs enthalten alle alphanumerischen Personenmerkmale in einem gemeinsa-

                                              18
men Bitstring. Einzelne Bloomfilter können sowohl alphanumerische Werte, numerische
Werte als auch Geokoordinaten ähnlichkeitserhaltend abbilden. Man könnte auch eine
Kombination von CLKs und Bloomfiltern verwenden.
Bloom-Filter und CLKs lassen sich angreifen, wenn auch mit hohem Aufwand (Christen
et al. 2019). Allerdings gibt es Varianten von Bloom-Filtern, auf die bislang kein Angriff
erfolgreich war. Dies gilt vor allem für das „salting“ (Niedermeyer et al. 2014). Die
systematische Untersuchung der kryptographischen Eigenschaften von Bloomfiltern ist
Gegenstand eines laufenden DFG-Projekts des Verfassers. Sollte also die Verwendung
von PPRL-Techniken in Erwägung gezogen werden, würde ich Bloomfilter oder CLKs
empfehlen (Schnell 2014).

3 Gestaltung des Verknüpfungsverfahrens
Datenbanken enthalten Datenfehler. In Hinsicht auf Identifikatoren müssen zwei Proble-
me unterschieden werden: Datenfehler durch Erfassungsfehler und fehlende Informatio-
nen andererseits.

3.1 Datenerfassungsfehler
Die wenig umfangreiche Literatur zu Datenerfassungsfehlern geht von ca. 1% pro Feld
reinen Erfassungsfehlern durch fehlerhafte OCR oder Tippfehler aus (Damerau 1964,
Pollock/Zamora 1983, 1984, Peterson 1986, Wurdeman 1993). Diese Literatur bezieht
sich nicht direkt auf die Erfassung von Namen, hierzu finden sich kaum Analysen in der
Literatur.
Bei Identifikatoren, deren Nutzung unmittelbare Konsequenzen für die zu identifizieren-
de Person besitzt, ist – falls die korrekte Identifikation im Interesse der Person liegt – mit
einer höheren Datenqualität zu rechnen. Ebenso ist bei Identifikatoren, deren Gültigkeit
unmittelbare Konsequenzen für einen Verwaltungsakt besitzen, mit einer höheren Da-
tenqualität zu rechnen. Diese Hypothesen wurden nach meinem Wissen nicht explizit in
der Literatur geprüft, basieren aber auf Erfahrungen in den Verknüpfungen des German
Record Linkage Centers (hierzu allgemein: Antoni/Schnell 2019). Entsprechend ist je
nach ursprünglicher Verwendung eines Registers mit unterschiedlichen Datenqualitäten
bei Identifikatoren zu rechnen.
Winkler (2005) berichtet, dass typographische Fehler in Datenbanken hoch korreliert
sein können: Ein Fehler in einem Namensbestandteil geht häufig mit Fehlern in ande-
ren Feldern einher. Die meisten Simulationsstudien und Datenfehlergeneratoren basieren
aber auf der Annahme unabhängiger Fehler. Daher sind vermutlich viele Simulationsstu-
dien zu optimistisch in Hinsicht auf die Leistungsfähigkeit ihrer Verfahren. Hier besteht
Forschungsbedarf mit tatsächlichen Datensätzen.
Gill et al. (1993) geben 5-10% ungematchte Records bei Zeichen-für-Zeichen-Vergleiche
von Geburtsdatum und Namen an. Winkler (1990) gibt für ein Linkage-Projekt im Rah-

                                             19
men des Zensus 1990 bei einer manuellen Überprüfung an, dass ca. 24% der Vornamen
und ca. 14% der Nachnamen nicht Buchstabe für Buchstabe übereinstimmten. Für das
Linkage des ACS mit dem Zensus gibt Winkler (2005) an, dass bei 606,411 wahren Links
weniger als 25% bei 6 Merkmalen exakt übereinstimmten. Addiert man die Werte der
Tabellen bei Winkler (1990), ergeben sich bei 19225 tatsächlichen Links 3.2% der Nach-
namen, bei denen auch der erste Buchstabe des Nachnamens nicht übereinstimmt. Da
viele Phonetiken (wie z.B. Soundex) dem ersten Buchstaben besonderes Gewicht geben,
ist dies von allgemeinem Interesse.

3.2 Unvollständige Identifikatoren
Ein größeres Problem als Tippfehler sind unvollständige Identifikatoren. Wird die Da-
teneingabe nicht von administrativen Stellen, sondern durch die Merkmalsträger selbst
vorgenommen, so ist neben einem erheblichen Anteil versehentlich falscher Eingaben mit
einem unbekannten Anteil intentional falscher Eingaben zu rechnen.1 Bei sorgfältigem
Pre-processing kann ein großer Anteil beider Fehlerformen erkannt werden. Während
versehentliche Fehler in der Regel leicht korrigiert werden können, gilt dies nicht für
Obfuskation: Hier führen die Edit-Regeln zumeist zu fehlenden Identifikatoren.
Generell ist die Literatur zum Ausmaß der Unvollständigkeit der Identifikatoren wenig
umfangreich. Es besteht weitgehend Einigkeit unter Praktikern, dass dies ein zentrales
Problem ist, aber kaum Lösungsansätze vorhanden sind. Mit Ausnahme trivialer Impu-
tationen von Geschlecht durch den Vornamen oder auch des Geburtsjahres durch den
Vornamen gibt es kaum Korrekturansätze. Das Ausmaß des Problems wird häufig nur
durch erhebliche Fallzahlverluste in Studien mit Record-Linkage deutlich. Als Beispiel
soll erwähnt werden, dass 27% Ausschluss aller Records einer medizinischen Datenbank
bei Setoguchi et al. (2014) auf unvollständige Matchvariablen zurückgingen. Dieses Aus-
maß an fehlenden Werten ist nicht untypisch, aber selten dokumentiert. Im Allgemeinen
fehlen bei medizinischen Datenbanken 1 – 2% der Angaben pro Identifier. Verwendet
man ein Verfahren, das alle Fälle ausschließt, für die nicht alle Informationen vorliegen,
dann führt die rasch zu hohen Anteilen nicht verknüpfbarer Fälle: Bei 7 Variablen (z.B.
FN, LN, ZIP, Sex, D/M/Y) und 2% Fehlerrate ergibt sich bei 2 Files und Unabhängigkeit
bereits ein Verlust von mehr als 24% der potentiellen Links.

3.3 Pre-Processing
Generell gilt Pre-Processing als notwendiger erster Schritt in der Datenaufbereitung für
Record-Linkage-Prozesse. Obwohl es vereinzelte andere Ergebnisse gibt (Randall et al.

1
    Ein bekanntes Beispiel ist das Jedi-Ritter-Phänomen u.a. im UK-Zensus, bei dem weit mehr Personen
    als Religion „Jedi“ als „Jewish“ angaben (eine internationale Übersicht findet sich unter https://
    en.wikipedia.org/wiki/Jedi_census_phenomenon). Unter dem Stichwort „Obfuscation“ finden sich
    solche Maßnahmen auch bei Privacy-Aktivisten (Brunton/Nissenbaum 2015). Analysen zu Ausmaß
    solcher Verhaltensweisen bei amtlichen Erhebungen wurden bislang nicht veröffentlicht, siehe aber
    Houghton/Houghton/Scott (2015).

                                                  20
2013), kommt die Mehrheit der Studien zu dem Ergebnis, dass eine vorherige Datenbe-
reinigung der Identifikatoren empfehlenswert ist (z.B. Liu 2016). Dies gilt insbesondere
für große Datenbanken der amtlichen Statistik. So betrachtet Winkler (2014) Namens-
und Adressenstandardisierung als entscheidend für ein korrektes Matching. Ohne die
Metrik zu spezifizieren, gibt er einen Anteil von 50-70% der „matching efficacy“ an, die
auf die vorherige Datenbereinigung zurückzuführen sei. Winkler hält rechentechnisch
einfache Verfahren (also z.B. keine Hidden Markov Modelle) für ausreichend bei Listen
von Personen mit hoher Datenqualität.
Das National Research Council (2010) empfahl in seiner Stellungnahme zur Verbesserung
der amerikanischen Wählerregister vier Maßnahmen zur Verbesserung des Linkage:
   1. Zurückführung verschiedener abgeleiteter Vornamen auf eine Grundform (Lis–Liz–
       Elizabeth–Elisabeth, Antonius–Tony–Toni),
   2. Berücksichtigung der wechselnden Reihenfolge von Namensbestandteilen (Lucia
       Vega Garcia kann zu Lucia Vega, Lucia Garcia, Lucia Vega-Garcia oder Lucia
       VegaGarcia werden),
   3. Möglichkeit zur Suche mit Wildcards (z.B. Joh*son) im manuellen Abgleich und
   4. Verwendung von Stringähnlichkeitsfunktionen.
Während die beiden letzten Vorschläge als Minimalstandard angesehen werden können,
gilt dies nicht für die beiden ersten Punkte.
Der Einsatz von Grundformen erfordert die Erstellung umfangreicher Diktionäre. Es
sollte geprüft werden, ob diese nicht in geeigneter Form bei den Herstellern der Post-
sortiermaschinen (Solystic, Siemens-Logistics) einerseits, bei der Schufa andererseits be-
reits vorliegen und übernommen werden könnten. Die Verwendung von Grundformen
anstelle der vorliegenden Varianten wird beim Vorliegen zusätzlicher Identifikatoren zur
Erhöhung der Präzision führen, allerdings den Recall senken (zu diesen Kriterien sie-
he Abschnitt 4.2). Dies dürfte aber der vorliegenden Nutzenfunktion entsprechen. Man
könnte auch die Verwendung der Grundform erst nach einem ersten Linkage-Versuch
(Blocking-Pass) durchführen.

3.4 Notwendigkeit und Kriterien für Blockingverfahren
Möchte man zwei Datensätze mit 83 Millionen Records miteinander verknüpfen, dann
sind (8.3 ∗ 107 ∗ 8.3 ∗ 107 )/2 = 3.4445 ∗ 1015 Vergleiche notwendig. Selbst bei 1 Millionen
Vergleichen pro Sekunden ergeben sich Rechenzeiten von mehr als 150 Jahren.
Daher werden Techniken eingesetzt, um die Zahl der Vergleiche zu reduzieren. Diese Ver-
fahren werden als Blockingverfahren bezeichnet. Blocking teilt die Eingabedatenbanken
nach einem Blockingschlüssel ein. Nur Datensätze, die den gleichen Blockschlüssel haben,
werden in den gleichen Block eingefügt. Kandidaten-Datensatzpaare werden aus allen
Datensätzen im gleichen Block gebildet. Als Blockingschlüssel werden eine oder mehrere
Variablen aus den Eingabedatensätzen verwendet, so z.B. phonetische Kodierungen von
Namen oder das Geburtsjahr oder Wohnorte.
Die Qualität eines Blockingverfahrens wird mit drei verschiedenen Maßen quantifiziert
(Christen 2012). Das wichtigste Maß ist das Reduction Ratio rr. Bezeichnet man mit nM

                                            21
und nN die Zahl der gematchten und nicht-gematchten Paare, so dass nM + nN = m × n
für die Zusammenführung von zwei Files der Größe m und n gilt, dann erbringt eine
Blockingtechnik die Zahl der „true matched“ sM und „true non-matched“ sN Kandida-
tenpaare. Daraus ergibt sich dann das Reduction Ratio als
                                                      sM + sN
                                                            
                                      rr = 1 −                .                    (3.1)
                                                      nM + nN
Um die Zahl der gefundenen Paare zu berücksichtigen, wird die Pair Completeness ver-
wendet:
                                         sM
                                    pc =     .                                 (3.2)
                                         nM
Schließlich wird die Güte der betrachteten Paare (Pair Quality) mit
                                                    sM
                                           pq =                                    (3.3)
                                                  sM + sN
quantifiziert.
Generell nimmt die Zahl tatsächlicher Matches unter den nicht-gelinkten Records bei
Blockingstrategien in späteren Blockdurchläufen exponentiell ab. Die Bestimmung der
Zahl der notwendigen Blockdurchläufe ist daher nicht trivial. Mit geeigneten Trainings-
daten kann die Zahl und der Abfolge der Blockdurchläufe empirisch bestimmt werden.
Eine Abschätzung ohne Trainingsdaten kann durch Capture-Recapture-Schätzungen mit
unterschiedlichen Schwellenwerten erfolgen, Einzelheiten finden sich bei Winkler (2005).
Insgesamt gehört Blocking zu den weniger detailliert untersuchten Teilgebieten im Record-
Linkage. Es gibt nur wenige veröffentlichte Studien für Datensätze in Zensusgröße (z.B.
Winkler 2005). Experimentelle Studien zur optimalen Gestaltung von Blocking-Abfolgen
existieren in der Literatur bislang kaum.1 Daher besteht auch hier Forschungsbedarf.

3.5 Blockingverfahren
Die Berücksichtigung unterschiedlicher Reihenfolgen von Namensbestandteilen erfolgt
oft implizit durch die Abfolge verschiedener Blockingstrategien. Dies kann aber auch
über ein explizites Array-Match erfolgen. Bei einem Array-Match werden alle Elemente
eines Identifikators einer Datei mit allen Elementen dieses Identifikators in der ande-
ren Datei verglichen und dem Paar der größte Ähnlichkeitswert aller dieser Vergleiche
zugewiesen. Liegt ein Identifikator vor, der in unterschiedlichen Datenbanken fehlerhaft
oder nicht in unterschiedliche Datenfelder aufgeteilt wurde, ist Array-Match eine einfa-
che Lösung der resultierenden Probleme. Dies kann z.B. bei Vertauschung von Vor- und
Nachnamen, Doppelnamen oder Geburtsnamen sinnvoll sein.
Eine weitere Möglichkeit besteht darin, das Blocken über einen Bloom-Filter durchzufüh-
ren (Schnell/Bachteler/Reiher 2009). Der Bloom-Filter wird hierbei ohne einen Privacy-
Hintergrund verwendet, sondern nur zum Blocken über alle Namensfelder. Da kleine
Blöcke eine deutliche Verringerung der Rechenzeit bedingen, kann es sinnvoll sein, die
1
    Eine untypische Ausnahme stellt die Arbeit von Sohail/Yousaf (2016) dar.

                                                  22
Sie können auch lesen