Eignung von Personenmerkmalen als Datengrundlage zur Verknüpfung von Registerinformationen im Integrierten Registerzensus - NO. WP-GRLC-2019-01 | ...
←
→
Transkription von Seiteninhalten
Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten
NO. WP-GRLC-2019-01 | DECEMBER 3, 2019 , 2011Klicken Sie hier, um Text einzugeben. Eignung von Personenmerkmalen als Datengrundlage zur Verknüpfung von Registerinformationen im Integrierten Registerzensus Rainer Schnell
Inhaltsverzeichnis 1 Hintergrund und Fragestellung 3 2 Eignung der Personenmerkmale 3 2.1 Ausgangslage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2.2 Literaturstand zur Eindeutigkeit von Personenidentifikatoren . . . . . . . 4 2.3 Eigene Analysen zur Eindeutigkeit von Personenidentifikatoren . . . . . . 5 2.3.1 Berücksichtigung von Personen mit Migrationshintergrund . . . . 6 2.3.2 Analysen auf der Basis der Simulationsgrundgesamtheit . . . . . . 7 2.3.3 Vergleich: Uniqueness in einem amerikanischen Populationsdaten- satz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2.3.4 Abschätzung der Anzahl fehlerhaften Identifikatoren . . . . . . . 8 2.4 Erfahrungen mit Record-Linkage administrativer Daten in vergleichbaren Ländern . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.5 Temporalität der Identifikatoren . . . . . . . . . . . . . . . . . . . . . . . 11 2.6 Die Forderung nach einer Falsch-Positiv-Rate von Null . . . . . . . . . . 11 2.7 Beurteilung des Ausmaßes der Zweifelsfälle . . . . . . . . . . . . . . . . . 12 2.8 Differenzierung der Verknüpfungszwecke . . . . . . . . . . . . . . . . . . 13 2.8.1 Verknüpfung der Melderegister mit einem zentralen Datenbestand 13 2.8.2 Mehrfachfallprüfung . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.8.3 Verknüpfung mit weiteren Datenquellen . . . . . . . . . . . . . . 14 2.8.4 Verknüpfung für administrative Zwecke . . . . . . . . . . . . . . . 14 2.9 Maßnahmen zur Verbesserung niedriger Linkageraten . . . . . . . . . . . 15 2.10 Manuelle Nachbearbeitung . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.11 Generelle Einführung einer einheitlichen Identifikationsnummer . . . . . 16 2.12 Hybridverfahren für einen eventuellen Übergang von Personenmerkmalen zu einer PID . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 2.13 Verschlüsselte Identifikatoren: Privacy Preserverving Record Linkage . . 17 2.13.1 Dezentrales PPRL . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.13.2 Nachbearbeitung verschlüsselter Identifikatoren . . . . . . . . . . 18 2.13.3 Verfahren des PPRL . . . . . . . . . . . . . . . . . . . . . . . . . 18 3 Gestaltung des Verknüpfungsverfahrens 19 3.1 Datenerfassungsfehler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 3.2 Unvollständige Identifikatoren . . . . . . . . . . . . . . . . . . . . . . . . 20 3.3 Pre-Processing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 3.4 Notwendigkeit und Kriterien für Blockingverfahren . . . . . . . . . . . . 21 3.5 Blockingverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.6 Blockingvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 1
3.7 Geo-Blocking . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.8 Wahl des Linkage-Verfahrens . . . . . . . . . . . . . . . . . . . . . . . . . 24 3.8.1 Klassifikationsverfahren . . . . . . . . . . . . . . . . . . . . . . . 24 3.8.2 Ähnlichkeitsfunktionen . . . . . . . . . . . . . . . . . . . . . . . . 25 3.8.3 Skalierbarbarkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 3.8.4 Implementierung . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 3.8.5 Software Entwicklung und Implementierung des Linkageverfahrens 27 4 Test des Verknüpfungsverfahrens 28 4.1 Zielkriterien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 4.2 Maße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 4.3 Schichtung der Teststichprobe . . . . . . . . . . . . . . . . . . . . . . . . 30 4.3.1 Hard-to-Count-Indizes (HTC-Indizes) . . . . . . . . . . . . . . . . 30 4.3.2 Weitere Populationen für einen HTC-Index oder eine direkte Schich- tung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 4.4 Qualitätssicherung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 4.4.1 Unabhängige Primärdatenerhebungen . . . . . . . . . . . . . . . . 33 4.4.2 Mikrozensus als Datenquelle . . . . . . . . . . . . . . . . . . . . . 33 4.4.3 Andere Datenquellen: Strom, Mobilfunk, Post . . . . . . . . . . . 33 4.4.4 Lebenszeichenansatz . . . . . . . . . . . . . . . . . . . . . . . . . 34 4.5 Abfolge der Bearbeitung . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 4.6 Problemfelder bei der Software-Entwicklung . . . . . . . . . . . . . . . . 35 5 Sonstige Empfehlungen 36 5.1 Öffentlichkeitsarbeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 5.2 Begleitforschung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 6 Zusammenfassung 38 6.1 Umfang und Qualität der Personenmerkmale . . . . . . . . . . . . . . . . 38 6.2 Technische Einzelheiten des Verknüpfungsverfahrens . . . . . . . . . . . . 38 A Erstellen einer Simulationsgrundgesamtheit 40 Literaturverzeichnis 41 2
1 Hintergrund und Fragestellung Im Rahmen der Überlegungen zur Verknüpfung von Registerinformationen im Integrier- ten Registerzensus soll das vorliegende Gutachten drei Fragen klären: 1. Eignen sich die in Registern vorhandenen Merkmale grundsätzlich zur Verknüpfung von Personendatensätzen im Integrierten Registerzensus? 2. Wie sollte ein zu entwickelndes Verfahren für die Registerverknüpfung aussehen? 3. Wie kann das Verfahren beurteilt werden? Die erste Fragestellung wurde dahingehend präzisiert, dass abgeschätzt werden muss, ob Eindeutigkeit von Merkmalskombinationen zur Identifikation einer Person trotz schlech- ter Datenqualität und variierender Merkmalsmengen erreicht werden kann. Die zweite Frage bezieht sich auf das Problem, ob die zu erwartenden Inkonsistenzen zwischen verschiedenen Registern kompensiert werden können. Diese Inkonsistenzen be- ziehen sich zunächst nur auf die Quasi-Identifikatoren, daher sind hier Record-Linkage- Verfahren notwendig. Die dritte Frage richtet sich auf Verfahren, mit denen die Ergebnisse des Record-Linkage eines Registerzensus beurteilt werden können. Da es zu den Fragen kaum empirische Studien aus Deutschland gibt, werden internatio- nale Arbeiten zu gleichen oder ähnlichen Problemen zur Plausibilität der Argumentation herangezogen. Einige Ergebnisse des Gutachtens sind neu, so z.B. die Abschätzung der notwendigen Zahl der Identifikatoren. Andere Ergebnisse basieren auf einer Simulation der Grundgesamtheit, die im Anhang beschrieben wird. Explizit nicht Gegenstand des Gutachtens sind die Details einzelner möglicher Regi- sterverknüpfungen oder die zu verwendenden Verlustfunktionen. Beide Fragestellungen erfordern weitergehende Analysen, die über ein Gutachten deutlich hinausgehen. So müs- ste für jede Verknüpfung der vorhandene Merkmalskranz bekannt und in seiner Qualität beurteilbar sein. Mit veröffentlichten Daten ist dies nicht möglich, da es eine entspre- chende Registerforschung nicht gibt. 2 Eignung der Personenmerkmale 2.1 Ausgangslage Die in Deutschland vorhandenen zahlreichen administrativen Register sind überaus he- terogen (Statistisches Bundesamt 2017). Die im Rahmen eines Konzepts zum Register- zensus als zentral betrachteten Register (Körner/Krause/Ramsauer 2019) unterscheiden sich in den vorhandenen Merkmalen, Standardisierungen und Aktualisierungsfrequenzen. 3
Merkmale Szenario 1 Szenario 2 Szenario 3 Nachname 3 3 3 Vorname 3 3 3 Geburtsname 3 3 (3) Geburtsdatum 3 3 3 Geburtsort und -staat 3 (3) (3) Geschlecht 3 3 3 Familienstand 3 (3) Staatsangehörigkeit 3 3 (3) Anschrift (Straße, Hausnummer, 3 3 PLZ, Stadt, Bundesland) Angaben zu Ehepartnern und Kindern 3 Tabelle 1: Szenarien Vereinfacht man die verschiedenen Merkmalsschemata, dann führt dies zur Annahme unterschiedlicher Szenarien, welche Identifikatoren in welchen Datenbanken vorhanden sind (siehe Tabelle 1). Auf diese verschiedenen Szenarien wird im Folgenden Bezug ge- nommen. 2.2 Literaturstand zur Eindeutigkeit von Personenidentifikatoren Die Literatur zur eindeutigen Identifizierbarkeit von Personen durch Namen ist wenig umfangreich. Dies liegt an der aufgrund von Datenschutzauflagen sehr begrenzten Zu- gänglichkeit von Registerdaten, die die gemeinsame Verteilung von Vor- und Nachnamen enthalten.1 Für Forschungszwecke sind entsprechende Datenbestände bislang kaum zu- gänglich (Schnell 2019b). Auf der Basis des norwegischen Wissenschaftlerregisters (Research Personnel Register) mit 31.135 Personen ermittelte Aksnes (2008), dass 86% dieser Population einen Nach- namen haben, den sie allein tragen. Allerdings besitzen 1.4% eine Kombination von Vor- und Nachnamen, den mindestens eine weitere Person besitzt. Tucker (2001) gibt auf der Basis amerikanischer Telefon-CDs von 1997 mit 100 Mil- lionen Einträgen 1.75 Millionen verschiedene bekannte Vornamen und 1.25 Millionen bekannte Nachnamen an. Dies ergäbe 2.1 ∗ 1012 mögliche Kombinationen. Tatsächlich erscheinen aber nur 27.3 Millionen Kombinationen. Im Mittel erscheint jede Kombina- tion dreimal, wobei die Standardabweichung aber 70 (sic!) beträgt. Für Kanada be- richtet Tucker (2002) auf der Basis von 12 Millionen Telefoneinträgen 2.87 Millionen Vor- und Nachnamenskombinationen. Mithilfe eines einfachen Modells schätzen Char- pentier/Coulmont (2018) die Wahrscheinlichkeit für die USA, dass eine Person eine 1 In vielen Ländern reichen die Informationen Vorname, Nachname, Geburtsdatum und Anschrift für einen Identitätsdiebstahl aus. Daher gibt es für diese Kombination von Informationen einen illegalen Markt (Ries 2019). 4
Vor-Nachnamenskombination besitzt, den eine andere Person auch besitzt, auf 95.1%. Für Frankreich schätzen sie diese Wahrscheinlichkeit auf 80%. Bethlehem (2008) gibt für ein niederländisches Projekt für die Verknüpfung von Steu- erdaten mehrerer Jahre mit Anschrift, Geschlecht und Geburtsdatum einen Anteil kor- rekter Verknüpfungen von mehr als 99.7% an. Ansolabehere/Hersh (2017) geben an, dass sich 4.5% der Records des texanischen Wäh- lerverzeichnis mit keiner anderen staatlichen Datenbank verbinden ließen. Zusammenfassend kann festgestellt werden, dass Name und Vorname sowie Geschlecht kaum ausreichen, um eine Person eindeutig zu identifizieren, sobald die Zahl der Personen nicht trivial ist. Anschrifteninformationen sind in der Regel wenig hilfreich, da sich – insbesondere in Subgruppen – erhebliche Änderungen in großer Zahl ereignen und die Art der Anschrifteninformation für die selbe Anschrift stark variiert. In welcher Weise sich Fehler in den Informationen auf die Verlinkbarkeit auswirken ist bislang in der Literatur nicht ausreichend dokumentiert. 2.3 Eigene Analysen zur Eindeutigkeit von Personenidentifikatoren Aufgrund dieser ungenügenden Datenlage wurden eigene Analysen durchgeführt. Zu den international wenigen Datenbanken, die gesamte Populationen abdecken, gehören die Wählerverzeichnisse einiger amerikanischer Bundesstaaten. Für einige Bundesstaa- ten sind diese Datenbanken öffentlich und kostenlos zugänglich, z.B. Ohio und North Carolina. Da die Daten für North Carolina auch in mehreren zeitlich versetzten Varian- ten zugänglich sind, wurden zunächst diese Wählerregister (n=7.550.735, vom 1.06.2019) ausgezählt. Für die Kombination Vor- und Nachname mit vollem Geburtsdatum ergeben sich 0.45% echte Duplikate. Eine eigene vorherige Analyse einer türkischen Verwaltungsdatenbank mit mehreren Millionen Einträgen ergab mit 5.2% eine deutlich höhere Zahl Duplikate (Schnell/Borgs 2016). Die Ursache hierfür liegt vor allem in der Häufung der Fälle mit dem Geburts- datum 1. Januar. Ein kleineres Problem in diesem Datensatz besteht in der bedeutend größeren Schiefe der Namensverteilung. Insgesamt sind die Ergebnisse anderer Länder vermutlich nur begrenzt auf Deutschland zu verallgemeinern. Dies liegt u.a. an der unterschiedlichen Zusammensetzung der Po- pulation in Hinsicht auf ethnische Heterogenität und den Besonderheiten des deutschen Namensrechtes. In Ermangelung anderer kurzfristig verfügbarer Datenbanken wurde – wie in der Lite- ratur üblich – auf Telefon-CDs zurückgegriffen. In der Telefon-CD 2019 finden sich nach einer Datenbereinigung durch eigene Berechnungen ca. 11.35 Millionen Privatpersonen mit Namen. Dabei ergeben sich insgesamt 233.101 verschiedene Vornamen und 677.476 verschiedene Nachnamen. Empirisch lassen sich 6.46 Millionen unterschiedliche Vor- und Nachnamenskombinationen zeigen. Berechnet man die empirische Verteilungsfunktion dieser Kombinationen, dann ergeben sich die Quantile der Abbildung 1. 5
1500 1000 n 500 0 60% 70% 80% 90% 95% 96% 97% 98% 99% 99.5% 99.9% 99.99% 100% Quantil Abbildung 1: Quantile der Anzahl der Träger gleichen Vor- und Nachnamens. Datenba- sis: Telefon-CD 2019. Nur 0.5% der Personen besitzen eine Vor- und Nachnamenskombination, die mehr als 21 mal erscheint. 0.1% der Personen haben eine Kombination, die mehr als 221 mal im Datenbestand existiert. Das Maximum liegt bei 1709 Personen mit gleichem Namen. Geht man – konservativ – von 365 ∗ 75 von 27.375 Geburtstagskombinationen für die Kombination Tag/Monat/Jahr (DOB) sowie Gleichverteilung der Geburtstage und Un- abhängigkeit aller Merkmale aus, dann scheint zunächst die Zahl der Kombinationen DOB * Name auszureichen, um Personen eindeutig zu identifizieren. Dies ist aber bekanntlich aufgrund des Geburtstagsparadoxons nicht der Fall (Diaco- nis/Mosteller 1989). Geht man von 36.500 möglichen Geburtstagen aus, wird die Wahr- scheinlichkeit von 0.5 für zwei oder mehr Personen mit gleichem Geburtstag bereits bei 226 Personen erreicht. Diese Grenze wird bei mehr als 2.200 Gebäuden in Deutschland überschritten. Selbst bei Anschrift und DOB als Gruppierungsmerkmal („Block“, siehe dazu Abschnitt 3.4) wird also vermutlich mehr als 2.200mal keine Eindeutigkeit ohne einen Namensbestandteil erreicht. 2.3.1 Berücksichtigung von Personen mit Migrationshintergrund Aufgrund der kulturellen Besonderheiten der Namenssysteme (Lawson 2016) erschien eine gesonderte Analyse der Verteilung der Anzahl der Träger gleichen Vor- und Nach- namens bei arabischem Migrationshintergrund notwendig. Im Auftrag des Verfassers haben Humpert/Schneiderheinze GbR eine entsprechende Klassifikation der Telefonda- ten 2019 vorgenommen. Betrachtet man nur diejenigen Personen, die aufgrund onoma- stischer Kriterien arabischen Ländern zugeordnet wurden1 , dann werden 39.876 Perso- nen entsprechend klassifiziert. Der Datensatz enthält 11.034 unterschiedliche Vornamen und 22.201 unterschiedliche Nachnamen; es resultieren 37.281 unterschiedliche Vor- und 1 Die Zuordnung wurde von mir vorgenommen. Es handelt sich um die Ländercodes 438, 439, 451, 472, 475, 641, 643, 662. 6
0.8 0.6 Prozent 0.4 0.2 0.0 1 2 3 4 5 6 7 8 9 n Abbildung 2: Anzahl der Träger gleichen Vor- und Nachnamens bei arabischem Migra- tionshintergrund auf der Basis onomastischer Klassifikation. Datenbasis: Telefon-CD 2019. Identifikatoren Uniqueness Zweifelsfälle Vorname, Nachname, PLZ, DOB > 99.99 80.000 Vorname, Nachname, DOB > 99.50 199.000 Vorname, Nachname, PLZ > 98.55 1.200.000 Tabelle 2: Uniqueness in der simulierten Grundgesamtheit bei vollständigen und fehler- freien Identifikatoren und daraus resultierende Zweifelsfälle Nachnamenskombinationen. Die Häufigkeitsverteilung der Anzahl der Träger gleichen Namens zeigt, dass fast 95% der Personen eine Vor- und Nachnamenskombination be- sitzen, die einmal vorkommt (Abbildung 2). Diese Subgruppe lässt allein aufgrund ihrer Namensbestandteile keine besonderen Identifikationsprobleme erwarten.1 2.3.2 Analysen auf der Basis der Simulationsgrundgesamtheit Bei einer Grundgesamtheit von fast 82.960.000 Records ergeben sich bei vollständigen und fehlerfreien Identifikatoren in der Simulation die vorläufigen Ergebnisse der Tabelle 2. Uniqueness ist dabei die Zahl der Kombinationen der Identifikatoren * 100 / Zahl der Records. 1 In anderen ethnischen Subgruppen sind deutlich höhere Anteile an identischen Namen erwartbar. Yao/Zhao (2006) berichten für eine Stichprobe von 570.000 Personen in einer Stichprobe aus dem chinesischen Zensus, dass 8.7% einen Nachnamen aus einem Buchstaben besitzen und die Mehr- heit der Personen einen Nachnamen aus zwei Buchstaben. Den Anteil von Personen mit gleichem Nachnamen bei den Einbuchstabennamen berichten sie mit 67.7%, den entsprechenden Anteil bei Zweibuchstabennamen mit 32.4%. 7
Identifikatoren FP LN 0.980 LN, DOB 0.286 LN, DOB, FN 0.009 LN, DOB, ZIP < 0.001 LN, FN, DBY 0.294 LN, FN, ZIP 0.028 LN, FN, DBY, ZIP < 0.001 LN, DBY 0.833 LN, DBY, ZIP 0.075 Tabelle 3: Anteil falsch positiver Links nach den zur Verfügung stehenden Identifikato- ren: Nachname (LN), Vorname (FN), Geburtstag (DOB), Geburtsjahr (DBY), Postleitzahl (ZIP). Datenbasis: US Social Security Death Master File. Daten aus Hillestad et al. (2008). Bei fehlerhaften Identifikatoren sind höhere Zahlen erwartbar. Alle Erfahrung lehrt, dass mit weit größeren Datenfehlern in der Praxis zu rechnen ist, als die Datenerfassungsre- geln erwarten lassen. 2.3.3 Vergleich: Uniqueness in einem amerikanischen Populationsdatensatz Eine entsprechende Analyse mit amerikanischen Gesundheitsdaten (Hillestad et al. 2008) zeigt ähnliche Ergebnisse. Bei den Daten handelt es sich um die ca. 80 Millionen Ver- storbenen aus dem Social Security Death Master File (Tabelle 3). Aufbauend auf die Arbeit von Golle (2006) geben Lin/Harvey (2015) zwischen 61 und 77% Uniqueness je nach Bundesstaat für die USA für die Kombination der Merkmale Sex, DOB und ZIP an. Über alle Subgruppen gab es keine Veränderungen zwischen dem Zensus 2000 und dem Zensus 2011, so dass die Ergebnisse von Hillestad vermutlich unverändert gelten. 2.3.4 Abschätzung der Anzahl fehlerhaften Identifikatoren In Großstädten wie Frankfurt, Berlin, Hamburg und Bremen sind regelmäßig mehr als 1.5% der Wahlbenachrichtigungen nicht zustellbar; in Berlin 2011 waren es mehr als 2.5%. In diesen Fällen ist vermutlich nur das Adressfeld falsch, daher ist eine ähnliche Fehlerrate für andere Felder erwartbar. Weiterhin erscheint eine höhere Datenqualität für Wahlberechtigte plausibel, so dass die Schätzung mit 2% Fehlern pro (eigentlich vorhandenem) Feld konservativ erscheint. Nimmt man 4 Identifikatoren als notwendig für einen Link an, dann ergibt sich ein An- teil von (1 − 0.02)4 = 0.922 mit vollständigen und fehlerfreien Identifikatoren. Da zwei Files verknüpft werden müssen, gilt dieser Anteil auch im zweiten Datensatz. Entspre- chend würde man den Anteil vollständiger Paare mit 0.922 ∗ 0.922 ≈ 0.85 schätzen. Das 8
Anzahl der unvollständige Identifikatoren F Records 4 0.922 6,443,000 5 .996 319,00 6 .999 13,000 7 1
deutlich, dass die Linkageprobleme vor allem auf temporäre und transiente Populationen wie Migranten und Studenten zurückzuführen sind. Harron et al. (2017) berichten für ein Linkage der Hospitalaufenthalte (HES) mit den Daten des NHS (genauer mit den PDS-Daten1 ) von nicht-übereinstimmenden oder feh- lenden Daten von 0.11% für Geschlecht und Alter und von 53% (sic!) für die Postleitzahl der Adresse. Die Fehlerraten variieren signifikant nach Alter, Geschlecht und ethnischer Zugehörigkeit. Auf der Basis des Linkages des NHS Patient Register zum Zensus 2011 gibt das ONS für Vorname, Nachname, DOB und Sex eine Uniqueness von 98.87% an (Office for National Statistics 2013). Die Untererfassung in Zensen ist in den USA seit langer Zeit Gegenstand intensiver politischer Debatten, da die Stimmenallokation im Repräsentantenhaus und die Vertei- lung staatlicher Mittel für Förderungsprogramme vom Zensusergebnis abhängt. Dies hat Anlass zu einer langen methodischen Diskussion und Forschung um das Undercoverage in den USA geführt (Choldin 1994, Anderson/Fienberg 1999, O’Hare 2019). Ähnlich intensive methodische Bemühungen um die Untererfassung finden sich verstärkt beim britischen ONS in der Begleitforschung zum Zensus2 und bei Statistics New Zealand. Undercoverage bei Registerzensen ist ein spezielles Problem; die Forschung in Hinsicht auf Korrekturen ist daher keineswegs abgeschlossen (Elkin/Dent/Rahman 2012, Gerritse et al. 2016). Die weltweit am meisten verwendete Methode zur Abschätzung des Coverage eines Zen- sus ist ein Post Enumeration Survey (PES). Unter einem PES wird die vollständige Neuerfassung einer Zufallsstichprobe eines Zensus, gefolgt von einem Abgleich jeder im PES aufgefundenen Person mit dem Zensus verstanden. Um mit einem PES Schätzungen über Under- und Overcoverage durchführen zu können, ist die vollständige Unabhängig- keit aller Verfahrensschritte des PES vom Zensus erforderlich (United Nations Secreta- riat 2010). In diesem Sinn ist die Wiederholungsbefragung des 2011 in Deutschland kein PES, da die Anschriften aus dem Zensus übernommen wurden (Klink/Bihler 2015a). Der britische PES ist der Census Coverage Survey (CSS). Aufgrund der zeitlichen Verzögerung vieler Register könnten bei vielen Registern eher Overcoverage als Undercoverageprobleme die Folge sein, so z.B. durch späte Registrie- rung von Umzügen oder Todesfällen (Savage/Bycroft 2014). Als Maßnahmen gegen Over- coverage in Registern empfehlen Savage/Bycroft (2014) 1. Verknüpfung mit externen Migrationsdaten, 2. die Verwendung eines Lebenszeichenansatzes, 3. die vorherige Deduplizierung der Datensätze, 4. die Verwendung mehrerer Zeitpunkte für Registerauszüge. 1 Der „Personal Demographics Service“ (PDS) ist eine britische Infrastruktureinrichtung, die es Ange- hörigen der Gesundheitsberufe ermöglicht, Patienten ihren Akten zuzuordnen, siehe https://digital. nhs.uk/services/demographics. 2 Unter der Bezeichnung „beyond 2011“ wurden zahlreiche technische Berichte zur Weiterentwicklung des Zensus publiziert. Diese Berichte sind über den Archiv-Server der britischen Verwaltung (https: //webarchive.nationalarchives.gov.uk) auffindbar. 10
Alle vorhandenen Erfahrungen deuten auf erhebliche Probleme der Register bei temporä- ren Migranten hin. Um das Problem des Overcoverage temporärer Migranten verringern zu können, ist eine Verwendung von Datenbanken, deren hochfrequente Aktualisierung unabhängig vom aktiven Handeln der Personen erfolgt, zu empfehlen. Solche Möglich- keiten bestünden z.B. in der Nutzung von Handyvertragsdaten oder Postzustellungsin- formationen. Vermutlich sind hierfür besondere gesetzliche Regelungen erforderlich. 2.5 Temporalität der Identifikatoren Blackwell et al. (2015) betonen zwei Probleme für das Matching: 1. Eine tatsächliche Veränderung der Identifikatoren einer Person (Umzug, Namens- wechsel) benötigt je nach Datenbank unterschiedlich lang, um registriert zu wer- den. 2. Administrative Systeme variieren in der Art und Genauigkeit, mit der Adressen registriert werden. Dies gilt insbesondere für komplexe Wohnsituationen, wie Stu- dentenwohnheime oder Gebäude mit mehreren Anschriften oder Adresszusätzen. Der zweite Punkt ließe sich durch eine andere Form des Geoblockings angehen (siehe Abschnitt 3.7). Der erste Punkt hat bisher wenig Aufmerksamkeit gefunden. Lediglich Hu et al. (2017) haben ein experimentelles Modell vorgestellt, dass die Temporalität eines Identifiers im Linkage berücksichtigt. Gibb/Shrosbree (2014) zeigen, dass die Be- rücksichtigung unterschiedlicher Zeiträume im Signs-of-Life-Ansatz1 für einen Register- zensus je nach Altersgruppe und akzeptierter Zeit für eine Zustandsänderung zu selekti- vem Under- oder Undercoverage führen kann. Systematische Studien zur Temporalität der Identifikatoren existieren darüber hinaus nicht. Es wird vorgeschlagen, den Effekt der datenbankspezifischen Temporalität der Identifikatoren in einer Simulationsstudie in Hinsicht auf die zu erwartenden Matchraten zu untersuchen. 2.6 Die Forderung nach einer Falsch-Positiv-Rate von Null Bei der Beauftragung von Record-Linkage-Projekten findet sich häufig eine Forderung nach einer Falsch-Positiv-Rate von Null (FP-Null-Regel, zur Definition von Falsch- Positiv siehe Tabelle 5). Dies bedingt notwendigerweise eine hohe Zahl falsch negativer Records, also Paare, die nicht als solche erkannt wurden. Will man auch keine hohe Falsch-Negativ-Rate, wird ein hoher manueller Aufwand bei der Nachbearbeitung un- vermeidlich. Das Beispiel des automatischen Abgleichs des Post-Enumeration-Surveys (PES) des Zensus 2011 des ONS zeigt dies deutlich. Der PES des Census 2011 des ONS wurde als Census Coverage Survey (CCS) bezeich- net und mit dem Zensus verlinkt (Office for National Statistics 2012). Das Ergebnis des automatischen Matches der 355347 Fälle des CSS über alle 348 Gebiete zeigt die 1 Der Signs of Life-Ansatz wurde in Estland entwickelt (Tiit 2017). Der Ansatz basiert auf der Zählung der Veränderungen in vielen Registern für eine Person. Diese Zahl muss während eines Zeitraums einen zu schätzenden Mindestwert übersteigen, damit für diese Person der Residenzstatus aufrechterhalten wird. 11
Haushalte Personen 0 20 40 60 80 100 Prozent Match Abbildung 3: “Automatic Match Rate“ für den Census 2011 mit dem Census Coverage Survey (CCS) in England und Wales in jeweils 348 Gebieten (area co- des). Daten aus einem ONS-File, verlinkt in: Office for National Statistics (2012). Abbildung 3. Auffällig ist dabei zunächst die Spannweite der Ergebnisse. Die mittleren Raten liegen bei 65% für Haushalte und 70% für Personen. Diese niedrigen Ergebnis- se werden vermutlich durch die Entscheidungsregel, dass die Falsch-Positiv-Rate Null sein sollte, verursacht. Dies führte unweigerlich zu einer großen Anzahl von falsch ne- gativen Ergebnissen, die dann manuell nachbearbeitet werden mussten. Die endgültigen Linkage-Ergebnisse des CCS mit dem Census 2011 liegen bei 81.2%, das Linkage mit dem Patientenregister und dem CCS erbringt eine Linkagerate von 79.3% selbst nach der manuellen Nachbereitung (Blackwell et al 2015). Deutlich bessere Linkagerate berichten Gibb/Shrosbree (2014) für Neuseeland. Je nach Datenbankpaar werden dort 0.1–0.3% als Falsch-Positive Links geschätzt. Falsch-Negative lassen sich mit Datenbanken allein schwerer schätzen. Als Obergrenze geben diese Au- toren für den Link der Datenbanken Bildung/Steuern 14% an. Insgesamt muss auf der Grundlage vorliegender Linkagestudien mit einer FP-Null-Regel beim Vorliegen der Identifikatoren Name, Vorname, Geschlecht und DOB mit Anteilen nicht-eindeutig linkbarer Records deutlich über 10% gerechnet werden. In diesen Fälle wäre dann die Erhebung zusätzlicher Informationen zumindest in Stichproben unver- meidlich. 2.7 Beurteilung des Ausmaßes der Zweifelsfälle Mit wenigen Ausnahmen (z.B. Pankowska et al. 2019) bezieht sich die statistische Li- teratur zu den Effekten von Matchingfehlern fast ausschließlich auf Regressionsmodelle (Winkler 2018, Ridder/Moffitt 2007). Für spezielle Anwendungsfälle, so z.B. für das Capture-Recapture zur Schätzung von Undercoverage in Zensen wurden Korrekturmo- delle vorgeschlagen (DeWolf/Van der Laan/Zult 2019). Angesichts des derzeitigen Stan- 12
des der Forschung scheint die Anwendung von Korrekturverfahren für Linkagefehler für Populationsschätzungen eher zur Abschätzung der möglichen Unsicherheiten geeignet als zur tatsächlichen Korrektur. 2.8 Differenzierung der Verknüpfungszwecke Das Ausmaß und die Art der Fehler, die man bereit ist in Kauf zu nehmen, hängt vom Anwendungsfall ab. Daher müssen die Verknüpfungszwecke unterschieden werden. 2.8.1 Verknüpfung der Melderegister mit einem zentralen Datenbestand Die Verknüpfung lokaler Melderegister in einen zentralen Datenbestand sollte aufgrund der hohen Zahl der verfügbaren Indikatoren unproblematisch sein. Potentielle Probleme bestehen hier nahezu ausschließlich durch unvollständige bzw. sozial vereinbarte Anga- ben bei Geburtsort und Geburtsdatum bei Migranten. Ein kleines Problem wird bei Mehrlingen mit ähnlichen Namen entstehen. Es ist plausibel, innerhalb eines lokalen Einwohnermelderegisters von der Abwesenheit echter Dubletten auszugehen; Erfahrun- gen mit anderen Registern legen es nahe, dies trotzdem explizit für jedes Register zu prüfen. Mit Ausnahme der Migranten wird der Abgleich der Melderegister weitgehend automatisierbar sein. Sollte hierfür eine einheitliche Personenkennziffer (wie die steuer- liche Identifikationsnummer) zur Verfügung stehen, wird der Abgleich technisch wesent- lich vereinfacht.1 Die Probleme mit Personen, die keine Steuernummer besitzen, sind offensichtlich. Bei diesem Personenkreis ist mit Unvollständigkeit der Identifikatoren zu rechnen. Das Heranziehen weiterer Datenbestände oder auch Nacherhebungen ist dann kaum zu vermeiden. 2.8.2 Mehrfachfallprüfung Die Mehrfachfallprüfung ordnet Personen, die mehrfach in verschiedenen lokalen Regi- stern gemeldet sind ihrer alleinigen oder Hauptwohnung zu (Michel 2004, Diehl 2012). Diese Prüfung kann erst nach Deduplizierung der Einzelregister erfolgen. Da der gleiche Datenbestand wie bei der Verknüpfung von Datenlieferungen aus den Melderegistern vorliegt, ist bei vollständigen Daten nicht mit weiteren Problemen zu rechnen. Dies gilt nicht für Personen mit unvollständigen oder widersprüchlichen Angaben, vor allem für Migranten und Bewohnern von Sonderbereichen. Zu Planungszwecken sollte mit 1–2% Fällen gerechnet werden, die nicht maschinell aufgeklärt werden können. Zusätzlich muss das Problem des Undercoverage der Melderegister erwähnt werden. Für eine quantitative Abschätzung liegen aufgrund der Binnenmigration und den Problemen der Abschätzung der Zahl der Personen mit unklarem Aufenthaltsstatus nicht genügend Informationen 1 Über ein projektspezifisches Passwort, das zusammen mit einer einheitlichen Personenkennziffer als Schlüssel verwendet wird, lassen sich – wie in Frankreich oder Österreich – ein großer Teil der Be- denken aus Sicht des Datenschutzes lösen. Diese juristischen Probleme sind nicht Gegenstand des Gutachtens. Die technischen Probleme bei dieser Art des Abgleichs sind trivial. 13
vor. Überträgt man die Erfahrungen in anderen Ländern, erscheint ein Undercoverage von 0.5% der Register plausibel. 2.8.3 Verknüpfung mit weiteren Datenquellen Nach den Ausführungen in Abschnitt 2.3.2 sind beim Vorliegen vollständiger Angaben für Name, Vorname, Geburtsort und Geburtsjahr nahezu ausreichende Informationen vorhanden, um fast alle Personen eindeutig zu identifizieren. Fehlen Angaben sind zu- sätzliche Identifikatoren unverzichtbar. Davon ist mit Sicherheit auszugehen. Wird die Zahl der geeigneten Identifikatoren kleiner als 6, muss mit erheblichen und leider auch selektiven Falsch-Negativen Links aufgrund fehlender Identifikatoren gerechnet werden. Ich muss dringend davon abraten, mit der kleinstmöglichen Identifikatorenmenge zu lin- ken. Die falsch-negativen Links werden zu Artefakten führen, die vermutlich in vieler Hinsicht zu fälschlich positiven Beurteilungen inhaltlicher Art führen. Liegt die Kom- bination einer geringen Zahl von Identifikatoren mit Fehlerbelastung vor, dann wird die Forderungen nach einer Falsch-Positiv-Rate von Null zu massiven inhaltlichen Ver- zerrungen führen. Sozialpolitisch wünschenswerte Zustände (wie Bildung, Gesundheit, Integration, Teilhabe) werden überschätzt und sozialpolitisch nicht wünschenswerte Zu- stände (wie Arbeitslosigkeit) werden unterschätzt. 2.8.4 Verknüpfung für administrative Zwecke Sollte man weniger an statistischen Systemen als an administrativen Systemen inter- essiert sein, so sind keinerlei falsch-positive Ergebnisse akzeptabel. Ein Beispiel hierfür ist das Identitätsmanagement in klinischen Kontexten (n
Ähnlichkeits- Schwellenwert- Manuelle Datenbereinigung Standardisierung Blocking Zusammenführung berechnung berechnung Überprüfung Abbildung 4: Ablauf eines Linkage-Prozesses 2.9 Maßnahmen zur Verbesserung niedriger Linkageraten Es bleiben nur drei prinzipielle Möglichkeiten zur Verbesserung niedriger Linkageraten: 1. Erhöhung der Zahl der Identifikatoren, 2. Verwendung mehrerer Datenbanken, 3. manuelle Nachbearbeitung unklarer Fälle. Es ist naiv, aus der Tatsache, dass eine Verwaltungsregel das Vorhandensein eines Merk- mals vorschreibt, zu schließen, dass Merkmal sei in allen Fällen vorhanden. Bei 4 Merk- malen und einer Fehlerrate von 2% sind bei zwei Files nur 85% aller Record-Paare vollständig. Möchte man mindestens 4 Merkmale bei 2% Fehlerrate pro Identifikator, dann ergibt sich die Tabelle 4. Aus diesem Grund ist die Erhöhung der Zahl der Identifikatoren die erste und wichtig- ste Maßnahme. Die manuelle Nachbearbeitung ist wenig ertragreich, wenn auf dieselben Informationen zurückgegriffen werden muss. Eine Nacherhebung im Rahmen einer ma- nuellen Nachbearbeitung aufgrund fehlender Eindeutigkeit verursacht Kosten, die schwer zu rechtfertigen sind. Die Verwendung mehrerer Datenbanken löst das Problem nicht, da die Verfahren zur eindeutigen Identifikation einer Person mit unvollständigen Merk- malen in vielen Datenbanken zur fehlerträchtigen Entwicklung von Entscheidungsregeln auf der Basis weniger Fälle basieren muss. Zur Aufklärung uneindeutiger Identifikation eignet sich daher die Verwendung vieler Datenbanken nicht. 2.10 Manuelle Nachbearbeitung In der Literatur wird die Nachbearbeitung unklarer potentieller Matches als „clerical editing“ bezeichnet. Während die manuelle Überprüfung meist auf der Grundlage der gleichen Daten erfolgt, die auch für die maschinelle Entscheidung zur Verfügung ste- hen, wird insbesondere bei Prozessen, die keine falsch-positiven Links und nur wenige falsch-negative Links zulassen, die Einholung zusätzlicher Informationen erforderlich. Ein Beispiel dafür ist das Linkage des britischen NHS, das in erheblichem Ausmaß Linkage- Entscheidungen durch Menschen fällen lässt. Hierbei werden weitere individuelle Infor- mationen durch Aktenlage oder Anrufe ermittelt. Ein solches semi-manuelles Linkage ist kostenintensiv, aber bei rechtlich relevanten Linkageentscheidungen unvermeidlich. Geht man von 1% ungeklärter Links aus, handelt es sich um 830.000 unklare Fälle. Will man tatsächlich alle Fälle manuell aufklären und nimmt eine Stunde Aufklärungszeit pro Fall an, dann benötigt man bei 1600 Stunden pro Mitarbeiter pro Jahr ca. 520 Vollzeitstellen für ein Jahr. Das ergäbe Personalkosten oberhalb von 24 Millionen Euro. 15
Möchte man aufgrund des Verwendungszwecks keine eindeutige Aufklärung aller Zwei- felsfälle, kann man auf Stichproben zurückgreifen, um den möglichen Fehler abzuschät- zen. Auch hier empfiehlt sich eine Schichtung mit einem HTC-Index (siehe 4.3.1). 2.11 Generelle Einführung einer einheitlichen Identifikationsnummer Die Vorteile einer einheitlichen Personenidentifikationsnummer (PID) sind in der tech- nischen Literatur unumstritten. Eine eineindeutige Nummer mit integrierten Prüfziffern ermöglicht einen fehlerfreien und höchst effizienten Abgleich aller Datenbanken, in denen diese PID enthalten ist. Daher verwenden viele Länder entsprechende Personenkennzif- fern.1 Aufgrund der vielen technischen Vorteile stellt sich die Frage nach den Kosten der Ein- führung eines solchen Systems. Nach meinem Wissen gab es zwei Studien in der wis- senschaftlichen Literatur zu dem Problem der einmaligen Kosten für die Einführung eindeutiger Identifikatoren. Für die USA geben Hillestad et al. (2008) Kosten zwischen 1.5 und 11.1 Milliarden (sic!) Dollar an. Dies entspräche bei linearer Skalierung aufgrund der unterschiedlichen Populationsgröße 0.45 – 3.3 Milliarden Euro in Deutschland. Für die Schweiz geben Winterleitner/Dungga/Spicher (2018) Einführungskosten zwischen 110 und 268 Millionen CHF mit jährlichen Unterhaltskosten von 21 Millionen CHF an. Die Einführungskosten entsprächen bei linearer Skalierung 1.2–2.9 Milliarden Euro. Es ist davon auszugehen, dass aufgrund der föderalen Struktur in Deutschland und der weit größeren Zahl von Registern die Kosten in Deutschland deutlich höher liegen wür- den. Eine verlässliche Abschätzung erfordert ein interdisziplinäres Forschungsprojekt un- ter Einbeziehung von Verwaltungsjuristen, Betriebswirten, Verwaltungswissenschaftlern, Gesundheitswissenschaftlern und Informatikern. Trotz der zu erwartenden Kosten ist sowohl in der öffentlichen Verwaltung, der Medizin und der Privatwirtschaft mit erheb- lichen Kosteneinsparungen zu rechnen. Entsprechend erwähnen beide zitierten Studien die Kosten, die bei der Nicht-Einführung solcher Systeme entstehen. Nicht zuletzt muss auf die bedeutenden Möglichkeiten der Forschung mit Hilfe solcher Identifikationsnum- mern hingewiesen werden: Fast alle sinnvollen Analysen von administrativen Daten (und Big Data im Allgemeinen) erfordern die eineindeutige Verknüpfung mehrerer Register auf Mikrodatenebene (Schnell 2019a). 2.12 Hybridverfahren für einen eventuellen Übergang von Personenmerkmalen zu einer PID Abgesehen von den administrativen und technischen Problemen bei der Einführung eines solchen Identifikationssystems auf der Basis einer PID ist mit politischen Widerständen zu rechnen, da es sowohl politische als auch ethische Bedenken gegen PIDs gibt (z.B. 1 Der Eintrag https://en.wikipedia.org/wiki/National_identification_number in der englischen Wiki- pedia ist das einzige Beispiel, das dem Autor bekannt ist, bei dem ein Wikipedia-Eintrag vollständiger und korrekter als die verfügbaren wissenschaftlichen Veröffentlichungen. 16
Watner/McElroy 2004, Alston 2019). Entsprechend langwierig wird die Einführung sol- cher Systeme sein. Daher werden lange Zeit viele Datenbanken keine solche PID enthal- ten oder nur für aktualisierte Einträge. In dieser Übergangsphase ist dann eine PID nur für Teile der Population verfügbar. Das ist technisch nur dann unproblematisch, wenn für die Übergangsphase die zu ver- linkenden Datenbestände sowohl die PID als auch die Personenmerkmale enthalten. In diesem Fall stellt die PID im Record-Linkage bei einem Hybridverfahren nur einen per- fekten Block dar. Das bedeutet, dass in einem ersten Schritt alle Fälle gelinkt werden, für die eine PID vorhanden ist. Anschließend werden die Fälle gelinkt, die nicht über PID gematcht wurden. Man könnte die parallele Datenhaltung der PID und der Personenidentifikatoren nur dann vermeiden, wenn zumindest für die Übergangsphase zusätzlich zur PID eine ver- schlüsselte Form der Identifikatoren gespeichert wird. Dies ist z.B. beim Test des Bloom- Filter-Verfahrens (Schnell et al. 2015) für alle Neugeborenen der Fall (Gemeinsamer Bundesausschuss 2017). 2.13 Verschlüsselte Identifikatoren: Privacy Preserverving Record Linkage Sowohl die Europäische Datenschutzgrundverordnung (European Union 2016) als auch die Literatur zur notwendigen Kontextabhängigkeit der Einschätzung, was „privacy“ be- deutet (Elliot et al. 2016), lassen mir eine zentrale Verarbeitung nicht-pseudonymisierter Identifikatoren im Rahmen einer nationalen Statistikbehörde unproblematisch erschei- nen. Sollte diese Rechtsauffassung nicht geteilt werden, dann sind spezielle Verfahren des Record-Linkage notwendig. Record-Linkage mit verschlüsselten Identifikatoren wird in der Literatur als „Privacy Preserving Record Linkage“ (PPRL) bezeichnet. 2.13.1 Dezentrales PPRL Arbeiten mit unverschlüsselten Identifikatoren bei Populationsdatenbanken erfordert in der Mehrheit der Fälle die organisatorische Trennung zwischen den Identifikatoren und den inhaltlichen Daten. In vielen medizinischen Projekten werden so Treuhänderstruk- turen oder Vertrauensstellen mit dem Linkage der Identifikatoren betraut. Man könnte versucht sein, die Identifikatoren vor der Übermittelung an die Linkage-Stellen dezen- tral zu pseudonymisieren. Ein solches Vorgehen eignet sich nur dann, wenn sehr wenige dezentrale Einheiten mit der Pseudonymisierung betraut werden. Schon bei mehr als drei beteiligten Stellen werden Koordinationsprobleme auftreten. Dies gilt verstärkt im Bereich des Pre-Processing. Schon allein aus diesem Grund rate ich von dezentraler Pseudonymisierung ab. Da weiterhin ein nicht unerheblicher Anteil von Fällen erwartet wird, bei denen eine manuelle Abklärung notwendig werden wird, ist eine dezentrale Pseudonymisierung nur dann akzeptabel, wenn Abweichungen weit jenseits der unab- dingbaren internationalen Qualitätsstandards von Zensen akzeptiert werden. 17
2.13.2 Nachbearbeitung verschlüsselter Identifikatoren Es muss darauf hingewiesen werden, dass die in Tabelle 1 erwähnten unterschiedlichen Szenarien über die zur Verfügung stehenden Identifikatoren es mit nahezu Sicherheit erwartbar werden lassen, dass mit den vorhandenen Identifikatoren nur im Szenario 1 eine weitgehend eindeutige Identifikation möglich sein wird. In den anderen Szenarien werden weitere Merkmale zur Identifikation herangezogen werden müssen. Dies können andere Standardidentifikatoren sein – wie z.B. Geburtsort – aber auch Merkmale, die eher zu den inhaltlichen Merkmalen gerechnet werden, wie z.B. die Zahl der Geschwister oder vorherige Schulen oder Arbeitsstätten. Die Abgrenzung zwischen Identifikatoren und inhaltlichen Merkmalen ist bei einem bundesweiten Projekt mit feh- lenden Identifikatoren schwieriger als sonst. Um genügend redundante Informationen für die Fälle mit fehlenden oder unbrauchbaren Informationen zu erhalten, sollte der Merk- malskranz der zur Verfügung stehenden Merkmale erweitert werden. Dies wird ohne gesetzliche Regelungen vermutlich schwierig, daher erscheinen mir detaillierte Analysen und Simulationen aufgrund der Erfahrungen mit dem Zensus 2021 unabdingbar. Da die verschlüsselten Identifikatoren keine Re-Identifikation erlauben, muss zur Aufklä- rung von verbleibenden Zweifelsfällen die Pseudonymisierung aufgehoben werden. Sollte dies dezentral erfolgen, ist mit erheblichen Kosten zu rechnen. Vermutlich wird dieser Schritt daher nicht erfolgen, so dass eine Entscheidung über einen Match nur anhand der verschlüsselten Identifikatoren fallen kann. Dies wird zu einem erheblichen Anteil falsch- negativer Matches führen. Das Ausmaß lässt sich nur durch Simulationen abschätzen. 2.13.3 Verfahren des PPRL In den letzten zehn Jahren wurden zahlreiche Verfahren des Privacy-Preserving-Record- Linkage (Vatsalan et al. 2013) entwickelt. In der Regel scheiden für große Datensätze mit Millionen von Records alle „Secure Multiparty Protokolle“ aufgrund ihrer Rechen- zeit in der Größenordnung von Jahren aus. Bei Datensätzen dieser Größe kommen nur Varianten exakt verschlüsselter Identifikatoren einerseits (z.B. das ONS-Verfahren, Offi- ce for National Statistics 2013) und Bloom-Filter basierte Ansätze (Schnell et al. 2009) andererseits in Frage. Exakt verschlüsselte Verfahren wie das ONS-Verfahren erfordern in der Regel aufwändi- ges Preprocessing, das im Fall eines Registerzensus problematisch ist (2.13.1). Hierdurch entstehen in der Regel höhere Raten an Falsch-Negativ-Links. Obwohl solche Verfahren häufig als sicher betrachtet werden, ist dies falsch: Das ONS-Verfahren wurde erfolg- reich von Culnane/Rubinstein/Teague (2017) angegriffen. Obwohl ein solcher Angriff auf die deutschen Krebsregisterverschlüsselung bislang nicht publiziert wurde, erscheint die Form des Angriffs auf die Krebsregisterverfahren problemlos übertragbar. Daher gelten in der PPRL-Literatur andere Verfahren als überlegen. Smith (2017) geht so weit zu sagen, dass der „(. . . ) Bloom filter approach (. . . ) has become almost a de-facto standard for Privacy-preserving Record Linkage“. Speziell für Register wurde das Kon- zept der „Cryptographic Longterm Keys“ (CLKs) entwickelt (Schnell/Bachteler/Reiher 2011). CLKs enthalten alle alphanumerischen Personenmerkmale in einem gemeinsa- 18
men Bitstring. Einzelne Bloomfilter können sowohl alphanumerische Werte, numerische Werte als auch Geokoordinaten ähnlichkeitserhaltend abbilden. Man könnte auch eine Kombination von CLKs und Bloomfiltern verwenden. Bloom-Filter und CLKs lassen sich angreifen, wenn auch mit hohem Aufwand (Christen et al. 2019). Allerdings gibt es Varianten von Bloom-Filtern, auf die bislang kein Angriff erfolgreich war. Dies gilt vor allem für das „salting“ (Niedermeyer et al. 2014). Die systematische Untersuchung der kryptographischen Eigenschaften von Bloomfiltern ist Gegenstand eines laufenden DFG-Projekts des Verfassers. Sollte also die Verwendung von PPRL-Techniken in Erwägung gezogen werden, würde ich Bloomfilter oder CLKs empfehlen (Schnell 2014). 3 Gestaltung des Verknüpfungsverfahrens Datenbanken enthalten Datenfehler. In Hinsicht auf Identifikatoren müssen zwei Proble- me unterschieden werden: Datenfehler durch Erfassungsfehler und fehlende Informatio- nen andererseits. 3.1 Datenerfassungsfehler Die wenig umfangreiche Literatur zu Datenerfassungsfehlern geht von ca. 1% pro Feld reinen Erfassungsfehlern durch fehlerhafte OCR oder Tippfehler aus (Damerau 1964, Pollock/Zamora 1983, 1984, Peterson 1986, Wurdeman 1993). Diese Literatur bezieht sich nicht direkt auf die Erfassung von Namen, hierzu finden sich kaum Analysen in der Literatur. Bei Identifikatoren, deren Nutzung unmittelbare Konsequenzen für die zu identifizieren- de Person besitzt, ist – falls die korrekte Identifikation im Interesse der Person liegt – mit einer höheren Datenqualität zu rechnen. Ebenso ist bei Identifikatoren, deren Gültigkeit unmittelbare Konsequenzen für einen Verwaltungsakt besitzen, mit einer höheren Da- tenqualität zu rechnen. Diese Hypothesen wurden nach meinem Wissen nicht explizit in der Literatur geprüft, basieren aber auf Erfahrungen in den Verknüpfungen des German Record Linkage Centers (hierzu allgemein: Antoni/Schnell 2019). Entsprechend ist je nach ursprünglicher Verwendung eines Registers mit unterschiedlichen Datenqualitäten bei Identifikatoren zu rechnen. Winkler (2005) berichtet, dass typographische Fehler in Datenbanken hoch korreliert sein können: Ein Fehler in einem Namensbestandteil geht häufig mit Fehlern in ande- ren Feldern einher. Die meisten Simulationsstudien und Datenfehlergeneratoren basieren aber auf der Annahme unabhängiger Fehler. Daher sind vermutlich viele Simulationsstu- dien zu optimistisch in Hinsicht auf die Leistungsfähigkeit ihrer Verfahren. Hier besteht Forschungsbedarf mit tatsächlichen Datensätzen. Gill et al. (1993) geben 5-10% ungematchte Records bei Zeichen-für-Zeichen-Vergleiche von Geburtsdatum und Namen an. Winkler (1990) gibt für ein Linkage-Projekt im Rah- 19
men des Zensus 1990 bei einer manuellen Überprüfung an, dass ca. 24% der Vornamen und ca. 14% der Nachnamen nicht Buchstabe für Buchstabe übereinstimmten. Für das Linkage des ACS mit dem Zensus gibt Winkler (2005) an, dass bei 606,411 wahren Links weniger als 25% bei 6 Merkmalen exakt übereinstimmten. Addiert man die Werte der Tabellen bei Winkler (1990), ergeben sich bei 19225 tatsächlichen Links 3.2% der Nach- namen, bei denen auch der erste Buchstabe des Nachnamens nicht übereinstimmt. Da viele Phonetiken (wie z.B. Soundex) dem ersten Buchstaben besonderes Gewicht geben, ist dies von allgemeinem Interesse. 3.2 Unvollständige Identifikatoren Ein größeres Problem als Tippfehler sind unvollständige Identifikatoren. Wird die Da- teneingabe nicht von administrativen Stellen, sondern durch die Merkmalsträger selbst vorgenommen, so ist neben einem erheblichen Anteil versehentlich falscher Eingaben mit einem unbekannten Anteil intentional falscher Eingaben zu rechnen.1 Bei sorgfältigem Pre-processing kann ein großer Anteil beider Fehlerformen erkannt werden. Während versehentliche Fehler in der Regel leicht korrigiert werden können, gilt dies nicht für Obfuskation: Hier führen die Edit-Regeln zumeist zu fehlenden Identifikatoren. Generell ist die Literatur zum Ausmaß der Unvollständigkeit der Identifikatoren wenig umfangreich. Es besteht weitgehend Einigkeit unter Praktikern, dass dies ein zentrales Problem ist, aber kaum Lösungsansätze vorhanden sind. Mit Ausnahme trivialer Impu- tationen von Geschlecht durch den Vornamen oder auch des Geburtsjahres durch den Vornamen gibt es kaum Korrekturansätze. Das Ausmaß des Problems wird häufig nur durch erhebliche Fallzahlverluste in Studien mit Record-Linkage deutlich. Als Beispiel soll erwähnt werden, dass 27% Ausschluss aller Records einer medizinischen Datenbank bei Setoguchi et al. (2014) auf unvollständige Matchvariablen zurückgingen. Dieses Aus- maß an fehlenden Werten ist nicht untypisch, aber selten dokumentiert. Im Allgemeinen fehlen bei medizinischen Datenbanken 1 – 2% der Angaben pro Identifier. Verwendet man ein Verfahren, das alle Fälle ausschließt, für die nicht alle Informationen vorliegen, dann führt die rasch zu hohen Anteilen nicht verknüpfbarer Fälle: Bei 7 Variablen (z.B. FN, LN, ZIP, Sex, D/M/Y) und 2% Fehlerrate ergibt sich bei 2 Files und Unabhängigkeit bereits ein Verlust von mehr als 24% der potentiellen Links. 3.3 Pre-Processing Generell gilt Pre-Processing als notwendiger erster Schritt in der Datenaufbereitung für Record-Linkage-Prozesse. Obwohl es vereinzelte andere Ergebnisse gibt (Randall et al. 1 Ein bekanntes Beispiel ist das Jedi-Ritter-Phänomen u.a. im UK-Zensus, bei dem weit mehr Personen als Religion „Jedi“ als „Jewish“ angaben (eine internationale Übersicht findet sich unter https:// en.wikipedia.org/wiki/Jedi_census_phenomenon). Unter dem Stichwort „Obfuscation“ finden sich solche Maßnahmen auch bei Privacy-Aktivisten (Brunton/Nissenbaum 2015). Analysen zu Ausmaß solcher Verhaltensweisen bei amtlichen Erhebungen wurden bislang nicht veröffentlicht, siehe aber Houghton/Houghton/Scott (2015). 20
2013), kommt die Mehrheit der Studien zu dem Ergebnis, dass eine vorherige Datenbe- reinigung der Identifikatoren empfehlenswert ist (z.B. Liu 2016). Dies gilt insbesondere für große Datenbanken der amtlichen Statistik. So betrachtet Winkler (2014) Namens- und Adressenstandardisierung als entscheidend für ein korrektes Matching. Ohne die Metrik zu spezifizieren, gibt er einen Anteil von 50-70% der „matching efficacy“ an, die auf die vorherige Datenbereinigung zurückzuführen sei. Winkler hält rechentechnisch einfache Verfahren (also z.B. keine Hidden Markov Modelle) für ausreichend bei Listen von Personen mit hoher Datenqualität. Das National Research Council (2010) empfahl in seiner Stellungnahme zur Verbesserung der amerikanischen Wählerregister vier Maßnahmen zur Verbesserung des Linkage: 1. Zurückführung verschiedener abgeleiteter Vornamen auf eine Grundform (Lis–Liz– Elizabeth–Elisabeth, Antonius–Tony–Toni), 2. Berücksichtigung der wechselnden Reihenfolge von Namensbestandteilen (Lucia Vega Garcia kann zu Lucia Vega, Lucia Garcia, Lucia Vega-Garcia oder Lucia VegaGarcia werden), 3. Möglichkeit zur Suche mit Wildcards (z.B. Joh*son) im manuellen Abgleich und 4. Verwendung von Stringähnlichkeitsfunktionen. Während die beiden letzten Vorschläge als Minimalstandard angesehen werden können, gilt dies nicht für die beiden ersten Punkte. Der Einsatz von Grundformen erfordert die Erstellung umfangreicher Diktionäre. Es sollte geprüft werden, ob diese nicht in geeigneter Form bei den Herstellern der Post- sortiermaschinen (Solystic, Siemens-Logistics) einerseits, bei der Schufa andererseits be- reits vorliegen und übernommen werden könnten. Die Verwendung von Grundformen anstelle der vorliegenden Varianten wird beim Vorliegen zusätzlicher Identifikatoren zur Erhöhung der Präzision führen, allerdings den Recall senken (zu diesen Kriterien sie- he Abschnitt 4.2). Dies dürfte aber der vorliegenden Nutzenfunktion entsprechen. Man könnte auch die Verwendung der Grundform erst nach einem ersten Linkage-Versuch (Blocking-Pass) durchführen. 3.4 Notwendigkeit und Kriterien für Blockingverfahren Möchte man zwei Datensätze mit 83 Millionen Records miteinander verknüpfen, dann sind (8.3 ∗ 107 ∗ 8.3 ∗ 107 )/2 = 3.4445 ∗ 1015 Vergleiche notwendig. Selbst bei 1 Millionen Vergleichen pro Sekunden ergeben sich Rechenzeiten von mehr als 150 Jahren. Daher werden Techniken eingesetzt, um die Zahl der Vergleiche zu reduzieren. Diese Ver- fahren werden als Blockingverfahren bezeichnet. Blocking teilt die Eingabedatenbanken nach einem Blockingschlüssel ein. Nur Datensätze, die den gleichen Blockschlüssel haben, werden in den gleichen Block eingefügt. Kandidaten-Datensatzpaare werden aus allen Datensätzen im gleichen Block gebildet. Als Blockingschlüssel werden eine oder mehrere Variablen aus den Eingabedatensätzen verwendet, so z.B. phonetische Kodierungen von Namen oder das Geburtsjahr oder Wohnorte. Die Qualität eines Blockingverfahrens wird mit drei verschiedenen Maßen quantifiziert (Christen 2012). Das wichtigste Maß ist das Reduction Ratio rr. Bezeichnet man mit nM 21
und nN die Zahl der gematchten und nicht-gematchten Paare, so dass nM + nN = m × n für die Zusammenführung von zwei Files der Größe m und n gilt, dann erbringt eine Blockingtechnik die Zahl der „true matched“ sM und „true non-matched“ sN Kandida- tenpaare. Daraus ergibt sich dann das Reduction Ratio als sM + sN rr = 1 − . (3.1) nM + nN Um die Zahl der gefundenen Paare zu berücksichtigen, wird die Pair Completeness ver- wendet: sM pc = . (3.2) nM Schließlich wird die Güte der betrachteten Paare (Pair Quality) mit sM pq = (3.3) sM + sN quantifiziert. Generell nimmt die Zahl tatsächlicher Matches unter den nicht-gelinkten Records bei Blockingstrategien in späteren Blockdurchläufen exponentiell ab. Die Bestimmung der Zahl der notwendigen Blockdurchläufe ist daher nicht trivial. Mit geeigneten Trainings- daten kann die Zahl und der Abfolge der Blockdurchläufe empirisch bestimmt werden. Eine Abschätzung ohne Trainingsdaten kann durch Capture-Recapture-Schätzungen mit unterschiedlichen Schwellenwerten erfolgen, Einzelheiten finden sich bei Winkler (2005). Insgesamt gehört Blocking zu den weniger detailliert untersuchten Teilgebieten im Record- Linkage. Es gibt nur wenige veröffentlichte Studien für Datensätze in Zensusgröße (z.B. Winkler 2005). Experimentelle Studien zur optimalen Gestaltung von Blocking-Abfolgen existieren in der Literatur bislang kaum.1 Daher besteht auch hier Forschungsbedarf. 3.5 Blockingverfahren Die Berücksichtigung unterschiedlicher Reihenfolgen von Namensbestandteilen erfolgt oft implizit durch die Abfolge verschiedener Blockingstrategien. Dies kann aber auch über ein explizites Array-Match erfolgen. Bei einem Array-Match werden alle Elemente eines Identifikators einer Datei mit allen Elementen dieses Identifikators in der ande- ren Datei verglichen und dem Paar der größte Ähnlichkeitswert aller dieser Vergleiche zugewiesen. Liegt ein Identifikator vor, der in unterschiedlichen Datenbanken fehlerhaft oder nicht in unterschiedliche Datenfelder aufgeteilt wurde, ist Array-Match eine einfa- che Lösung der resultierenden Probleme. Dies kann z.B. bei Vertauschung von Vor- und Nachnamen, Doppelnamen oder Geburtsnamen sinnvoll sein. Eine weitere Möglichkeit besteht darin, das Blocken über einen Bloom-Filter durchzufüh- ren (Schnell/Bachteler/Reiher 2009). Der Bloom-Filter wird hierbei ohne einen Privacy- Hintergrund verwendet, sondern nur zum Blocken über alle Namensfelder. Da kleine Blöcke eine deutliche Verringerung der Rechenzeit bedingen, kann es sinnvoll sein, die 1 Eine untypische Ausnahme stellt die Arbeit von Sohail/Yousaf (2016) dar. 22
Sie können auch lesen