Die Wogen gehen hoch, wenn auch nur in einem kleinen akademischen Kreis. In der breiten Masse ist die Diskussion nicht angekommen, dabei geht es um einiges: Wie viele und welche öffentlichen und elektronisch verfügbaren Daten werden der Wissenschaft zur Verfügung gestellt, um wichtige gesundheitspolitische oder volkswirtschaftliche Fragen in Analyse und Planung zu untersuchen beziehungsweise zu beantworten? Und wie steht es dabei um den Schutz unserer Daten, die ja persönlich sensible Informationen über uns enthalten? Um dies geht es im geplanten Gesetz zur Registerforschung, um die Verknüpfung und Verarbeitung von staatlichen Registerdaten; und dies unter der Ägide der Statistik Austria im Austrian Micro Data Center.

Scheinbar stehen einander dabei zwei Gruppen fast dogmatisch gegenüber: Auf der einen Seite haben Ökonomen, Sozialwissenschafter und Mediziner wissenschaftliches Interesse an der Auswertung dieses Datenschatzes, insbesondere auch im Umfeld der aktuellen Pandemie. Auf der anderen Seite verweisen prominente Verfechter des Datenschutzes darauf, dass hier Grenzen überschritten und ihre in der Begutachtung des Gesetzes vorgebrachten Einwände nicht genügend berücksichtig würden.

Gerti Kappel ist Dekanin der Fakultät für Informatik an der TU Wien und leitet den Forschungsbereich Business Informatics (Schwerpunkt: modellgetriebene Software-Entwicklung). - © privat
Gerti Kappel ist Dekanin der Fakultät für Informatik an der TU Wien und leitet den Forschungsbereich Business Informatics (Schwerpunkt: modellgetriebene Software-Entwicklung). - © privat

Insbesondere vor dem Hintergrund aktuell massiv steigender Corona-Zahlen droht hier die Macht des Faktischen - es ist ja objektiv wichtig, vorhandene Daten zum Schutz der Gesellschaft verwenden zu können. Was soll hier der doch fast immer ertönende Schrei zum Schutz der Daten? Es geht doch um unsere Gesundheit!

Aber muss es diesen Konflikt geben? Beide Seiten anerkennen doch die prinzipielle Berechtigung der jeweils anderen Position (so hoffen wir zumindest), die Bedeutung der sogenannten FAIR-Prinzipien für Daten (Findable, Accessible, Interoperable, Re-usable) ist weitestgehend unbestritten, und beide bewegen sich auf der akademischen Diskursebene. Erschwert wird eine notwendige Diskussion durch die direkte politische Relevanz, dies verleitet verschärfend zu diversen Offenen Briefen (obwohl ja manche nur einige Büros voneinander entfernt sitzen mögen).

Andreas Rauber ist Informatikprofessor und Leiter des Forschungsbereichs Information and Software Engineering der TU Wien sowie Chair der Arbeitsgruppe zu Datenzitierbarkeit der Research Data Alliance. - © privat
Andreas Rauber ist Informatikprofessor und Leiter des Forschungsbereichs Information and Software Engineering der TU Wien sowie Chair der Arbeitsgruppe zu Datenzitierbarkeit der Research Data Alliance. - © privat

Aus unserer Sicht als Informatiker (und nicht aus Sicht der gesamten Informatik - dies zu behaupten, wäre nicht legitim) haben beide Seiten berechtigte Anliegen, die man doch unter einen Hut bringen könnte. Für uns existiert das Problem auf zwei Ebenen, und eines vorweg: Beide scheinen lösbar. Das eine ist die prozedural-rechtliche Abwicklungsebene, das andere sind die technischen Systeme zur Verarbeitung der Daten.

Sensible Daten

Auf der ersten Ebene der formalen Kontrolle der Berechtigungen beziehungsweise des Zugriffs auf die Daten und des Monitorings der jeweiligen Aktivitäten sind aus unserer Sicht Maßnahmen ohne wesentliche Einschränkungen der wissenschaftlichen Auswertung möglich. Hier wären die Forderungen nach einer von der Statistik Austria unabhängigen Kontrollinstanz beziehungsweise einem wissenschaftlichen Beirat aus Wissenschaftern und Datenschützern doch leicht erfüllbar, wie auch die Verpflichtung zur lückenlosen Aufzeichnung des Zugriffs auf personenbezogene Daten, und nicht nur "im notwendigen Ausmaß", also stichprobenartig. Pseudonymisierte Daten sind nun einmal nicht anonymisiert und daher ähnlich sensibel wie Rohdaten zu behandeln.

A Min Tjoa ist emeritierter Universitätsprofessor für Software-Technik an der TU Wien und war von 2015 bis 2021 Vice Chair der United Nations Commission on Science and Technology for Development. - © privat
A Min Tjoa ist emeritierter Universitätsprofessor für Software-Technik an der TU Wien und war von 2015 bis 2021 Vice Chair der United Nations Commission on Science and Technology for Development. - © privat

Auf technischer Ebene ist das Problem weder neu noch ein österreichisches Unikat. Insbesondere im Bereich der Medizindaten gibt es umfangreiche Erfahrungen sowohl in Bezug auf die Prozesse als auch auf die technischen Infrastrukturen. Die UK Health Research Data Alliance hat mit ihren "Trusted Research Environments" (TRE) ein umfangreiches Konzept vorgelegt, das von sicheren Daten und sicheren Analyseplattformen über sichere (insbesondere ethisch zulässige) Fragestellungen und sichere (überprüfte) Personen bis hin zur Überprüfung und Absicherung der Ergebnisse alle relevanten Aspekte umfasst.

In Österreich haben wir mit "DEXHELPP" im Medizinsektor bereits seit zehn Jahren eine ähnliche Lösung (entstanden unter der Ägide von TU-Informatikern aus dem COMET-Exzellenzprogramm der Forschungsförderungsgesellschaft) im Einsatz. Mit Ausbruch der Corona-Pandemie wurde die Notwendigkeit deutlich, derartige Lösungen breiter nutzbar zu machen. Im Rahmen des Covid-19 Future Operation Boards wurde daher unter anderem eine Lösung erarbeitet, die - dem Konzept der TRE folgend - Daten für Analysen nutzbar macht, ohne dass diese dazu an Dritte weitergegeben werden.

Hannes Werthner ist emeritierter Universitätsprofessor für E-Commerce an der TU Wien und Hauptinitiator des Wiener Manifests für Digitalen Humanismus. - © privat
Hannes Werthner ist emeritierter Universitätsprofessor für E-Commerce an der TU Wien und Hauptinitiator des Wiener Manifests für Digitalen Humanismus. - © privat

Ausgewählte Rohdaten oder pseudonymisierte Daten können in abgesicherten Rechnerumgebungen selektiv für vordefinierte Analysen zur Verfügung gestellt werden, wobei jede Interaktion mit diesen Daten überwacht und protokolliert wird. Ein unbemerkter Abfluss der Daten ist nahezu unmöglich. Der Einwand, dass pseudonymisierte Daten mit entsprechendem Aufwand unter Hinzunahme externer Quellen fast immer deanonymisiert werden können, ist natürlich richtig. Wenn allerdings, wie in einer derartigen Infrastruktur vorgesehen, nur jene Daten zur Verfügung stehen, die für die spezifische Analyse benötigt werden, keine weiteren Daten oder Werkzeuge ohne Prüfung in das System eingespeist werden können und jeder Arbeitsschritt vollständig protokolliert und überwacht wird, ist eine unbemerkte Deanonymisierung nicht durchführbar.

Schutz und Transparenz

Zusatzmaßnahmen wie zum Beispiel die Verschlüsselung der Rohdaten (Homomorphic Encryption) oder das Abschotten der Daten innerhalb der Analyseplattformen mit Zugriff über Schnittstellen, die nur aggregierte Ergebnisse retournieren (Data Shielding), erschweren die Analysen, stellen aber sicher, dass selbst die Analysten die Daten nie im Klartext zu Gesicht bekommen. Mit solchen und weiteren Maßnahmen kann auf technischer Ebene eine hohe Sicherheit gewährleistet werden. Ähnliche Lösungen sind, wie angeführt, auch in anderen Ländern (Großbritannien, Frankreich, Finnland) bereits im Einsatz.

Weiters gibt es - wiederum vor allem aus dem Bereich der Medizin kommend - umfangreiche Erfahrungen betreffend die Genehmigung derartiger Analysen (siehe Abwicklungsebene), wo Ethik-Boards mit technischer, rechtlicher und spezifischer Fachexpertise diesen Prozess bis zur Überprüfung der gewonnenen Erkenntnisse vor deren Veröffentlichung überprüfen. Dies kann und soll nicht die Aufgabe einzelner Personen oder Institutionen sein, sondern erfordert eine breitere Herangehensweise, Transparenz über die beantragten und bewilligten Zugriffe sowie die Möglichkeit für jeden von uns, nachvollziehen zu können, welche unserer Daten zur Beantwortung welcher Fragestellung von wem wann und wie genutzt wurden.

Der vorliegende Konflikt scheint daher auflösbar. Lösungen existieren, ebenso wie Erfahrung im Umgang mit diesen. Mit entsprechendem Willen und unter Einsatz entsprechender Ressourcen sollte es möglich sein, den Wert der Daten für faktenbasierte Entscheidungsfindung mit den essenziellen Anforderungen an die Sicherheit der Privatsphäre in Einklang zu bringen. Derartige Lösungen erschweren natürlich die Forschung, Sie verunmöglichen sie jedoch nicht. Man kann Wissenschaft und Datenschutz in Einklang bringen.