Die Analyse großer Datenmengen kann sowohl in der Privatwirtschaft als auch im öffentlichen Sektor Entscheidungen erleichtern und eine wissenschaftliche Basis dafür liefern. Als Data Scientist im Bundesrechenzentrum bringt Lisa Neuhofer Ordnung in solche Daten.

Als Kind wäre Lisa Neuhofer gerne Reinigungskraft geworden. "Ich hatte es immer gerne, wenn es sauber ist und alles seine Ordnung hat", sagt sie. Dass sie heute als Data Scientist im Bundesrechenzentrum (BRZ) arbeitet, sei daher gar nicht so weit hergeholt: "Data Science ist ähnlich wie Putzen, man bringt eine gewisse Ordnung in die Daten." Wofür aber wird diese Ordnung in den Daten benötigt? Und wie wird man Datenwissenschaftlerin?

Die Anwendungsmöglichkeiten von Data Science sind vielfältig – vereinfacht gesagt geht es darum, mit Hilfe wissenschaftlicher Methoden Daten zu ordnen und darin gewisse Muster zu erkennen, aus denen wiederum Schlüsse zu einem bestimmten Zweck gezogen werden können. Ein Beispiel ist die Betrugsbekämpfung mittels Predictive Analytics. Eine Kreditkartenfirma besitzt etwa Daten darüber, welche Transaktionen in Ordnung und welche betrügerisch waren, sowie darüber, zu welchem Zeitpunkt und in welchem Land letztere getätigt wurden. Daraus lässt sich mittels Modellen herausfinden, welche Details einer Transaktion eher auf Betrug hindeuten – beispielsweise wenn eine Buchung zu einer für Österreich untypischen Uhrzeit getätigt wurde. Allerdings sei es wichtig, diese Modelle "immer wieder neu zu trainieren", sagt die Expertin. Denn auch die Betrüger passen sich an die Methoden der Datenwissenschaftler an.

Der Mensch hat das letzte Wort

Der Mensch als Kontrollinstanz wird aber nicht überflüssig: Neben der Überprüfung, ob das Modell mit den richtigen Daten gefüttert wird, bleibt auch die Entscheidung, welche Schlüsse aus der Analyse gezogen werden können, beim Menschen. Gegenüber herkömmlichen Methoden der Betrugsbekämpfung hat Predictive Analytics den Vorteil, viel schneller zu sein. So kann man in Echtzeit beurteilen, ob eine Transaktion zu überprüfen ist, wodurch der Mensch in die Lage versetzt wird, einen Teil der Transaktionen nicht oder nur stichprobenartig überprüfen zu müssen, einen anderen dafür umso genauer. "Die Zusammenarbeit von Predictive Analytics mit dem Menschen bringt die besten Ergebnisse", betont Neuhofer.

All das klingt nach der dystopischen Zukunftsvision, die der Film "Minority Report" 2002 gezeichnet hat: Menschen werden auf der Basis von Vorhersagen eingesperrt, weil man annimmt, dass sie in der Zukunft Verbrechen begehen werden. Diese Assoziation hört Neuhofer nicht zum ersten Mal. Im Zusammenhang mit Data Science und Künstlicher Intelligenz hält sie Fragen der Ethik für wesentlich. Wichtig sei zum Beispiel die Transparenz: Wenn eine Bank auf Basis von Daten die Kreditwürdigkeit eines Kunden negativ beurteile, "darf die Begründung dafür nicht sein, dass der Algorithmus das so empfohlen hat, sondern es muss transparent sein, welche Kriterien zu der Entscheidung geführt haben", sagt Neuhofer.

Auch mit der Frage der Gerechtigkeit beschäftigt sich das BRZ. Es reiche nicht aus, zum Beispiel das Geschlecht oder die ethnische Zugehörigkeit auszuschließen. Denn andere Parameter könnten wiederum zu ungerechten Entscheidungen führen. Wenn ein Kriterium die Entfernung von der Innenstadt sei, könnte der Datensatz zumindest teilweise auch die ethnische Zugehörigkeit umfassen. Das BRZ hat zu diesen Fragen einen Prüfkatalog für vertrauenswürdige Künstliche Intelligenz herausgegeben.

Datenlecks dürfen nicht passieren

Darin spielt auch das Thema Datenschutz eine Rolle. Denn wer mit großen Datenmengen umgeht, muss auch deren Missbrauch oder ein Datenleck verhindern. "Diese Verantwortung ist allen BRZ-Mitarbeitern klar", betont Neuhofer. Neben regelmäßigen Schulungen gebe es viele Sicherheitsvorkehrungen, mit denen die Datensicherheit gewährleistet sei. Gefragt, was passiere, wenn die Daten in falsche Hände geraten würden, meint die Wissenschaftlerin, "diese Frage kann ich nicht besser beantworten als jeder andere: Es darf auf keinen Fall passieren."

In den richtigen Händen kann die Auswertung großer Datenmengen im öffentlichen wie auch im privaten Sektor von großem Nutzen sein. Und zwar nicht nur in der Betrugsbekämpfung, wie die berufliche Entwicklung von Lisa Neuhofer zeigt. Als Datenwissenschaftler können Absolventinnen und Absolventen der unterschiedlichsten Studienrichtungen arbeiten – Mathematikerinnen, Physiker, Informatikerinnen und Psychologen. Wichtige Eigenschaften sind laut Neuhofer vor allem Methodenverständnis und analytische Fähigkeiten. Sie selbst habe in der Schulzeit ein Faible für Wahrscheinlichkeitsrechnung entwickelt und auf dieser Basis ein Statistikstudium begonnen. Neben dem Bachelor in Statistik hat Neuhofer einen Master in Volkswirtschaftslehre. Als Data Scientist arbeitete sie schon während des Studiums. In einem Praktikum bei Austrian Airlines ging es darum, die Auslastung von Flügen vorherzusagen, später untersuchte sie für die Medizinische Universität Wien die Wechselwirkung verschiedener Medikamente.

Corona, Öl und Hotelbewertungen

Nach dem Studienabschluss war sie im Erdölbereich tätig: "Da ging es darum, vorherzusagen, welche Bohrlöcher wieder aufgemacht werden sollen, weil in der Umgebung noch genügend Reserven vorhanden sind." Ein weiterer Anwendungsfall sei "Predictive Maintenance", also die Prognose, wann ein Maschinenteil zu tauschen ist. Dadurch wird es möglich, Verschleißteile erst dann auszutauschen, wenn sie kurz vor dem Ende ihrer Lebensdauer stehen, und nicht nach einem Wartungszyklus, der vielleicht viel zu früh ansetzt. Im öffentlichen Sektor kann Predictive Analytics die Raumplanung erleichtern, indem Vorhersagen zum Verkehrsaufkommen den Bau einer neuen Straße nach sich ziehen. Und nicht zuletzt wurde die Methode in Kombination mit verschiedenen Szenarien und Rechnungen für Vorhersagen im Zuge der Covid-19-Pandemie angewendet.

Die Nutzungsmöglichkeiten von Data Science sind also ebenso vielseitig wie die Fähigkeiten der Datenwissenschaftler. Für Lisa Neuhofer, die vor vier Jahren ins Bundesrechenzentrum und damit in den öffentlichen Sektor wechselte, hat sich bereits ein neues Feld aufgetan: Seit kurzem leitet sie das Team "Advanced Analytics and Knowledge Discovery" im BRZ. Dort geht es hauptsächlich um Textmining und Auswertung unstrukturierter Daten, etwa der von Texten und Bildern, nach bestimmten Gesichtspunkten. Ein möglicher Anwendungsfall dafür wäre die Suche nach relevanten Dokumenten wie Rechnungen aus einer Flut von nicht maschinenlesbaren Scans oder die Analyse von Hotelbewertungen. Etwa dann, wenn nur die negativen gebraucht werden, damit der Hotelbetreiber Verbesserungen in die Wege leiten kann. Datenwissenschaftler trainieren dem System anhand bestimmter Begriffe an, nur solche Bewertungen herauszufiltern. In der englischen Sprache funktioniere das schon recht gut, meint die Expertin, die deutsche sei hingegen komplexer. Wie geht man zum Beispiel mit Ironie um? Wie mit Amtsdeutsch? "Da muss man dem Algorithmus schon viel helfen und ihm erklären, welche Wörter was bedeuten", erläutert Lisa Neuhofer. Mit der neuen Aufgabe ist es für sie also ein Stück schwieriger geworden, Ordnung in die Daten zu bringen.