WWW. Daten-Journalismus ist nicht ganz einfach: Da ist zunächst immer ein Heuhaufen aus Informationen und Daten, in dem es die sprichwörtliche Nadel zu finden gilt. Bevor die Suche in einer erzählbaren Geschichte enden kann, ist die mühselige Sammlung, Auswertung und Aufbereitung der verfügbaren Daten notwendig.

Und die erreichen, wie im jüngsten Enthüllungsfall, den "Panama Papers", Terabyte-Dimensionen. Doch wie schafft man es bei einem solchen Mammutprojekt wie "Panama Leaks" - bei einer Menge von 11,5 Millionen Dateien und gut 2,6 Terabyte Daten -, einen Überblick zu erhalten?

Bei solchen Datenmengen muss man erst einmal ein Gefühl für die Größe bekommen. Ein Terabyte entspricht 1.000.000.000.000 Byte. In der Praxis heißt dies, dass eine A4-Schreibmaschinenseite mit 63 Zeilen zu je 80 Zeichen einen Platzbedarf von 5kB (1000 Byte) hat, die gesamte Bibel als reine Textdatei etwa 4 MB (4.000.000 Byte), ein MP3-Lied bis zu 10 MB und ein Spielfilm in DVD-Qualität benötigt etwa 5 GB (5.000.000.000 Byte) Platz. Die auszuwertenden Daten bewegen sich somit in der Größenordnung von 650.000 Bibeln.

Der hohe Rechercheaufwand

Bei der Aufbereitung der sogenannten Panama Papers gibt es aus Sicht der Datenexperten mehrere charakteristische Schritte. Zum einen muss einmal eine Datenbasis gegeben sein. Diese wird entweder von den Journalisten selbst aufgespürt oder, wie in Zeiten der Leaks mittlerweile üblicher, von Informanten den Medien zugespielt. Allerdings darf man nicht davon ausgehen, dass hier einfach nur eine enorme Anzahl von Dateien in strukturierter und geordneter Form übergeben wurde. Die Datensätze kommen aus unterschiedlichsten Quellen, weisen verschiedene Formate auf und sind unstrukturiert. Unter anderem umfasst das geleakte Material E-Mails, Urkunden, Kontoauszüge, Passkopien und weitere Dokumente zu rund 214.000 Gesellschaften, vor allem in Panama und auf den Britischen Jungferninseln. Allein diese schiere Unmenge an Informationen erklärt, warum 370 Journalisten aus 78 Ländern mehrere Monate intensiver Arbeit investieren mussten. Denn selbst wenn es gute Software-Lösungen gibt, bedarf es immer noch großer menschlicher Anstrengungen, um der Datenmenge Herr zu werden.

Im einfachsten Fall käme man für eine Recherche gut mit Excel-Listen oder vergleichbaren Dateiformaten in Tabellenform durch. Derzeit wird bei derart strukturierten Daten vor allem das Dateiformat CSV (Comma-separated values) verwendet. Dieses beschreibt den Aufbau einer Textdatei zur Speicherung oder zum Austausch einfach strukturierter Daten. Diese lassen sich relativ leicht durchsuchen und die Daten dementsprechend auch gut weiterverarbeiten, etwa in Datenbanken. Sobald aber etwa auch PDF-Dateien, eingescannte Rechnungen, eventuell auch Bilder oder Videos, hinzukommen, wird die Datenauswertung schon erheblich schwieriger.

Datenwahn und Big Data

Zehn Prozent des gesamten Finanzvermögens in Europa macht in Offshore-Steueroasen geparktes Geld aus, errechnete der französische Starökonom Gabriel Zucman 2015. In Russland und den Golfstaaten war der Anteil sogar höher - seither mag es noch mehr geworden sein.
Zehn Prozent des gesamten Finanzvermögens in Europa macht in Offshore-Steueroasen geparktes Geld aus, errechnete der französische Starökonom Gabriel Zucman 2015. In Russland und den Golfstaaten war der Anteil sogar höher - seither mag es noch mehr geworden sein.

Nicht unwesentlich ist im aktuellen Fall zudem der Umstand, dass die Datensätze bereits bis ins Jahr 1977 zurückreichen. Somit ist davon auszugehen, dass manche Unterlagen nicht mehr so einfach lesbar sind. Zum einen, weil die Software, mit der die Datensätze erstellt wurden, nicht mehr verfügbar ist, zum anderen, weil die Dateien nicht in ein gemeinsames Format übertragen wurden. Hier kommt nun der weltweiten Zusammenarbeit und dem Datenaustausch eine wesentliche Rolle zu; vor allem dem Internationalen Konsortium der investigativen Journalisten (ICIJ). Der Datensatz wurde von einem Informanten der "Süddeutschen Zeitung" zugespielt, diese wiederum gab es dem ICIJ weiter und wurde dann rund um den Globus an Journalisten und Medien verteilt.

Die weltweite Zusammenarbeit


Die nächste große Herausforderung liegt darin, dass alle Beteiligten gemeinsam an Dokumenten arbeiten, diese aber gleichzeitig geschützt bleiben müssen. E-Mail, Handy oder Skype kommen dafür eher nicht in Frage, eine mögliche Lösung heißt "Voyager". Dieses "Facebook der investigativen Journalisten" ermöglicht den schnellen Austausch unter den Teilnehmern. Jeder Beteiligte hat eine eigene Profilseite und kann eine Vielzahl von Dateien teilen und bearbeiten. Für die Dokumentensuche kommen zwei Plattformen zum Einsatz: Diese hören auf die Namen "Solr" und "Blacklight" und stellen eine sichere Umgebung dar, in der Suchanfragen über bestimmte Variablen möglich sind.

Im Falle der beteiligten österreichischen Journalisten wurden zunächst etwa Daten wie heimische Postleitzahlen abgefragt. So konnten Briefköpfe und in weiterer Folge Absender oder Adressaten ermittelt werden. Diese Ergebnisse wurden dann weiter analysiert und querreferenziert. Im Laufe der Zeit ergab sich daraus ein Bild der Verschachtelungen, Beteiligungen und Geldflüsse. Die gewonnenen Erkenntnisse wurden mit einer Software namens "Linkurious" zu überschaubareren Diagrammen zusammengestellt.

Ein weiteres zentrales Thema war die Verschlüsselung der Kommunikation über eine Dauer von mehreren Monaten oder Jahren. Sichere E-Mail-Kommunikation, geschützte Cloud-Speicher und zahlreiche mehr oder weniger bekannte Tools haben das "Project Prometheus", so lautete der Codename für die Panama Papers, geschützt.