• vom 04.04.2016, 18:33 Uhr

Digital-News


Datenjournalismus

Die wesentliche Information im Datenhaufen finden




  • Artikel
  • Lesenswert (57)
  • Drucken
  • Leserbrief




Von Gregor Kucera

  • 11,5 Millionen Dateien, 2,6 Terabyte Daten und die Frage "Wie wertet man das eigentlich aus?".

 Www. Daten-Journalismus ist nicht ganz einfach: Da ist zunächst immer ein Heuhaufen aus Informationen und Daten, in dem es die sprichwörtliche Nadel zu finden gilt. Bevor die Suche in einer erzählbaren Geschichte enden kann, steht eine mühselige Sammlung, Auswertung und Aufbereitung der verfügbaren Daten bevor. Und die erreichen, wie im jüngsten Enthüllungs-Fall, den Panama-Papers, Terabyte-Dimensionen. Solche Big Data-Haufen sind eine Herausforderung für den investigativen Journalismus.

Große Konzerne versuchen sich mit entsprechender Software und so genannten Big Data-Analysten einen Überblick zu schaffen oder zu behalten. Da Daten grundsätzlich als das Gold des Informationszeitalters betrachtet werden, zahlreiche Geschäftsmodelle dahinter liegen und das Wissen um Kunden und Mitbewerber in einer vernetzten Welt immer entscheidender wird, haben sich in den letzten Jahren neue Berufsbilder, ja sogar ganz neue Geschäftsfelder und Branchen eröffnet.

Doch wie schafft man es bei einem Mammutprojekt wie den Panama Leaks - bei einer Menge von rund 11,5 Millionen Dateien und gut 2,6 Terabyte Daten – einen Überblick zu erhalten? Bei solchen Datenmengen muss man erst einmal ein Gefühl für die Größe bekommen.

Ein Terabyte entspricht 10hoch12 Byte, also 1 000 000 000 000 Byte. In der Praxis heißt dies weiter, dass eine A4-Schreibmaschinenseite mit 63 Zeilen zu je 80 Zeichen einen Platzbedarf von 5kB (1000 Byte) hat, die gesamte Bibel als reine Textdatei etwa 4 MB (4.000.000 Byte), ein MP3-Lied zwischen 6 bis 10 MB und ein komprimierter Spielfilm in DVD-Qualität benötigt etwa 5 GB (5.000.000.000 Byte) Platz. Ein CD-Rohling fasst gut 700 MB, eine DVD 4,7 GB und ein Blu-Ray-Disc 25 beziehungsweise 50 GB. 2,6 Terabyte Daten entsprechen somit rund 650.000 Bibeln oder etwa dem Inhalt von 3715 CD-Rohlingen.

Die Recherche für die Panama-Leaks

Bei der Aufbereitung der so genannten Panama Papers oder Panama-Leaks gibt es aus Sicht der Datenexperten mehrere charakteristische Schritte. Zum einen muss einmal eine Datenbasis gegeben sein. Diese wird entweder von den JournalistInnen selbst aufgespürt, oder, wie in Zeiten der Leaks mittlerweile üblicher, von gut informierten Informanten den Medien zugespielt.

Allerdings darf man nicht davon ausgehen, dass hier einfach nur eine enorme Anzahl von Dateien in strukturierter und geordneter Form zugespielt wurde. Es ist anzunehmen, dass die Datensätze aus unterschiedlichsten Quellen kommen, verschiedene Formaten aufweisen und auch mehr oder weniger unstrukturiert sind. Unter anderem umfasste das geleakte Material E-Mails, Urkunden, Kontoauszüge, Passkopien und weitere Dokumente zu rund 214.000 Gesellschaften, vor allem in Panama und den Britischen Jungferninseln. Allein diese schiere Unmenge an Informationen erklärt, warum 370 Journalisten aus 78 Ländern mehrere Monate intensiver Arbeit investieren mussten. Denn selbst wenn es gute Software-Lösungen gibt, bedarf es immer noch großer menschlicher Anstrengungen, um der Datenmenge Herr zu werden.

Der Datenwahn im Big Data-Zeitalter

Im einfachsten Fall käme man für eine Recherche gut mit Excel-Listen oder vergleichbaren Dateiformaten in Tabellenform durch. Derzeit wird bei derart strukturierten Daten vor allem das Dateiformat CSV (Comma-separated values) verwendet. Dieses beschreibt den Aufbau einer Textdatei zur Speicherung oder zum Austausch einfach strukturierter Daten. Diese lassen sich relativ leicht durchsuchen und die Daten dementsprechend auch gut weiterverarbeiten, etwa in Datenbanken. Sobald aber etwa auch PDF-Dateien, eingescannte Rechnungen, eventuell auch Bilder oder Videos, hinzukommen, wird die Datenauswertung schon erheblich schwieriger.

Nicht unwesentlich ist im aktuellen Fall zudem der Umstand, dass die Datensätze bereits bis ins Jahr 1977 zurückreichen. Somit ist davon auszugehen, dass manche Unterlagen nicht so einfach mehr lesbar sind, zum einen, weil die Software, mit der die Datensätze erstellt wurden, nicht mehr verfügbar ist, oder weil die Dateien zwar archiviert, nicht aber in ein gemeinsames Format übertragen wurden.

Hier kommt nun der weltweiten Zusammenarbeit und dem Datenaustausch der internationalen Medien eine wesentliche Rolle zu; vor allem auch dem Internationalen Konsortium der investigativen Journalisten (ICIJ). Der Datensatz wurde von einem Informanten der Süddeutschen Zeitung zugespielt, diese wiederum gab es dem ICIJ weiter und wurde dann rund um den Globus an Journalisten und Medien verteilt.

Die weltweite Zusammenarbeit

Die nächste große Herausforderung liegt darin, dass alle Beteiligten gemeinsam an Dokumenten arbeiten müssen und diese gleichzeitig geschützt bleiben müssen. Dafür ist die beste Mischung aus Sicherheit und Anwenderfreundlichkeit zu finden. E-Mail, Handy oder Skype kommen dafür eher nicht in Frage, eine mögliche Lösung heißt "Voyager". Dieses "Facebook der investigativen Journalisten" basiert auf der offenen Software "Oxwall", und ermöglicht das schnelle Austauschen der Teilnehmer. Jeder Beteiligte hat eine eigene Profilseite und kann eine Vielzahl von Dateien austauschen, teilen und bearbeiten.

Für die Dokumentensuche kamen zwei Plattformen zum Einsatz: diese hören auf die Namen "Solr" und "Blacklight" und stellen eine sichere Umgebung dar, in der Suchanfragen über bestimmte Variablen möglich sind. Im Falle der beteiligten österreichischen Journalisten wurden zunächst etwa Daten wie heimische Postleitzahlen abgefragt. So konnten Briefköpfe und in weiterer Folge Absender oder Adressaten ermittelt werden. Diese Ergebnisse wurden dann weiter analysiert, erneut abgefragt und querreferenziert. Im Laufe der Zeit ergab sich daraus ein Bild der Verschachtelungen, Beteiligungen und Geldflüsse. Die gewonnenen Erkenntnisse wurden mit einer Software namens "Linkurious" zu einfacher überschaubareren Diagrammen zusammengestellt.

Ein weiteres zentrales Thema ist die Verschlüsselung der Kommunikation über eine Dauer von mehreren Monaten oder sogar Jahren. Sichere E-Mail-Kommunikation, geschützte Cloud-Speicher und zahlreiche mehr oder weniger bekannte Tools haben das "Project Prometheus", so der Codename für die Panama Papers, abgesichert.

Doch damit nicht genug: wie JournalistInnen, die bei der Recherche mitgewirkt haben, berichten, mussten die gewonnenen Erkenntnisse, soweit möglich, natürlich verifiziert werden. Vorrangig um die Geldflüsse selbst nachvollziehbarer zu machen und keine Falschaussagen zu veröffentlichen, aber auch, um das weltweite Netzwerk und globale Auswirkungen besser aufzeigen zu können. Dazu mussten die gewonnen Datensätze mit bekanntem Material, etwa aus Gerichtsprotokollen, parlamentarischen Anfragen oder auch etwaigen Geschäftsberichten, abgeglichen und querverlinkt werden. Auch hier konnte man sich auf das große Netzwerk an beteiligten Journalisten stützen, da die Möglichkeiten im Vergleich zu Ermittlungsbehörden doch deutlich beschränkt sind.

Die ersten Zwischenergebnisse zeigen eindrucksvoll, wie komplex und verschachtelt die Welt der Geldes ist. Und wie wichtig die Rolle der Medien, um Missstände aufzudecken.





Leserkommentare




Mit dem Absenden des Kommentars erkennen Sie unsere Online-Nutzungsbedingungen an.


captcha Absenden

* Pflichtfelder (E-Mail-Adresse wird nicht veröffentlicht)


Dokumenten Information
Copyright © Wiener Zeitung Online 2019
Dokument erstellt am 2016-04-04 10:36:31
Letzte Änderung am 2016-04-04 15:52:15



Beliebte Inhalte

Meistgelesen
  1. Einigung auf umstrittene Urheberrechtsreform
  2. Die Macht von Social Bots
  3. "Apex Legends", Retter in der Not
  4. Mit Facebook im Bett
  5. EU einigt sich auf Reform des Urheberrechts
Meistkommentiert
  1. Videokontrolle und Vorratsdatenspeicherung light
  2. EU einigt sich auf Reform des Urheberrechts
  3. Mit Facebook im Bett
  4. Post muss Daten über "Parteiaffinität" löschen
  5. Letzte Ruhe im Netz

Werbung




Werbung