Matthias Bethge ist Professor für Computer-Neurowissenschaften an der Uni Tübingen und Ko-Organisator des derzeitigen Ista-Kongresses "Sensory Coding & Natural Environment". - © MPI für Biologische Kybernetik
Matthias Bethge ist Professor für Computer-Neurowissenschaften an der Uni Tübingen und Ko-Organisator des derzeitigen Ista-Kongresses "Sensory Coding & Natural Environment". - © MPI für Biologische Kybernetik

"Wiener Zeitung": Roboter, die mehr können sollen als nur einem fixen Ablauf zu folgen, müssen visuelle Eindrücke aufnehmen und sie richtig zuordnen können. Sie arbeiten an lernfähigen Algorithmen für maschinelles Sehen. Was genau machen Sie dabei?

Matthias Bethge: Wir versuchen, zu verstehen, welche Art von Vorwissen der Mensch benötigt, um die Dinge, die er sieht, zu verstehen. Interessanterweise traut der Mensch seinen Sinnen nicht, wenn es um Messungen geht, etwa bei der Farbe von Licht oder der Temperatur. Für sein Überleben ist es nämlich wichtiger, Gesichter zu erkennen, denn nur so kann er Beziehungen mit anderen Menschen haben. Er erwartet auch von anderen Menschen, dass sie das zuverlässig und immer wieder können.

Ein Maschinen-Algorithmus könnte hingegen noch keine Beziehungen haben, weil wir die dahinter stehenden Prozesse im Gehirn zu wenig kennen und daher nicht zuverlässig nachbauen können. Der Grund, warum etwa Temperatur-Messgeräte gut funktionieren, ist, weil wir die Physik dahinter verstehen, nach der sich Volumen ausdehnt mit Wärme. Einige Dinge, die dem Menschen schwierig vorkommen, werden daher bereits von der künstlichen Intelligenz gelöst: Ein Computer kann besser Schach spielen als ein Mensch.

Wie wirkt sich Vorwissen auf neue Sinneswahrnehmungen aus?

Wir haben keinen Einfluss darauf, wie sich Vorwissen auswirkt auf neue Wahrnehmungen, sondern es passiert unwillkürlich. Was dem Menschen leicht fällt, ist wiederum schwierig für die künstliche Intelligenz.

Wie wird Wissen im Gehirn gespeichert und wieder abgerufen?

Wir wissen das in letzter Konsequenz nicht. Eine Idee, die eine große Rolle spielt, ist, dass die Form der Repräsentation das Wissen darüber bereits speichert. Stellen Sie sich eine Helligkeitsverteilung vor - dunkle und helle Werte: Das ist, was die Maschine sieht. Beim Menschen hingegen kommt die Information beim Auge herein und wird transformiert vom Gehirn, das ein Objekt daraus erkennt. Verschiebt sich das Objekt, ändern sich die Fotorezeptor-Aktivitäten des Auges. Damit wir ein stabiles Objekt erkennen, müssen also ein paar Rezeptoren immer aktiv sein. Somit muss es eine nicht-lineare Transformation geben zwischen den sensorischen Rezeptoren und der Repräsentation, die es ermöglicht, die An- oder Abwesenheit bestimmter Objekte herauszulesen. Wenn wir über Bilder sprechen, sagen wir daher nicht: Der erste Wert oben ist hell, jener in der Mitte dunkler, sondern wir sagen: Da ist eine schwarz-weiße Kuh.

Wir sind es gewohnt, die dreidimensionale Welt zu interpretieren. Anstatt sie als zweidimensionales Feld von Lichtpunkten zu beschreiben, interpretieren wir sie als Projektion einer dreidimensionalen Szene. Zu diesem Zweck müssen wir ein Modell dafür haben, was in der Welt existieren und eine plausible Szene sein kann und was nicht. Das Computer-Koordinatensystem funktioniert jedoch ganz anders als das sensorische System.

Wann wird es so weit sein, dass ein Roboter Modelle dafür hat, welche Szenen in der Welt plausibel sind? Ist ein lernender, denkender Roboter in zehn Jahre zu erwarten?

Ich wäre nicht überrascht, wenn wir in zehn Jahren Algorithmen haben, die schon sehr gut im maschinellen Sehen funktionieren. Diese Maschinen werden Gesichter erkennen und ihnen Namen zuordnen können. Derzeit entnehmen die meisten Algorithmen kein höheres Wissensverständnis aus Daten, das ihnen hilft, das nächste Objekt schneller zu lernen. Eine Herausforderung ist, abstrakte Formen des Wissens zu extrahieren, sodass es leichter wird mit immer weniger Daten neue Objekte zu lernen. Viele Algorithmen funktionieren aber derzeit noch nicht so, sondern sie fangen immer wieder von vorne an.