Seattle. Die Welt hört auf Alexa, Siri, Cortana und Google. Laut einer aktuellen Studie der Consumer Technology Association (CTA) besitzen mittlerweile 31 Prozent aller US-Haushalte einen Smart Speaker wie Amazon Echo oder Google Home. Mit der Sprachsteuerung Alexa sind zahlreiche Geräte kompatibel: von der Mikrowelle über die Badewanne bis hin zur Gardinensteuerung und Toilette. Zwar hat der laufend mithörende Netzwerklautsprecher sehr gute Ohren. So kann das KI-System aus der Stimme als sensiblem biometrischem Merkmal zahlreiche Informationen extrahieren, etwa ob der Sprecher krank oder gut gelaunt ist. Augen haben Smart Speaker aber noch nicht: Sie sehen nicht, welche Gegenstände im Raum sind und wie der Sprecher gestikuliert. Das könnte sich bald ändern.

Wissenschafter der Universität Carnegie Mellon University haben ein System entwickelt, mit dem es möglich sein soll, Gesten und Objekte im Raum zu erkennen. In einem Versuch wurden verschiedene internetfähige Geräte mit sogenannten Lidar-Sensoren ausgestattet, einer dem Radar ähnlichen Methode zur optischen Abstands- und Geschwindigkeitsmessung. Das Verfahren funktioniert grob gesagt so: Die Laser sendet einen Laserstrahl aus, der von einem Objekt - etwa einer Tischkante - reflektiert wird. Aus der Zeit, die vergeht, bis das Lichtsignal an den Sensor zurückgeworfen wird, errechnet die Software den Abstand und die Koordinaten des Oberflächenpunkts. Lidar ist eine Technik, die vor allem beim autonomen Fahren zum Einsatz kommt, wo Sprachsteuerung eine große Rolle spielt.

Die Forscher programmierten für Amazon Alexa eine Koch-App. Wenn die App den nächsten Schritt des Rezepts diktiert, zum Beispiel "12 Gramm Nüsse in den Teig unterrühren", scannen die Sensoren nicht nur das Küchengerät (den Rührer oder Mixer), sondern auch die Bewegungen des Anwenders - das KI-System kann dann, wenn der Arbeitsschritt erledigt ist, zum nächsten Punkt übergehen. Theorie und Praxis gehen Hand in Hand.

Für das Konkurrenzprodukt Google Home entwickelten die Forscher eine Musik-Player-Demo, bei der sich die Musik über Berührungen auf dem Tisch steuern lässt. Wenn der Nutzer auf den Tisch tippt, pausiert die Musik oder läuft weiter. Durch leichtes Streifen nach oben oder unten lässt sich die Lautstärke regulieren. Der Tisch wird zum Touchpad, jeder beliebige Punkt zur Play-Taste. Die Lidar-Technik ist sogar in der Lage, im Nahbereich von unter drei Metern spezifische Gesten des Nutzers wie etwa eine geballte Faust oder ein mit zwei Händen geformtes Herz zu erkennen. Wenn dem Smart Speaker ein künstliches Auge implantiert würde, müsste man nicht mehr "Stopp!" oder "Wie bitte?" rufen, sondern einfach die Hand heben. Der Hausherr im Smart Home würde im Smart Home wie ein Kaiser regieren - und die digitalen Diener befehligen, indem er den Daumen hebt oder senkt.