Sprachassistenten, die sich in den vergangenen Jahren über vernetzte Echo-Lautsprecher von Amazon oder das iPhone von Apple ausbreiteten, galten mal als die Zukunft, mal als halb gare Spielerei. Aber in diesem Jahr kam ein unangenehmes Geheimnis der Branche ans Licht.

Damit die Software die Nutzer richtig gut verstehen kann, müssen immer wieder Aufzeichnungen von Dialogen nachträglich von Menschen angehört werden. Den weitaus meisten Nutzern war das nicht bewusst. Auch weil die Praxis in Unterlagen bestenfalls irgendwo ganz tief im Kleingedruckten erwähnt wurde. Oder gar nicht.

Mithören, einordnen und Notizen machen

Der Ball kam ins Rollen im April. Der Finanzdienst Bloomberg enthüllte, dass einige Mitschnitte von Unterhaltungen mit Amazons Assistenzsoftware Alexa an diversen Standorten rund um die Welt ausgewertet werden, unter anderem in Boston, Costa Rica, Indien und Rumänien. Und zwar nicht nur direkt beim Konzern, sondern auch bei Dienstleistungs-Firmen. Ein Mitarbeiter aus Boston sagte, er habe zum Beispiel Aufzeichnungen mit den Worten "Taylor Swift" analysiert und sie mit der Anmerkung versehen, dass die Nutzer die Sängerin meinten.

Andere Angestellte erinnerten sich, wie sie in den Aufnahmen Kinder ihre Adressen und Telefonnummer sagen hörten, jemand Sexspielzeug orderte und einsame Leute Alexa ihre Geheimnisse und Ängste anvertrauten. Danach wurde Schritt um Schritt klar, dass es bei Siri von Apple und dem Google Assistant im Prinzip genauso läuft.

Die Sprachbarrieren

Die Dienste-Anbieter stehen vor einem realen Problem. Nutzer erwarten, dass ein Sprachassistent sie optimal versteht. Aber wie verbessert man die Software bei Fehlern, wenn man nicht genau weiß, wo und wie sie sich geirrt hat? Das sei insbesondere wichtig bei speziellen Fällen wie Dialekten oder Akzenten, die man schlecht mit einem generellen Anlernen der Programme abdecken könne, heißt es in der Branche.

Ein ebenso schwieriger Fall sind die fehlerhaften Aktivierungen, bei denen die Sprachassistenten zu Unrecht glauben, ihr Weckwort wie "Alexa" oder "Hey, Siri" gehört zu haben. Hier ist es für die Entwickler wichtig, zu wissen, welche Laute oder Situationen genau zu dem Missverständnis führten, um sie Software entsprechend anzupassen.