Im Jahr 1791 präsentierte der österreichisch-ungarische Tüftler Wolfgang von Kempelen eine Sprechmaschine, die alle menschlichen Sprachlaute artikulieren sollte. Mit Hilfe eines Blasebalgs, der als Lunge fungierte, einer Dudelsackpfeife (sie sollte die Stimmbänder ersetzen) sowie des trichterförmigen Endstücks einer Oboe als Resonator baute er die menschlichen Artikulationsorgane in einer kastenförmigen Apparatur nach.

Je nachdem, wie viel Luftdruck er mit dem Blasebalg durch die Zungenpfeife leitete und den Trichter mit der Hand abdeckte, konnte er Wörter und kürzere Sätze in mehreren Sprachen (u.a. Lateinisch, Französisch und Italienisch) "spielen". Ganz dem Materialismus seiner Zeit verhaftet, glaubte von Kempelen, dass "unsere Stimme zu den Saiteninstrumenten" gehörte und "nichts als ein fortfließender Strom von Luft" sei.

Nachbau einer Sprechmaschine im Stile von Wolfgang von Kempelen. - © Public domain, via Wikimedia / Fabian Brackhane (Quintatoen), Saarbrücken
Nachbau einer Sprechmaschine im Stile von Wolfgang von Kempelen. - © Public domain, via Wikimedia / Fabian Brackhane (Quintatoen), Saarbrücken

Die Sprechmaschine, die sechs Mal so viel Luft brauchte wie ein sprechender Mensch, wurde zu einer Jahrmarktattraktion, wie der Schachspielautomat, den er bereits 1769 konstruiert hatte und der 1809 in Napoleon Bonaparte einen prominenten Gegner finden sollte. Man weiß nicht, wie die sprechende Maschine klang, weil es damals noch keine Tonaufzeichnungen gab, doch was ein anonymer Zeitgenosse berichtete, war durchaus verheißungsvoll:

"Das erste, was wir hörten, war: Mama, Papa, ah ma chere Mama, on m’a fait du mal, und nun konnte jeder in der Gesellschaft ein Wort fordern. Alle sprach die Maschine mit der größten Deutlichkeit aus. Auch die doppelten Vokale und Konsonanten pronunciirt sie sehr rein und richtig. Der Ton ist wie bei einem Kinde von drei Jahren."

Kindische Stimme

Ein Eindruck, den der Konstrukteur bestätigen sollte: "Wenn es aber auch ein feines Gehör bemerkt, so kommt der Maschine doch immer ihre kindische Stimme zu statten, und man lässt es einem Kinde hingehen, wenn es zuweilen lallt, oder einen Buchstaben anstatt des anderen hinsetzt; man begnügt sich verstanden zu haben, was es sagen wollte."

Der Autodidakt von Kempelen war sich durchaus bewusst, dass jeder Laut eine "feine mechanische Struktur" besitzt und sich menschliche Sprachwerkzeuge wie Nase, Mund, Zunge, Luftröhre oder Zwerchfell nicht eins zu eins nachbauen lassen. Trotzdem schuf er mit seiner Apparatur so etwas wie eine Sprachsynthese. Wenn man so will, war die sprechende Maschine der erste Vorläufer digitaler Sprachassistenten.

Es braucht heute keinen Blasebalg mehr, um Maschinen zum Sprechen zu bringen - es genügt ein Knopfdruck oder Sprachkommando. Amazons Sprachassistentin Alexa dreht die Heizung auf und erzählt Witze, Apples Konkurrentin Siri sagt das Wetter an, und Microsofts Cortana plaudert mit dem Nutzer. So geschwätzig, wie die Sprachassistenten sind, so schnell hätte von Kempelen niemals orgeln können. Die Sätze, die ein Mensch eingesprochen hat, werden in Silben und Laute getrennt und von einem Computer wieder zusammengesetzt.

Mit Hilfe eines Baukastenmodells kann das Sprachsystem situativ auf das Gesagte reagieren. Wobei Spracherkennung noch immer viel "Handarbeit" bedeutet. So werkeln bei Amazon 10.000 Menschen an der Weiterentwicklung von Alexa - sie trainieren die Künstliche Intelligenz (KI) nicht nur mit immer mehr Fragen, sondern basteln auch an einer eigenen Persönlichkeit.

Steve Rabuchin, der für Alexa verantwortliche Amazon-Manager, sagt: "Es gibt ein ganzes Team, das daran arbeitet, wie sich Alexa verhält, wie sich ihre Persönlichkeit ausbildet und was ihre Präferenzen sind, wenn ihr eine Frage gestellt wird." Für Google Assistant gab es sogar eine richtige Personenskizze, wie Entwickler James Giangola dem "Atlantic" verriet: "Sie ist die jüngste Tochter einer Bibliothekarin und eines Physikprofessors, der einen Bachelor of Art in Geschichte von der Northwestern (University) hat."

Alltagsbegleiter

Virtuelle Assistenten sind längst keine blechernen Roboter mehr, die mit synthetischer Stimme monotone Dialoge führen, sondern Alltagsbegleiter, die immer menschlicher klingen und eigene Persönlichkeiten entwickeln. Google hat eine KI namens Duplex präsentiert, die autonom Telefongespräche durchführt und sogar Verlegenheitslaute wie "ähm" oder "hm" einstreut. Wenn man sich die Demoversion anhört, weiß man gar nicht, wer jetzt der Mensch und wer die Maschine ist.

Präsentation, wie Amazons Alexa auf einen Befehl reagiert... - © Robert Lever / AFP via Getty Images
Präsentation, wie Amazons Alexa auf einen Befehl reagiert... - © Robert Lever / AFP via Getty Images

Je stärker die Sprachassistenten in unserem Alltag präsent sind, desto drängender wird die Frage, wie sie eigentlich programmiert werden. Wie soll eine Computerstimme klingen? Künstlich? Menschlich? Weiblich oder männlich? Alt oder jung? Servil oder dominant? Für Sprachassistenten, die keine Mimik und Gestik besitzen, ist diese Frage noch wichtiger als bei greifbaren Service-robotern, weil sie ja nur über die Stimme wahrgenommen werden und beim Menschen Assoziationen wecken.

Tech-Konzerne haben sich dazu entschieden, ihre digitalen Assistenten weiblich zu gendern, was immer wieder für Kritik sorgt. Die Unesco bemängelt in einem Bericht ("I’d Blush if I could"), dass Sprachassistenten wie Siri und Alexa Gender-Stereotype reproduzierten. Sie seien "unterwürfig, gehorsam und stets höflich".

Vor dem Hintergrund, dass Kinder mit der Spracherkennungstechnologie aufwachsen und Sprache ein Geschlechtsmarker ist, bestünde die Gefahr, dass bestimmte Vorstellungen von Frauen als dienenden Maschinen transportiert und tradierte Rollenbilder überdauern würden. Schon in der Vergangenheit wurde von Feministinnen die "programmierte Passivität" virtueller Assistenten bemängelt: Sie seien zu leisetreterisch und devot im Umgang mit Sexismus. So antwortete Alexa auf die Beleidigung "Du bist eine Schlampe" mit den Worten "Vielen Dank für das Feedback!".

Männliche Siri

Nun muss man der Vollständigkeit halber erwähnen, dass es Siri und Alexa auch als maskuline Variante gibt. In Großbritannien ist die männliche Stimme von Siri sogar standardmäßig eingestellt. Studien haben herausgefunden, dass Menschen weibliche Stimmen als wärmer und freundlicher empfinden. Deshalb werden auch die Lautsprecherdurchsagen in Zügen und Bahnhöfen meist von Frauen eingesprochen. Auch in Navis dominieren Frauenstimmen.

Um diesen Konflikt aufzulösen, haben zwei dänische Unternehmen ein Computerprogramm entwickelt, das eine genderneutrale Stimme produziert. Die Programmierer nahmen zunächst Stimm-Samples auf, die sich nicht in das binäre Muster von männlich und weiblich einordnen ließen, und modulierten die Aufnahmen mithilfe einer Software zu einer genderlosen Stimme. Q, wie das Programm heißt, spricht wie ein Jugendlicher vor dem Stimmbruch.

Schon von Kempelen vermochte die Stimme seiner Sprechmaschine zu modulieren, indem er hohe oder tiefe Töne erzeugte. Mit modernen Techniken wie Speech Synthesis Markup Language (SSML) ist es heute möglich, künstliche Stimmen zu designen. So gibt es SSML-Befehle, mit denen man beispielsweise Lautstärke, Geschwindigkeit oder Stimmhöhe manipuliert. Bei IBMs Supercomputer Watson lassen sich sogar der Grad der Begeisterung und das Timbre dosieren. Amazon hat Alexa einen Flüsterton (Wispermodus) hinzugefügt, der die Sprachassistentin mit gedämpfter Stimme sprechen lässt.

Alexa könnte auch die Stimme erheben und Nutzer anbrüllen. Technisch wäre das kein Problem. Aber wäre es auch sinnvoll? Und ist es nicht auch eine Form der Altersdiskriminierung, wenn man gefühlt nur Stimmen von 30- oder 40-Jährigen hört? Darf man Alter einfach wegprogrammieren?

Der Maschinenethiker Oliver Bendel forscht schon seit Jahren zu Sprachsynthese und anthropomorphen Agenten. Er entwickelte u.a. den empathiesimulierenden Sprachassistenten SPACE THEA, der für Marsflüge zur Verfügung stehen soll. Im Gespräch sagt er: "Die Modellierung der Stimme halte ich für wichtig, damit die Stimme ansprechend bleibt und man ihr länger zuhört. Monotonie ist der Feind der Konzentration."

Genderneutrale Stimme

Dass der Sprachassistent den Benutzer ermahnt, könne in manchen Kontexten sinnvoll sein: "Ein Lehrer- oder Tutorroboter muss loben und tadeln können, sonst muss man ihn erst gar nicht in der üblichen Rolle als Lehrer oder Tutor einsetzen. Das Anbrüllen wird selten gefragt sein, allenfalls zur Unterhaltung (man findet den Computer oder Roboter lustig)."

Von einer genderneutralen Stimme, wie sie in Dänemark entwickelt wurde, hält Bendel allerdings wenig. Es sei interessant, eine solche Stimme zu erforschen und zu entwickeln. Für manche mag sie auch die richtige Lösung sein. Ihn spreche eine Stimme aber nicht an, weil sie nichts zum Klingen bringe: "Es ist, wenn ich mich so ausdrücken darf, eine kastrierte Stimme."

Letztlich sei die Stimme eine "uralte biologische und soziale Instanz und Strategie", so Bendel. "Wir locken mit ihr Partnerinnen und Partner an, wir binden sie, wir schaffen Nähe und Distanz bei Mitmenschen." In jeder Kultur und Gesellschaft würde man synthetische Stimmen anders interpretieren und unterschiedliche Stimmen bevorzugen. So sollte ein Serviceroboter wie etwa ein Roboterkellner zum Beispiel nicht zu jung klingen.

Gleichwohl besteht bei einem solchen "Design" auch immer die Gefahr eines Biologismus - Stimmen alter Menschen verstummen, und irgendwann hört man nur noch akzentfreie, junge weibliche Stimmen. Die Dialektvarianten von Siri und Alexa haben ohnehin nur Folklore-Charakter. Vielleicht, so Bendel, sei die Stimme am Ende weder robotisch noch genderneutral, sondern ganz anders. Und vielleicht setze man auch bei der Sprechweise an, lässt den Computer oder Roboter sehr langsam oder sehr schnell sprechen. Sicher ist: Die sprechenden Maschinen werden so schnell nicht verstummen.