Siri ist eine polyglotte Zeitgenossin. 21 Sprachen beherrscht Apples Sprachassistentin, dazu noch einige Dialekte wie etwa das mexikanische Spanisch. Die Künstliche Intelligenz (KI) mit ihren maschinell lernenden Algorithmen macht ständig Fortschritte. Doch mit einer Sprache hat Siri nach wie vor Schwierigkeiten: Arabisch. Seitdem Apple 2015 eine arabische Version seiner Sprachassistentin lanciert hat, macht die Software kaum Fortschritte. Siri hat Probleme bei der Aussprache, und sie versteht auch zahlreiche Sprachkommandos nicht oder falsch. Auch Amazons Sprachassistentin Alexa und das Microsoft-Pendant Cortana "sprechen" noch kein Arabisch. Für die 300 Millionen Sprecher, die das Arabische hat, tut sich hier eine neue Sprachbarriere auf, wenn sie von Maschinen nicht verstanden werden.

Der Grund liegt zum einen in der komplexen Syntax und Semantik der Sprache, zum anderen in der Art und Weise, wie Sprachcomputer lernen. Das Arabische kennt im Gegensatz zu romanischen oder angelsächsischen Sprachen keinen Satzbau nach der Vorschrift Subjekt, Prädikat, Objekt. Das heißt: Ein Algorithmus kann nicht einfach einen Satz dekonstruieren und in seine einzelnen Bestandteile zerlegen. Zudem gibt es in arabischen Texten keine Großschreibung, was es für Algorithmen schwer macht, Namen oder geografische Bezeichnungen bzw. den Anfang eines Satzes zu erkennen. Erschwerend kommt hinzu, dass es zwischen dem modernen Hocharabisch, wie es etwa in den Medien gesprochen wird, und den lokalen Dialekten erhebliche Unterschiede gibt.

"Für Arabisch fehlen schlicht oft Trainingsdaten", erklärt der Journalist und Buchautor Gerald Drißner, der viel in der arabischen Welt gereist ist und mehrere Jahre in Ägypten Arabisch studiert hat, im Gespräch mit der "Wiener Zeitung". Für die Dialekte gebe es weder vernünftige Wörterbücher noch Audio-Aufnahmen noch eine Aussprachedatenbank, auf die man zurückgreifen könnte. Die Dialekte unterscheiden sich selbst bei grundlegenden Dingen wie Fragewörtern und Verneinung.

Große lokale Unterschiede

"Ein Iraker und ein Marokkaner können sich nur mit großer Mühe über einfache Dinge unterhalten. Man bräuchte also keine KIs für Arabisch, sondern KIs für mehr als ein Dutzend arabischer Dialekte", konstatiert Drißner. Diese zu entwickeln kostet viel Zeit und Geld. Eine logische Alternative wäre, wie im Deutschen oder Englischen, der Verzicht auf Dialekte bei KIs für große Sprachgemeinschaften: "Da die Grammatik des Hocharabischen fast einer mathematischen Logik folgt, wäre es prinzipiell nicht wirklich schwierig, einer KI formales Arabisch beizubringen."