Kolumne #19: Sprachassistenten zum Verlieben

Gut bei Stimme

Neulich beim Kaffee in Paris: Ich plaudere mit Sol über Emily und die gleichnamige Netflix-Serie, die vom Leben einer jungen Amerikanerin in der französischen Hauptstadt handelt. Meine Gesprächspartnerin erweist sich als Kennerin der Materie. Sie erklärt mir, dass Emilys fiktive Wohnung am Place de l’Estrapade im 5. Arrondissement liegt. Und dass der Darsteller des umschwärmten Kochs Gabriel früher selbst Küchenchef war. Ich könnte ihrem französischen Akzent noch länger zuhören, doch Sols begrenztes monatliches Zeitbudget setzt unserer Unterhaltung ein Ende.

Diese Kolumne erschien zuerst in GoodLife #184

Die Dame ist keine Person aus Fleisch und Blut. Ihre Stimme wird von ChatGPT generiert, einer künstlichen Intelligenz aus dem Hause OpenAI. Genauer gesagt: vom neuen „Advanced Audio Mode“ des Chatbots. Das US-Unternehmen verlangt dafür ein Abo. Kostenpunkt: 20 Dollar im Monat. Gratis-Nutzern wie mir stehen Sol und acht weitere Stimmen in der App nur eingeschränkt zur Verfügung. Das reicht allerdings, um einen Eindruck von der Tragweite dieser Technologie zu bekommen.

Als ich 2023 hier über die Veröffentlichung von ChatGPT schrieb (Titel: „Oh Botobot“) hätte ich nicht gedacht, dass es so schnell geht – vom textbasierten Frage-Antwort-Chat zu einer natürlich klingenden Persönlichkeit in nur zwei Jahren. Mit dem Advanced Audio Mode kann ChatGPT theoretisch alles sein: Business Coach, der Job-Aspiranten für das bevorstehende Bewerbungsgespräch trainiert. Sprachlehrer oder Übersetzer, mit dem ich im gewünschten Idiom kommuniziere. Fremdenführer, Entertainer und Hotline-Mitarbeiter. Auf Wunsch sogar in Mundart – das Large Language Model, wie diese Art von KI in der Fachsprache heißt, beherrscht Dialekte wie Berlinerisch, Schwäbisch und Plattdüütsch. Oder eben Deutsch mit französischem Akzent, wenn ich die Stimme darum bitte.

Für meine Ohren klingt Sols amerikanisch-euphorische Attitüde etwas übertrieben. Alles, was sie vorschlägt, soll wunderbar, aufregend und sehenswert sein. Der Tenor dürfte sich aber leicht an hiesige Gepflogenheiten anpassen lassen. Wenn KI von angelsächsischen Kulturen lernen kann, warum dann nicht auch vom Zustand deutscher Service-Wüsten? Ich erwarte sogar, dass Sol und ihre Artgenossinnen unsere individuellen Bedürfnisse erkennen, um darauf zu reagieren. Damit sie immer bessere Gesprächspartner werden. Ein persönlicher Assistent, der auf Vorlieben und Wünsche eingeht. Das klingt faszinierend und beunruhigend zugleich. Denn während ein aufmerksames Gegenüber für viele ein Segen sein kann – ich denke da an Kranke oder Alleinlebende – birgt die Simulation eines sprechenden, mitfühlenden Menschen auch Gefahren.

So wie im Science-Fiction-Film „Her“ von Spike Jonze aus dem Jahr 2013. Hauptdarsteller Joaquin Phoenix verliebt sich darin in eine KI, gesprochen von Scarlett Johansson. Etwas mehr als ein Jahrzehnt später hat die Realität den Plot beinahe eingeholt. Im Vergleich mit Sol wirken die bisherigen Wortführer Alexa, Siri & Co wie Sprechpuppen, die einfach nachplappern, was man ihnen einprogrammiert. Die Unterscheidung zwischen Mensch und Maschine wird schwieriger. OpenAI nahm jüngst sogar eine seiner Stimmen vom Netz, nachdem das KI-Unternehmen von Scarlet Johannssons Anwälten kontaktiert worden war. Die Sprechweise und der Klang erinnerten zu sehr an die Hollywood-Schauspielerin.