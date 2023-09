Hannover. Es ist der nächste große Wurf der KI-Branche - und einer, der die Unterhaltungsindustrie nachhaltig verändern könnte. Oder etwa nicht?

Der Streaminganbieter Spotify testet eine Funktion, mit der sich Podcasts per Künstlicher Intelligenz in andere Sprachen übersetzen lassen. Der Clou: Die Stimme der Sprechenden sowie der Sprachduktus sollen dabei erhalten bleiben - es ändern sich nur das gesprochenen Wort. Wird die Funktion einmal marktreif, kämen künftig auch internationale Hörerinnen und Hörer in den Genuss deutschsprachiger Podcasts - etwa „Lanz und Precht“, „Fest und Flauschig“ oder „Gemischtes Hack“. Zumindest in der Theorie.

Erste Pläne des schwedischen Streamingdienstes waren bereits im Mai dieses Jahres bekannt geworden. Nun hat Spotify die KI-gestützte Funktion offiziell vorgestellt sowie drei englischsprachige Podcasts, in denen die Ergebnisse bereits testweise zu hören sind. Die englischsprachigen Sendungen „Lex-Fridman-Podcasts“, „Armchair Expert“ und „The Diary of a CEO“ wurden dafür zum Teil von der KI ins Spanische übersetzt. Zu hören sind die Übersetzungen auf dieser Seite - Übersetzungen ins Deutsche und Französische sollen in den kommenden Wochen folgen.

Programm des ChatGPT-Erfinders

Die Technik, die hinter der neuen Funktion steckt, heißt Whisper. Dies ist keine Erfindung von Spotify selbst, sondern ein Programm des Unternehmens OpenAI, das bereits für sein Chatprogramm ChatGPT bekannt ist. Das automatische Spracherkennungssystem wurde mit Hunderttausenden Audiodaten trainiert und kann gesprochenes Wort zuverlässig in geschriebenen Text umwandeln.

Ganz neu sind solche Transkribierungstools nicht - Whisper unterscheidet sich aber durch seine Präzision: Das Programm ist mit Hilfe von KI überaus robust und arbeitet erstaunlich zuverlässig. Posts von Menschen, die Whisper bereits ausprobiert haben, zeigen: Selbst schnelle Wortbeiträge, Genuschel, Akzente, Fachsprache, Eigennamen oder laute Hintergrundgeräusche meistert die KI und übersetzt die gesprochenen Texte ziemlich fehlerfrei in geschriebenes Wort.

Nicht nur das: Whisper kann das gesprochene Wort auch in andere Sprachen übersetzen. Dies allerdings ist nach aktuellem Entwicklungsstand noch mit Einschränkungen verbunden, denen auch Spotify unterliegt. So funktionieren Übersetzungen vom Englischen in andere Sprachen problemlos - ebenso der umgekehrte Weg. Will man aber einen Text vom Deutschen ins Französische übersetzen, so geht das Programm zunächst den Umweg übers Englische. Es dürfte aber nur eine Frage der Zeit sein, bis das Tool auch andere Sprachen besser beherrscht.

Selbst die Stimme wird imitiert

Wie genau Spotify das Tool in Zukunft nutzen und integrieren will, hat der Streamingdienst noch nicht verraten - auch ein Veröffentlichungsdatum der neuen Funktion ist noch unklar.

Vorstellbar ist aber, dass Podcast-Produzentinnen und -Produzenten ihre Sendungen langfristig einfach per Knopfdruck in andere Sprachen übersetzen lassen können. Möglich wäre auch, dass Hörerinnen und Hörern - je nach Standort- dann gleich die korrekte Sprachversion des jeweiligen Podcasts angezeigt wird.

Besonders vielversprechend ist dabei, dass die Sendungen nicht einfach mit mechanischen Roboterstimmen übersetzt werden sollen - sondern in der Stimmfarbe der jeweiligen Moderatorinnnen oder Moderatoren. Auch dafür sorgt eine neue Entwicklung von OpenAI: Die jeweilige Sprachdatei wird nicht nur transkribiert und übersetzt. Auch ihr Tonfall wird imitiert - samt Besonderheiten wie Füllwörtern oder Pausen.

Auch andere Unternehmen entwickeln KI-Übersetzer

Auch wenn das alles ziemlich futuristisch klingt: Spotify ist bei weitem nicht der erste Anbieter, der mit derartigen Funktionen experimentiert. In den vergangenen Wochen wurde in den sozialen Netzwerken häufig Videos der Plattform HeyGen geteilt. Dort ist es möglich, einen Videoclip von bis zu zwei Minuten hochzuladen und diesen per künstlicher Intelligenz in verschiedene Sprachen übersetzen zu lassen.

Die Technik ist dabei noch ein bisschen beeindruckender als die Pläne von Spotify: Nicht nur die Stimme der Sprechenden wird bei der Übersetzung imitiert - auch das Bild und die Lippenbewegungen werden so angepasst, dass es aussieht, als würde man tatsächlich gerade in einer anderen Sprache zu seinem Publikum sprechen.

Die Ergebnisse sind erstaunlich - und wegen des Hypes in den sozialen Netzwerken kam die Website des kalifornischen KI-Anbieters zuletzt mehrfach zum Erliegen.

Youtube-Videos für die Welt

Auch die Videoplattform Youtube, die zum Tech-Riesen Google gehört, arbeitet an solchen Übersetzungslösungen. Die Plattform hatte vor einigen Wochen angekündigt, Videomacherinnen und -machern langfristig neue KI-Tools zur Verfügung zu stellen. Das System soll dann so funktionieren: Die künstliche Intelligenz hört sich zunächst an, was in einem Youtube-Video gesprochen wird und transkribiert dies in einem Dokument. Dies funktioniert schon jetzt mit Untertiteln. Videomacherinnen und -macher können anschließend den übersetzten Text noch mal gegenlesen und korrigieren.

Ist alles in Ordnung, übersetzt die KI den Text und erstellt eine Synchronisationsstimme für das Video. Auch das funktioniert in verschiedenen Sprachen - und selbst dann, wenn etwa Musik im Originalvideo spielt oder andere Störgeräusche zu hören sind. Zuschauerinnen und Zuschauer können die Übersetzungs-Version dann über das Zahnrad im Videoplayer auswählen. Aktuell wird die Funktion mit einigen ausgewählten Youtuberinnen und Youtubern getestet. In einem Video von den Amoeba Sisters ist so eine Übersetzung etwa integriert.

Zum Einsatz kommt in diesem Fall eine Google-eigene Technik namens Aloud. Das KI-Unternehmen wurde Anfang 2022 erstmals als Teil des „Area 120″-Projektes von Google vorgestellt - einer Art Labor des Tech-Konzerns, das immer wieder spannende technologische Entwicklungen hervorbringt. Interessierte Youtuberinnen und Youtuber konnten sich auf eine Warteliste setzen lassen.

Parallel arbeitet Google auch an Übersetzungsfunktionen für den Privatgebrauch. Audio-Palm soll Nutzerinnen und Nutzern künftig auf Reisen helfen und übersetzt gesprochenes Wort in Sekundenschnelle. Nutzbar ist diese Funktion für Privatnutzerinnen und -nutzer bislang nicht. Denkbar wäre, dass das Feature künftig Einzug in den Google Translator hält.

Youtuber schon begeistert

Eine große Frage steht, wie bei allen KI-Entwicklungen, aber auch diesmal wieder einmal im Raum: Hat die neue Technik das Zeug, ganze Branchen zu verändern?

Denkbar wäre es. Manch einer fürchtet bereits, dass Synchronsprecherinnen und Synchronsprecher künftig nutzlos werden könnten - dann könnten englischsprachige Filme einfach per KI ins Deutsche übersetzt werden. Andere Teile der Kreativszene frohlocken derweil bereits.

Der Youtuber Dave Henrichs, der auf Youtube mehr als eine Million Abonnentinnen und Abonnenten hat, schwärmte kürzlich im Podcast seines Kollegen Tim Gabel: Werde die KI-Übersetzung auf Youtube eingeführt, eröffne sich „endlich der gesamte spanische Markt für alle Deutschen, der ganze türkische, französische, italienische Markt. Und andersrum genauso.“

Henrichs weiter: „Das ist ein Tool, auf das ich einfach nur warte. Weil mein Content dann anstatt von 80 Millionen Menschen von sieben Milliarden geguckt und verstanden werden kann.“ Auch die Podcast-Funktion von Spotify hätte nach dieser Logik das Potenzial, ganze Branchen zu verändern - und würde den Macherinnen und Machern neue Umsatzchancen bescheren.

Kann KI auch Emotionen?

Ob das wirklich so einfach ist, steht auf einem anderen Blatt Papier. Denn es gibt durchaus einige Hürden zu überwinden, die auch künstliche Intelligenz nicht lösen kann. Viele deutsche Sendungen, egal ob auf Spotify oder Youtube, orientieren sich thematisch oder auch kulturell stark am deutschen Markt - in anderen Ländern dürfte das nicht anders sein. Ob es wirklich einen US-Bürger interessiert, wenn Lanz und Precht über Annalena Baerbock sprechen oder Böhmermann und Schulz über deutsche Süßigkeiten-Klassiker oder Helene Fischer, sei mal dahingestellt.

Zum anderen ist noch nicht ganz klar, wie gut KI-Tools das Gefühl der jeweiligen Produktionen tatsächlich transportieren können. Künstliche Intelligenz kann zwar Menschen imitieren - am Ende bleibt sie aber trotzdem künstlich. Werden die Übersetzungstools Ironie verstehen und auch so vortragen können? Werden sie Emotionen, Pointen, rhetorische Kniffe wirklich so darstellen können wie in der Originalsprache?

Hört man sich die Audiobeispiele der Spotify-Podcasts an, darf das zumindest zum jetzigen Zeitpunkt angezweifelt werden. Zwar scheint das englische Original ziemlich fehlerfrei ins Spanische übersetzt zu werden, es funktioniert sogar dann, wenn im Vorspann der Sendung laute Hintergrund-Musik läuft. Jedoch vermittelt die KI-Version keinesfalls das Gefühl, als würden sich hier zwei spanischsprachige Personen miteinander unterhalten.

Die spanische Sprache ist deutlich euphorischer, rasanter und emotionaler, als etwa die englische oder die deutsche. Im Beispiel-Podcast sind auch ziemlich unnatürliche Pausen zu hören, die sofort auf eine technische Manipulation schließen lassen - und der Sendung das Menschliche nehmen.

Podcasts leben von Authentizität

Sicherlich werden die neuen Tools Zuschauerinnen und Zuhörern ganz neue Möglichkeiten eröffnen. Plötzlich lassen sich Informationen über Videos und Podcasts aufnehmen, die zuvor aufgrund der Sprachbarriere verwehrt blieben. Vielleicht sorgt Künstliche Intelligenz auch dafür, dass die Welt durch diese Produkte ein Stückchen weiter zusammenwächst.

Aber: Podcasts und Youtube-Videos leben nicht nur von Informationen, sondern auch von der Persönlichkeit, vom Unterhaltungswert, von der Authentizität ihrer Protagonistinnen und Protagonisten. Das dürfte auch für professionell synchronisierte Filme gelten.

All diese Werte verpuffen ziemlich schnell, sobald eine Technik dazwischenfunkt und das Produkt entmenschlicht - und klingt das Ergebnis noch so professionell. Ob sich mit solchen KI-generierten Produkten tatsächlich eine treue Hörer- oder Zuschauerschaft aufbauen lässt, muss sich noch zeigen.