Podcasts und andere sprachbasierte Audioformate leben oft von den Stimmen ihrer Hosts. Ein Problem: In der Regel sprechen diese Menschen nur in ihrer Muttersprache. Spotify hatte deshalb als erste Plattform damit begonnen, eine Serie bekannter Podcasts wie The Diary of a CEO with Steven Bartlett, den Lex Fridman Podcast oder Armchair Expert außer in der Originalsprache Englisch auch auf Spanisch, Französisch und Deutsch anzubieten. Das Besondere: Es sind die Originalstimmen der Podcast-Hosts, die wir dort hören. Sie wurden als Stimmklon synthetisiert und können jetzt jeden beliebigen Text sprechen. Für Podcaster und die Plattformen ergeben sich durch die verschiedenen Sprachversionen ganz neue Märkte, denn die meisten professionellen Sendungen werden durch Werbepartner finanziert. Daneben wird auch die Produktion anderer Audioinhalte, wie Einspieler, Trailer, Interviewsequenzen, durch KI für alle Produzenten einfacher und günstiger. Das wird es den Hörerinnen und Hörern ermöglichen, zukünftig auf noch mehr Inhalte aus der ganzen Welt zugreifen zu können. Was man dafür mindestens braucht? Nicht viel. Einen Text. Einen Stimmklon. Fertig. Firmen wie Elevenlabs spezialisieren sich darauf, solche Anwendungen zu professionalisieren. In fast jeder gesprochenen Sprache können so durch Copy-and-paste eines Textes Audioaufnahmen generiert werden, und viele der Texte werden auch als Podcast oder in anderen Formaten ihr Publikum finden.
In dieser effizienten Produktionsweise stecken Vorteile für die produzierenden Unternehmen. Selbst Freelancern wird es so möglich, in vielen Sprachen eigene Audio-Angebote zu veröffentlichen. Für uns als Hörer ist selbst eine synthetische menschliche Stimme oft angenehmer, als den Texte selbst zu lesen. Auch in diesem Feld werden sich deshalb neue Berufe ergeben, aber auch viele traditionelle Berufe verändern bis verschwinden: Synchronsprecherinnen, Audioproduzenten oder Podcast-Hosts stehen zukünftig einem wachsenden Konkurrenzfeld an sprechenden Robotern gegenüber.