Podcasts und andere sprachbasierte Audioformate leben oft von den Stimmen ihrer Hosts. Ein Problem: In der Regel sprechen diese Menschen nur in ihrer Muttersprache. Spotify hatte deshalb als erste Plattform damit begonnen, eine Serie bekannter Podcasts wie The Diary of a CEO with Steven Bartlett, den Lex Fridman Podcast oder Armchair Expert außer in der Originalsprache Englisch auch auf Spanisch, Französisch und Deutsch anzubieten. Das Besondere: Es sind die Originalstimmen der Podcast-Hosts, die wir dort hören. Sie wurden als Stimmklon synthetisiert und können jetzt jeden beliebigen Text sprechen. Für Podcaster und die Plattformen ergeben sich durch die verschiedenen Sprachversionen ganz neue Märkte, denn die meisten professionellen Sendungen werden durch Werbepartner finanziert. Daneben wird auch die Produktion anderer Audioinhalte, wie Einspieler, Trailer, Interviewsequenzen, durch KI für alle Produzenten einfacher und günstiger. Das wird es den Hörerinnen und Hörern ermöglichen, zukünftig auf noch mehr Inhalte aus der ganzen Welt zugreifen zu können. Was man dafür mindestens braucht? Nicht viel. Einen Text. Einen Stimmklon. Fertig. Firmen wie Elevenlabs spezialisieren sich darauf, solche Anwendungen zu professionalisieren. In fast jeder gesprochenen Sprache können so durch Copy-and-paste eines Textes Audioaufnahmen generiert werden, und viele der Texte werden auch als Podcast oder in anderen Formaten ihr Publikum finden.