HyperAIHyperAI

Command Palette

Search for a command to run...

Können KI-Podcasts Vom Graustufentest Von WeChat Bis Zu Den Fehlern Von Google/ByteDance/Xiaohongshu Den Neuen Blauen Ozean Von AIGC Erobern?

Featured Image

Freunde, die normalerweise öffentliche Konten lesen, haben vielleicht bemerkt, dass WeChat vor einiger Zeit eine neue Funktion eingeführt hat: „Nachrichten“. In diesem Bereich können Benutzer nicht nur tägliche Informationen lesen, sondern auch einen Nachrichten-Podcast anhören, der von zwei Moderatoren in Form eines Gesprächs präsentiert wird und aktuelle Nachrichten, internationale Nachrichten und andere Aspekte behandelt. Interessanter ist, dassDie Worte „von KI generiert“ sind unter dem Podcast-Titel deutlich markiert, was zeigt, dass WeChat einen Graustufentest von KI-Podcasts durchführt.Dieser Schritt spiegelt die Nachricht wider, dass Tencent Hunyuan am 5. August offiziell die KI-Podcast-Funktion eingeführt hat und die Branchenlösung „KI-News + KI-Podcast“ von Tencent Cloud Smart Media auf der Tencent Global Digital Ecosystem Conference vom 16. bis 17. September öffentlich vorgestellt wurde.

In den letzten Jahren haben KI-gestützte Grafiken (wie Midjourney und Stable Diffusion) und KI-gestützte Videos (wie Veo3 und Wan2.2) weltweit für Furore gesorgt. Jetzt ist KI-Podcasting ein weiterer heißer Trend. Mit Durchbrüchen bei großen Sprachmodellen zur Generierung von Konversationstexten und der Ausgereiftheit der High-Fidelity-Sprachsynthesetechnologie wird auch Podcasting, ein Format, das stark von den Erstellern abhängt, von KI beeinflusst.

Das Geheimnis von KI-Podcasts, die ein „lebendiges Gefühl“ erzeugen

Wer in den sozialen Medien nach Empfehlungen für hochwertige Podcasts sucht, wird unter den entsprechenden Suchbegriffen mit Sicherheit auch „Live-Podcast“ finden.Die sogenannte „Lebendigkeit“ bezieht sich eigentlich auf den natürlichen emotionalen Ausdruck der Macher durch Podcast-Gespräche.Es sind diese Pausen und das Zögern zwischen den Worten oder die plötzlichen Lachanfälle und Streitereien, die den Zuhörern das Gefühl geben, wirklich präsent zu sein. Doch bei KI-Podcasts denken viele vielleicht an alltägliche intelligente Sprachassistenten wie Handys, Autos oder Smart-Home-Assistenten. Ihr meist mechanischer Charakter führt unweigerlich zu vorgefassten Meinungen. Daher stellt sich die Frage: Können KI-Podcasts wirklich „wie ein echter Mensch sprechen“ und die Zuhörer vergessen lassen, dass sie mit einer Maschine sprechen? Bevor wir diese Frage beantworten, hören wir uns einen kurzen Ausschnitt aus dem Podcast an.

(Audioinhalte von KI generiert)

Es ist nicht schwer zu erkennen, dass der Dialog der beiden Moderatoren, der eine stillschweigende Reaktion aus Lob und Neckerei darstellt, eigentlich ziemlich menschlich ist. Tatsächlich handelt es sich bei diesem Material um einen KI-Podcast, der von Doubao mit einem Klick generiert wird. Darüber hinaus ist der Effekt der „Lebendigkeit“ in der Branche kein Einzelfall mehr. Der Wechsel von mechanisch-elektronischem Klang zu menschenähnlicher Sprache,Sie alle profitieren von der Entwicklung derselben Haupttechnologielinie – der modernen Text-to-Speech-Technologie (TTS) mit neuronalen Netzwerken.

Anders als bei der traditionellen mechanisierten Synthese- und Spleiß-TTS-Technologie,Moderne TTS verwenden Deep-Learning-Modelle, um mehrdimensionale Merkmale der Sprache wie Intonation, Klangfarbe, Sprechgeschwindigkeit, Emotionen und Stil besser zu erfassen und so eine natürlichere, flüssigere und ausdrucksstärkere Sprache zu erzeugen.Auf dieser Grundlage hat die Hinzufügung von Technologien wie kontradiktorischem Training, Sprachmodellierung auf der Grundlage großer Sprachmodelle und multimodaler bedingter Steuerung dazu geführt, dass die vom Modell generierte Sprache immer schwieriger von menschlicher Sprache zu unterscheiden ist.

Beispielsweise hat Microsoft im August dieses Jahres ein neues TTS-Modell namens VibeVoice-1.5B veröffentlicht. Durch die innovative Technologie zur kontinuierlichen Sprachtokenisierung und das Token-Segmentierungsdiffusionsframework der nächsten Generation, kombiniert mit einem großen Sprachmodell, wird die Fähigkeit erreicht, lange Audiosequenzen effizient zu verarbeiten.

Link zum Online-Tutorial:https://go.hyper.ai/6ruF7

Mianbi Intelligence und die Shenzhen International Graduate School der Tsinghua University haben gemeinsam ein 0,5-B-Parameter-Sprachgenerierungsmodell namens VoxCPM entwickelt. Dieses Modell nutzt eine durchgängige diffuse autoregressive Architektur, um kontinuierliche Sprachdarstellungen direkt aus Text zu generieren und so die Grenzen der traditionellen diskreten Wortsegmentierung zu überwinden. Das Modell erreicht ein beeindruckendes Maß an Natürlichkeit, Klangähnlichkeit und rhythmischer Ausdruckskraft bei der Sprachsynthese.

Link zum Online-Tutorial:https://go.hyper.ai/frmze

IndexTTS-2, entwickelt vom Bilibili Voice-Team, bietet eine neuartige, universelle und autoregressive Modell-freundliche Methode zur Sprachdauerkontrolle. Es ist das erste autoregressive TTS-Modell, das eine präzise Kontrolle der Sprachdauer unterstützt.

Link zum Online-Tutorial:https://go.hyper.ai/z7Jdt

Auf der offiziellen HyperAI-Website (hyper.ai) gibt es im Bereich „Tutorials“ eine Reihe von Tutorials zur Ein-Klick-Bereitstellung hochwertiger Open-Source-TTS-Modelle. Besuchen Sie uns gerne und erleben Sie sie.

Das aktuelle KI-Podcast-Ökosystem: zwei Player-Typen und mehrere Tracks

Auf Anwendungsebene sind die genannten Technologien nach und nach in den Fokus der Öffentlichkeit gerückt. Die derzeit auf dem Markt befindlichen KI-Podcast-Produkte lassen sich je nach Hintergrund in zwei Lager unterteilen:

Einerseits hat die Beteiligung großer Player dem KI-Podcast-Track zweifellos neuen Schwung verliehen und die Aufmerksamkeit in diesem Bereich schnell erhöht.Das erste Produkt aus diesem Kreis ist das NoteBookLM von Google, das für seine stark zusammengefasste Audioübersicht bekannt ist.Die leistungsstarken Audiofunktionen wurden entwickelt, um Nutzern die schnelle Informationsaufnahme zu erleichtern. Sie eignen sich auch hervorragend für KI-Podcasts. Nach jüngsten Optimierungen unterstützt die App nun über 50 Sprachen, darunter auch Chinesisch. Das Problem, dass zuvor nur Englisch verfügbar war, wurde gelöst.Doubao, von ByteDance eingeführt, nutzt die umfangreichen Modellfunktionen von Volcano Engine, um Podcast-Inhalte mit einem Klick zu generieren.Ein durchgehender Sprachdialog kann als „Zuhören, Verstehen und Antworten gleichzeitig“ verstanden werden. Seine Natürlichkeit und Textur gehören zu den besten chinesischen KI-Podcasts. Darüber hinausDas Audioteam von Xiaohongshu hat kürzlich außerdem das Dialoggenerierungsmodell FireRedTTS-2 vorgestellt.Das zugehörige Papier wurde auf arXiv unter dem Titel „FireRedTTS-2: Towards Long Conversational Speech Generation for Podcast and Chatbot“ veröffentlicht.

Andererseits weisen Startup-Teams vielfältige Innovationsfähigkeiten auf.Zu den repräsentativen Produkten gehört Laifu Radio, das sich als „ein KI-Radiosender exklusiv für jedermann“ bezeichnet und dessen Podcast-Programme alle von KI generiert werden; ChatPods, das von MiaoYa Camera-Gründer Zhang Yueguang und seinem Team ins Leben gerufen wurde und sich auf persönliche „KI-Podcast-Agenten“ konzentriert, die KI nutzen, um Sprachauszüge zu generieren und personalisierte Podcast-Empfehlungen abzugeben; und „Huxe“, das von ehemaligen NotebookLM-Teammitgliedern ins Leben gerufen wurde, hat sich ebenfalls der Erstellung praktischer und personalisierter Inhalte durch KI verschrieben. Die DeepCasts-Funktion kann sofort KI-Podcasts exklusiv für Benutzer generieren und so jederzeit und überall maßgeschneiderten Wissenserwerb ermöglichen.

Abschluss

Zusätzlich zu den oben genannten Neuerungen bei der Produktion von Podcast-Inhalten und interaktiven Formaten hat die KI-gestützte Stärkung des Podcast-Bereichs auch weitere Glieder der kreativen Kette erreicht.

Auf der Veranstaltung „Made on YouTube“ am 16. September kündigte YouTube-CEO Neal Mohan eine Reihe neuer KI-Tools an.Eines der interessanteren ist das speziell für Podcast-Ersteller entwickelte Tool zur Audio-Video-KI-Generierung, mit dem Podcast-Ersteller ganz einfach Podcast-Videoausschnitte erstellen können.


Screenshot des Made on YouTube-Eventvideos

Die Einführung dieses Tools ist eigentlich ein Mikrokosmos der aktuellen tiefen Durchdringung der KI-Technologie im Podcast-Bereich.Aus der Sicht des SchöpfersDas Aufkommen von KI-Podcasts hat die Hemmschwelle für die Inhaltsproduktion deutlich gesenkt. KI kann nicht nur Skripte optimieren, sondern auch bei der Bearbeitung, Empfehlung und sogar Verbreitung helfen, sodass einzelne Ersteller und sogar kleine Teams schnell hochwertige Programme produzieren können.Aus der Sicht des BenutzersKI bietet intelligentere Inhaltsempfehlungen, sodass Hörer effizienter auf für sie geeignete Podcast-Inhalte zugreifen und mit Unterstützung von Sprachassistenten sogar ein intensiveres Hörerlebnis erzielen können.

Gesamt,KI-Podcasts florieren und der Grund dafür liegt im potenziellen kommerziellen Wert des Podcast-Bereichs.Laut dem „Podcast Industry Report 2024“ haben 45,91 % der befragten Nutzer im vergangenen Jahr kostenpflichtige Podcasts gekauft, und 63,61 % sind offen für Podcast-Werbung. Angesichts veränderter Lebensstile und Konsumgewohnheiten ist der Podcast-Bereich möglicherweise nicht mehr die „kleine und feine“ Nische, die er einmal war. Sein Potenzial wartet darauf, ausgeschöpft zu werden, und die Monetarisierungsherausforderungen der traditionellen Podcast-Branche könnten mithilfe von KI neue Lösungen finden. Ob gesteigerte Produktivität oder ein zufriedenstellenderes Benutzererlebnis – die Zukunft der Podcast-Branche ist vielversprechend.

Referenzlinks:
1.https://mp.weixin.qq.com/s/WH60YKbhAEf51si4mlZoNQ
2.https://asmp-eurasipjournals.springeropen.com/articles/10.1186/s13636-024-00329-7
3.https://mp.weixin.qq.com/s/XFK59UJu9appRpHmtsIjeg
4.https://techcrunch.com/2025/09/23/former-notebooklm-devs-new-app-huxe-taps-audio-to-help-you-with-news-and-research/
5.https://www.huxe.com/blog
6.http://www.news.cn/fortune/20250407/669ffc4208b24ce895c9b560b05ff6a0/c.html

Können KI-Podcasts Vom Graustufentest Von WeChat Bis Zu Den Fehlern Von Google/ByteDance/Xiaohongshu Den Neuen Blauen Ozean Von AIGC Erobern? | Neuigkeiten | HyperAI