Command Palette
Search for a command to run...
Du Test En Niveaux De Gris De WeChat Aux Échecs De Google/ByteDance/Xiaohongshu, Les Podcasts IA peuvent-ils s'emparer Du Nouvel Océan Bleu De l'AIGC ?

Vos amis qui consultent habituellement les comptes publics ont peut-être remarqué que WeChat a lancé une nouvelle fonctionnalité il y a quelque temps : « Actualités ». Dans cette section, les utilisateurs peuvent non seulement consulter les informations quotidiennes, mais aussi écouter un podcast d'actualités présenté par deux animateurs, un homme et une femme, sous forme de conversation, couvrant l'actualité, l'actualité internationale et d'autres sujets. Le plus intéressant est queLes mots « généré par l'IA » sont clairement indiqués sous le titre du podcast, ce qui montre que WeChat effectue un test en niveaux de gris des podcasts d'IA.Cette initiative fait écho à la nouvelle selon laquelle Tencent Hunyuan a officiellement lancé la fonction de podcast AI le 5 août et la solution industrielle « AI News + AI Podcast » présentée publiquement par Tencent Cloud Smart Media lors de la conférence Tencent Global Digital Ecosystem du 16 au 17 septembre.

Ces dernières années, les graphismes et les vidéos optimisés par l'IA (comme Midjourney et Stable Diffusion) ont connu un succès mondial. Aujourd'hui, le podcasting IA s'impose comme une autre tendance en vogue. Grâce aux avancées des grands modèles linguistiques pour la génération de textes conversationnels et à la maturité des technologies de synthèse vocale haute fidélité, le podcasting, format fortement dépendant des créateurs, est lui aussi impacté par l'IA.
Le secret des podcasts IA pour une « sensation de vie »
Si vous recherchez des recommandations de podcasts de haute qualité sur les réseaux sociaux, vous trouverez certainement « podcast de type live » parmi les termes de recherche associés.Le soi-disant « sentiment d’être vivant » fait en réalité référence à l’expression émotionnelle naturelle affichée par les créateurs à travers les conversations de podcast.Ce sont ces pauses et hésitations entre les mots, ou ces éclats de rire et ces disputes soudains, qui donnent aux auditeurs un sentiment d'être véritablement présents. Mais lorsqu'on pense aux podcasts IA, on pense souvent aux assistants vocaux intelligents du quotidien, comme ceux des téléphones portables, des voitures et des maisons connectées. Leur nature généralement mécanique crée inévitablement une idée préconçue. La question se pose donc : les podcasts IA peuvent-ils vraiment « parler comme une vraie personne », faisant oublier aux auditeurs qu'ils parlent à une machine ? Avant de répondre à cette question, écoutons un court extrait du podcast.
(Contenu audio généré par l'IA)
Il est facile de constater que le dialogue des deux animateurs, qui se résume à une réponse tacite de « compliments et de taquineries », est en réalité très « humain ». En réalité, ce contenu est un podcast IA généré par Doubao en un clic. De plus, l'effet de « vivacité » n'est plus un cas isolé dans l'industrie. Le passage d'un son électronique mécanique à une parole humaine…Ils bénéficient tous du développement de la même technologie principale : la technologie moderne de synthèse vocale (TTS) par réseau neuronal.
Différente de la technologie traditionnelle de synthèse mécanisée et d'épissage TTS,La synthèse vocale moderne utilise des modèles d’apprentissage profond pour mieux capturer les caractéristiques multidimensionnelles de la parole, telles que l’intonation, le timbre, la vitesse de parole, l’émotion et le style, générant ainsi une parole plus naturelle, plus fluide et plus expressive.Sur cette base, l’ajout de technologies telles que l’entraînement contradictoire, la modélisation de la parole basée sur de grands modèles de langage et le contrôle conditionnel multimodal a rendu la parole générée par le modèle de plus en plus difficile à distinguer de la parole humaine.
Par exemple, Microsoft a lancé un nouveau modèle de synthèse vocale, VibeVoice-1.5B, en août dernier. Grâce à une technologie innovante de tokenisation vocale continue et à un cadre de diffusion de segmentation de jetons de nouvelle génération, combinés à un modèle linguistique étendu, il permet de traiter efficacement de longues séquences audio.
Lien vers le tutoriel en ligne :https://go.hyper.ai/6ruF7
Mianbi Intelligence et l'École doctorale internationale de l'Université Tsinghua de Shenzhen ont développé conjointement VoxCPM, un modèle de génération vocale à 0,5 milliard de paramètres. Ce modèle utilise une architecture autorégressive diffuse de bout en bout pour générer des représentations vocales continues directement à partir du texte, dépassant ainsi les limites de la segmentation traditionnelle par mots discrets. Ce modèle atteint des niveaux impressionnants de naturel, de similarité de timbre et d'expressivité rythmique en synthèse vocale.
Lien vers le tutoriel en ligne :https://go.hyper.ai/frmze
IndexTTS-2, développé par l'équipe Bilibili Voice, propose une méthode innovante de contrôle de la durée de la parole, universelle et autorégressive. Il s'agit du premier modèle autorégressif de synthèse vocale prenant en charge un contrôle précis de la durée.
Lien vers le tutoriel en ligne :https://go.hyper.ai/z7Jdt
Le site web officiel d'HyperAI (hyper.ai) propose plusieurs tutoriels de déploiement en un clic pour des modèles de synthèse vocale open source de haute qualité, disponibles dans la section « Tutoriels ». N'hésitez pas à les consulter et à les découvrir.

L'écosystème actuel des podcasts IA : deux types de lecteurs et plusieurs pistes
Au niveau des applications, les technologies mentionnées ci-dessus ont progressivement gagné en popularité. Actuellement, les podcasts IA disponibles sur le marché se divisent en deux catégories selon leur contexte :
D’une part, la participation de grands acteurs a sans aucun doute ajouté de l’huile sur le feu à la piste du podcast AI et a rapidement augmenté l’attention dans le domaine.Parmi eux, le premier produit à sortir du cercle est le NoteBookLM de Google, connu pour son aperçu audio très résumé.Conçu pour aider les utilisateurs à assimiler rapidement l'information, ses puissantes fonctionnalités audio sont également devenues un outil efficace pour les podcasts IA. Grâce à de récentes optimisations, il prend désormais en charge plus de 50 langues, dont le chinois, ce qui résout le problème précédent de la disponibilité exclusive de l'anglais.Doubao, lancé par ByteDance, s'appuie sur les capacités de modélisation à grande échelle de Volcano Engine pour générer du contenu de podcast en un clic.Un dialogue de bout en bout peut être compris comme « écouter, comprendre et répondre simultanément ». Son naturel et sa texture figurent parmi les meilleurs des podcasts chinois utilisant l'IA. De plus,L'équipe audio de Xiaohongshu a également récemment présenté le modèle de génération de dialogue FireRedTTS-2.L'article associé a été publié sur arXiv sous le titre « FireRedTTS-2 : Vers une génération de discours conversationnels longs pour podcast et chatbot ».

D’autre part, les équipes de startups démontrent des capacités d’innovation diverses.Parmi les produits phares, on trouve Laifu Radio, qui se présente comme une « radio IA exclusivement accessible à tous », dont les podcasts sont tous générés par l'IA ; ChatPods, lancé par Zhang Yueguang, fondateur de MiaoYa Camera, et son équipe, se concentre sur des « agents de podcast IA » personnels qui utilisent l'IA pour générer des extraits vocaux et proposer des recommandations de podcasts personnalisées ; et « Huxe », créé par d'anciens membres de l'équipe NotebookLM, s'engage également à créer du contenu pratique et personnalisé grâce à l'IA. La fonction DeepCasts permet de générer instantanément des podcasts IA exclusivement pour les utilisateurs, permettant ainsi une acquisition de connaissances personnalisée, à tout moment et en tout lieu.


Conclusion
Outre les innovations mentionnées ci-dessus dans la production de contenu de podcast et les formats interactifs, l'autonomisation de l'IA dans le domaine du podcast a également pénétré davantage de maillons de la chaîne créative.
Lors de l'événement « Made on YouTube » qui s'est tenu le 16 septembre, le PDG de YouTube, Neal Mohan, a annoncé une série de nouveaux outils d'IA.L’un des outils les plus intéressants est l’outil de génération d’IA audio-vidéo conçu spécifiquement pour les créateurs de podcasts, qui aide les créateurs de podcasts à produire facilement des tranches de vidéo de podcast.

Le lancement de cet outil est en réalité un microcosme de la pénétration actuelle de la technologie de l’IA dans le domaine du podcast.Du point de vue du créateur,L'émergence des podcasts IA a considérablement abaissé les exigences de production de contenu. Ils permettent non seulement d'optimiser les scripts, mais aussi d'assister à l'édition, à la recommandation et même à la distribution, permettant ainsi aux créateurs individuels, voire aux petites équipes, de produire rapidement des programmes de haute qualité.Du point de vue de l'utilisateur,L'IA apporte des recommandations de contenu plus intelligentes, permettant aux auditeurs d'obtenir plus efficacement le contenu de podcast qui leur convient, et même de bénéficier d'une expérience d'écoute plus immersive avec le support d'assistants vocaux.
Dans l'ensemble,Les podcasts basés sur l’IA sont en plein essor, et la raison réside dans la valeur commerciale potentielle du domaine des podcasts.Selon le « Rapport 2024 sur l'industrie du podcast », 45,91 % des utilisateurs interrogés ont acheté des podcasts payants au cours de l'année écoulée et 63,61 % sont ouverts à la publicité pour les podcasts. Avec l'évolution des modes de vie et des habitudes de consommation, le secteur du podcast pourrait bien ne plus être le petit et beau créneau qu'il était autrefois. Son potentiel est à exploiter, et les défis de monétisation auxquels le secteur traditionnel du podcast est confronté pourraient trouver de nouvelles solutions grâce à l'IA. Qu'il s'agisse d'une productivité accrue ou d'une expérience utilisateur plus satisfaisante, l'avenir du secteur du podcast est prometteur.
Liens de référence :
1.https://mp.weixin.qq.com/s/WH60YKbhAEf51si4mlZoNQ
2.https://asmp-eurasipjournals.springeropen.com/articles/10.1186/s13636-024-00329-7
3.https://mp.weixin.qq.com/s/XFK59UJu9appRpHmtsIjeg
4.https://techcrunch.com/2025/09/23/former-notebooklm-devs-new-app-huxe-taps-audio-to-help-you-with-news-and-research/
5.https://www.huxe.com/blog
6.http://www.news.cn/fortune/20250407/669ffc4208b24ce895c9b560b05ff6a0/c.html