HyperAIHyperAI

Command Palette

Search for a command to run...

Console

SoulX-Podcast : Génération Vocale De Textes Longs De Qualité Podcast Pour Plusieurs dialectes.

1. Introduction au tutoriel

Étoiles GitHub

SoulX-Podcast est un modèle conçu pour la génération de discours conversationnels de type podcast, à plusieurs tours de parole et à plusieurs locuteurs, tout en étant également performant dans les tâches TTS de monologue traditionnelles.

Pour répondre aux exigences de naturel accrues de la génération vocale pour les dialogues à plusieurs tours de parole, SoulX-Podcast intègre une série de commandes de langue secondaire, prenant en charge le mandarin, l'anglais et plusieurs dialectes chinois, dont le sichuanais, le henan et le cantonais, pour une génération vocale de type podcast plus personnalisée. Les détails techniques sont disponibles dans l'article intitulé « ... ».SoulX-Podcast : Génération de discours pour podcasts longs multi-intervenants et multi-dialectes".

Ce tutoriel utilise une seule carte graphique RTX 5090 comme ressource par défaut.

2. Exemples de projets

Les captures d'écran suivantes montrent l'interface réelle de l'interface Web de SoulX-Podcast fonctionnant sur la plateforme OpenBayes, vous aidant à comprendre rapidement l'ensemble du processus.

Exemple de démonstration de dialecte

3. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

2. Étapes d'utilisation

Une fois que vous accédez à l'interface Web, vous pouvez :

  • Téléchargez un fichier audio de référence contenant deux haut-parleurs.
  • Saisissez le texte de référence (indications de dialecte facultatives)
  • Saisissez le script complet du dialogue du podcast
  • Cliquez sur le bouton « Générer »
  • Écoutez et visionnez le podcast final généré.

Voici des exemples de captures d'écran illustrant le fonctionnement :

3. Étapes d'utilisation du texte d'invite dialectal

En fournissant au modèle des exemples de textes dialectaux supplémentaires, le naturel dialectal de la parole générée peut être considérablement amélioré.
Le processus se compose de 4 étapes simples et est facile à utiliser.

Étape 1 : Complétez les informations demandées.

Téléversez ou saisissez les informations pour S1 et S2 respectivement :

  • Audio de référence (audio d'accompagnement)
  • L'étape « Texte d'invite » sert à déterminer le timbre, le ton et les caractéristiques du rôle du locuteur avant d'activer l'amélioration du dialecte.

Étape 2 : Sélectionner le dialecte

Développez le sélecteur de texte d'invite de dialecte et choisissez le type de dialecte que vous souhaitez améliorer.
Après la sélection, le système chargera automatiquement des exemples de phrases typiques pour ce dialecte.

Étape 3 : Sélectionner un exemple de dialecte

Choisissez une phrase d'exemple pour S1 et S2 respectivement.
Après avoir cliqué sur un exemple, le texte d'indication dialectale correspondant sera automatiquement inséré dans le champ de saisie. Ces exemples serviront d'indications de style dialectal, rendant le discours généré plus authentique et naturel.

Étape 4 : Saisir le texte synthétisé et générer


4. Discussion

🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓

Soutien au projet

@misc{SoulXPodcast,

title = {SoulX-Podcast: Towards Realistic Long-form Podcasts with Dialectal and Paralinguistic Diversity},
author = {Hanke Xie and Haopeng Lin and Wenxiao Cao and Dake Guo and Wenjie Tian and Jun Wu and Hanlin Wen and Ruixuan Shang and Hongmei Liu and Zhiqi Jiang and Yuepeng Jiang and Wenxi Chen and Ruiqi Yan and Jiale Qian and Yichao Yan and Shunshun Yin and Ming Tao and Xie Chen and Lei Xie and Xinsheng Wang},
year = {2025},
archivePrefix={arXiv},
url = {https://arxiv.org/abs/2510.23541}
}

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec co-codage IA gratuit, environnement prêt à l'emploi et meilleur prix de GPU.

Co-codage avec IA
GPU prêts à l'emploi
Meilleurs prix

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp