HyperAIHyperAI

Command Palette

Search for a command to run...

IndexTTS-2 : Surmonter Les Obstacles Liés À La Durée Et Au Contrôle Des Émotions Des TTS Autorégressifs

1. Introduction au tutoriel

Construire

IndexTTS-2 est un nouveau modèle de synthèse vocale (TTS) open source lancé par l'équipe Bilibili Voice en juin 2025. Ce modèle a réalisé des avancées majeures en matière d'expression émotionnelle et de contrôle de la durée. Il est le premier modèle de synthèse vocale autorégressif à permettre un contrôle précis de la durée. Il prend en charge le clonage vocal sans échantillon et peut reproduire avec précision le timbre, le rythme et le style de parole à partir d'un seul fichier audio, et prend en charge plusieurs langues. IndexTTS-2 implémente le contrôle de la séparation des timbres émotionnels, permettant aux utilisateurs de spécifier indépendamment la source du timbre et de l'émotion. Ce modèle offre des capacités d'entrée émotionnelle multimodale et permet de contrôler les émotions via des données audio de référence émotionnelle, des descriptions textuelles émotionnelles ou des vecteurs émotionnels. Les résultats de l'étude sont les suivants :IndexTTS2 : une avancée majeure dans la synthèse vocale auto-régressive à durée contrôlée et expressive des émotions".

Les ressources informatiques utilisées dans ce tutoriel sont une seule carte RTX 4090.

2. Affichage des effets

Identique à la référence vocale

Utiliser un audio de référence émotionnelle

Utiliser des vecteurs d'émotion

Utilisez la description textuelle pour contrôler les émotions

3. Étapes de l'opération

1. Démarrez le conteneur

2. Étapes d'utilisation

Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 2 à 3 minutes et actualiser la page.

Lorsque vous utilisez le navigateur Safari, l'audio peut ne pas être lu directement et doit être téléchargé avant la lecture.

1. Identique à la référence vocale

Paramètres spécifiques :

  • Paramètres avancés :
    • do_sample : s'il faut effectuer un échantillonnage.
    • Température : contrôle la régularité de la distribution de probabilité pendant l'échantillonnage.
    • top_p : échantillonnage du noyau.
    • top_k : À chaque étape de génération, seuls les K jetons avec la probabilité la plus élevée sont pris en compte.
    • num_beams : largeur de recherche de faisceau.
    • repetition_penalty : Pénalité de répétition, qui réduit la probabilité que le modèle génère le même jeton à plusieurs reprises.
    • length_penalty : pénalité de longueur, qui incite ou décourage le modèle à générer des séquences plus ou moins longues. Ceci est particulièrement efficace lorsque num_beams > 1 est utilisé.
    • max_mel_tokens : Le nombre maximal de jetons générés.

2. Utilisez des références audio émotionnelles

3. Utiliser des vecteurs d'émotion

Paramètres de contrôle émotionnel :

  • Heureux, Dégoûté, En colère, Mélancolique, Triste, Surpris, Effrayé, Calme : ces valeurs correspondent à huit dimensions émotionnelles fondamentales. La valeur de chaque curseur (généralement comprise entre 0,0 et 1,0) indique l'intensité de l'émotion que vous souhaitez refléter dans le discours final.

4. Utilisez la description textuelle pour contrôler les émotions

4. Discussion

🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓

Informations sur la citation

Les informations de citation pour ce projet sont les suivantes :

@article{zhou2025indextts2,
  title={IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech},
  author={Siyi Zhou, Yiquan Zhou, Yi He, Xun Zhou, Jinchao Wang, Wei Deng, Jingchen Shu},
  journal={arXiv preprint arXiv:2506.21619},
  year={2025}
}
@article{deng2025indextts,
  title={IndexTTS: An Industrial-Level Controllable and Efficient Zero-Shot Text-To-Speech System},
  author={Wei Deng, Siyi Zhou, Jingchen Shu, Jinchao Wang, Lu Wang},
  journal={arXiv preprint arXiv:2502.05512},
  year={2025},
  doi={10.48550/arXiv.2502.05512},
  url={https://arxiv.org/abs/2502.05512}
}

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
IndexTTS-2 : Surmonter Les Obstacles Liés À La Durée Et Au Contrôle Des Émotions Des TTS Autorégressifs | Tutoriels | HyperAI