Exécuter ce Notebook Discuter sur Discord

Date

il y a 8 mois

Balises

RTX 5090

Text-to-Audio

URL du document

2506.21619

Licence

Apache 2.0

GitHub

index-tts/index-tts21.4k

1. Introduction au tutoriel

IndexTTS-2 est un modèle de synthèse vocale (TTS) novateur, mis à disposition en open source par l'équipe Bilibili Voice en juin 2025. Ce modèle représente une avancée majeure dans l'expression des émotions et le contrôle de la durée, et constitue le premier modèle TTS autorégressif à offrir un contrôle précis de la durée. Il prend en charge le clonage vocal à partir d'un seul échantillon, reproduisant fidèlement le timbre, le rythme et le style d'élocution à partir d'un fichier audio unique, et est compatible avec de nombreuses langues. IndexTTS-2 implémente un contrôle de séparation émotion-timbre, permettant aux utilisateurs de spécifier indépendamment les sources du timbre et de l'émotion. Le modèle offre des capacités de saisie multimodale des émotions, prenant en charge le contrôle des émotions via un enregistrement audio de référence, une description textuelle ou des vecteurs émotionnels. Des articles de recherche associés sont disponibles. IndexTTS2 : une avancée majeure dans la synthèse vocale auto-régressive à durée contrôlée et expressive des émotions .

Ce tutoriel utilise une seule carte graphique RTX 5090 comme ressource de calcul.

2. Affichage des effets

Identique à la référence vocale

Utiliser un audio de référence émotionnelle

Utiliser des vecteurs d'émotion

Utilisez la description textuelle pour contrôler les émotions

3. Étapes de l'opération

1. Démarrez le conteneur

2. Étapes d'utilisation

Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 2 à 3 minutes et actualiser la page.

Lorsque vous utilisez le navigateur Safari, l'audio peut ne pas être lu directement et doit être téléchargé avant la lecture.

1. Identique à la référence vocale

Paramètres spécifiques :

Paramètres avancés :
- do_sample : s'il faut effectuer un échantillonnage.
- Température : contrôle la régularité de la distribution de probabilité pendant l'échantillonnage.
- top_p : échantillonnage du noyau.
- top_k : À chaque étape de génération, seuls les K jetons avec la probabilité la plus élevée sont pris en compte.
- num_beams : largeur de recherche de faisceau.
- repetition_penalty : Pénalité de répétition, qui réduit la probabilité que le modèle génère le même jeton à plusieurs reprises.
- length_penalty : pénalité de longueur, qui incite ou décourage le modèle à générer des séquences plus ou moins longues. Ceci est particulièrement efficace lorsque num_beams > 1 est utilisé.
- max_mel_tokens : Le nombre maximal de jetons générés.

2. Utilisez des références audio émotionnelles

3. Utiliser des vecteurs d'émotion

Paramètres de contrôle émotionnel :

Heureux, Dégoûté, En colère, Mélancolique, Triste, Surpris, Effrayé, Calme : ces valeurs correspondent à huit dimensions émotionnelles fondamentales. La valeur de chaque curseur (généralement comprise entre 0,0 et 1,0) indique l'intensité de l'émotion que vous souhaitez refléter dans le discours final.

4. Utilisez la description textuelle pour contrôler les émotions

Informations sur la citation

Les informations de citation pour ce projet sont les suivantes :

@article{zhou2025indextts2,
  title={IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech},
  author={Siyi Zhou, Yiquan Zhou, Yi He, Xun Zhou, Jinchao Wang, Wei Deng, Jingchen Shu},
  journal={arXiv preprint arXiv:2506.21619},
  year={2025}
}
@article{deng2025indextts,
  title={IndexTTS: An Industrial-Level Controllable and Efficient Zero-Shot Text-To-Speech System},
  author={Wei Deng, Siyi Zhou, Jingchen Shu, Jinchao Wang, Lu Wang},
  journal={arXiv preprint arXiv:2502.05512},
  year={2025},
  doi={10.48550/arXiv.2502.05512},
  url={https://arxiv.org/abs/2502.05512}
}

Ce notebook est fourni par des utilisateurs de la communauté et est destiné à des fins éducatives et informatives uniquement. Si un contenu enfreint des droits d'auteur, veuillez nous contacter à [email protected] pour un examen et un retrait rapides.

Vue d’ensemble de Notebook

Niveau

Débutant

Rubrique

Audio IA générative

Cahiers associés

Modèle De Génération De Parole Dialectale De Niveau Production Step-Audio-TTS-3B

il y a un an

F5-E2 TTS Clone n'importe Quel Son En Seulement 3 Secondes

il y a 7 mois

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI