HyperAI

Résumé

Les modèles existants de synthèse vocale à grande échelle à génération autoregressive présentent un avantage en termes de naturalité vocale, mais leur mécanisme de génération mot à mot rend difficile un contrôle précis de la durée du discours synthétisé. Ce défaut constitue une limitation majeure dans les applications exigeant une synchronisation audio-visuelle stricte, telles que le doublage vidéo. Ce papier présente IndexTTS2, un modèle novateur, généralisable et compatible avec les architectures autoregressives, offrant un contrôle précis de la durée vocale. Cette méthode supporte deux modes de génération : dans le premier, le nombre de tokens générés est explicitement spécifié, permettant un contrôle précis de la durée ; dans le second, la génération s’effectue librement de manière autoregressive, sans préciser le nombre de tokens, tout en reproduisant fidèlement les caractéristiques prosodiques de l’entrée initiale. En outre, IndexTTS2 permet une séparation claire entre l’expression émotionnelle et l’identité du locuteur, rendant possible un contrôle indépendant du timbre et de l’émotion. Dans un cadre zero-shot, le modèle parvient à reconstruire avec précision le timbre cible (issu d’un prompt de timbre) tout en reproduisant parfaitement l’intonation émotionnelle spécifiée (issue d’un prompt de style). Pour améliorer la clarté de la parole dans les expressions fortement émotionnelles, nous intégrons des représentations latentes issues de GPT et proposons un nouveau paradigme d’entraînement en trois étapes afin d’améliorer la stabilité du discours généré. Par ailleurs, afin de réduire la barrière à l’acquisition d’un contrôle émotionnel, nous avons conçu un mécanisme d’instruction douce basé sur des descriptions textuelles, obtenu par fine-tuning de Qwen3, permettant efficacement de guider la génération d’un discours selon une orientation émotionnelle souhaitée. Enfin, les résultats expérimentaux sur plusieurs jeux de données montrent que IndexTTS2 surpasse les modèles d’état de l’art en synthèse vocale zero-shot en termes de taux d’erreur de mots, de similarité de locuteur et de fidélité émotionnelle. Des exemples audio sont disponibles à l’adresse suivante : this https URL

Résumé

Siyi Zhou Yiquan Zhou Yi He Xun Zhou Jinchao Wang Wei Deng Jingchen Shu

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Siyi Zhou Yiquan Zhou Yi He Xun Zhou Jinchao Wang Wei Deng Jingchen Shu

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Siyi Zhou Yiquan Zhou Yi He Xun Zhou Jinchao Wang Wei Deng Jingchen Shu

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

IndexTTS2 : Une avancée dans la synthèse vocale auto-régressive zéro-shot expressivement émotionnelle et contrôlable en durée

Siyi Zhou Yiquan Zhou Yi He Xun Zhou Jinchao Wang Wei Deng Jingchen Shu

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

IndexTTS2 : Une avancée dans la synthèse vocale auto-régressive zéro-shot expressivement émotionnelle et contrôlable en durée

Siyi Zhou Yiquan Zhou Yi He Xun Zhou Jinchao Wang Wei Deng Jingchen Shu

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

IndexTTS2 : Une avancée dans la synthèse vocale auto-régressive zéro-shot expressivement émotionnelle et contrôlable en durée

Siyi Zhou Yiquan Zhou Yi He Xun Zhou Jinchao Wang Wei Deng Jingchen Shu

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters