VoxCPM : Technologie TTS Sans Segmentation Des Mots
1. Introduction au tutoriel
VoxCPM est un modèle de génération vocale à 0,5 milliard de paramètres, développé conjointement par Mianbi Intelligence et l'École doctorale internationale de l'Université Tsinghua de Shenzhen en septembre 2025. Il atteint des niveaux de synthèse vocale exceptionnels en termes de naturel, de similarité de timbre et d'expressivité prosodique. VoxCPM utilise une architecture autorégressive diffuse de bout en bout pour générer des représentations vocales continues directement à partir du texte, dépassant ainsi les limites de la segmentation traditionnelle en mots discrets. Grâce à la modélisation hiérarchique du langage et aux contraintes de quantification à états finis, il réalise un découplage implicite de la sémantique et de l'acoustique, améliorant ainsi significativement l'expressivité et la stabilité de la génération vocale. VoxCPM prend en charge le clonage vocal sans interruption, nécessitant un seul extrait audio de référence pour reproduire fidèlement le timbre, l'accent, l'intonation émotionnelle et d'autres caractéristiques du locuteur, générant ainsi une parole très réaliste.
Les ressources informatiques utilisées dans ce tutoriel sont une seule carte RTX 4090.
2. Affichage des effets

3. Étapes de l'opération
1. Démarrez le conteneur
Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 2 à 3 minutes et actualiser la page.

2. Étapes d'utilisation

Paramètres spécifiques :
- Valeur CFG : Plus la valeur est élevée, plus la conformité à l'invite est élevée, et plus la valeur est faible, plus la créativité est élevée.
- Pas de temps d'inférence : le nombre de pas de temps d'inférence à générer (des valeurs plus élevées peuvent améliorer la qualité mais au détriment d'une vitesse plus lente).
- Amélioration de la parole rapide : utilise le modèle ZipEnhancer pour débruiter l'audio de la parole rapide.
- Normalisation du texte : utilisez la bibliothèque wetext pour normaliser le texte d’entrée.
4. Discussion
🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓

Informations sur la citation
Les informations de citation pour ce projet sont les suivantes :
@misc{voxcpm2025,
author = {{Yixuan Zhou, Guoyang Zeng, Xin Liu, Xiang Li, Renjie Yu, Ziyang Wang, Runchuan Ye, Weiyue Sun, Jiancheng Gui, Kehan Li, Zhiyong Wu, Zhiyuan Liu}},
title = {{VoxCPM}},
year = {2025},
publish = {\url{https://github.com/OpenBMB/VoxCPM}},
note = {GitHub repository}
}