Microsoft VibeVoice-1.5B Redéfinit Les Limites De La Technologie TTS
1. Introduction au tutoriel

VibeVoice-1.5B est un nouveau modèle de synthèse vocale (TTS) lancé par Microsoft en août 2025. Il génère des conversations audio expressives, longues et multi-locuteurs, comme des podcasts. Ce modèle s'appuie sur une technologie innovante de tokenisation vocale continue et un framework de diffusion de jetons de nouvelle génération, associés à un modèle de langage étendu (LLM), pour traiter efficacement de longues séquences audio tout en conservant une haute fidélité. VibeVoice peut synthétiser jusqu'à 90 minutes de parole et prendre en charge jusqu'à quatre locuteurs différents. Ce modèle dépasse les limites des systèmes de synthèse vocale traditionnels et offre de nouvelles possibilités de conversation naturelle et d'expression émotionnelle.
Les ressources informatiques utilisées dans ce tutoriel sont une seule carte RTX 4090.
2. Affichage des effets

3. Étapes de l'opération
1. Démarrez le conteneur

2. Étapes d'utilisation
Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 2 à 3 minutes et actualiser la page.

Paramètres spécifiques :
- Paramètres de génération
- Échelle CFG : ajustez la cohérence entre l'audio généré et le texte du dialogue d'entrée
résultat

4. Discussion
🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓
