VibeVoice - Synthèse Vocale En Temps Réel : Service De Synthèse Vocale En Temps Réel
1. Introduction au tutoriel

VibeVoice-Realtime TTS est un système de synthèse vocale (TTS) temps réel de haute qualité, basé sur le modèle de synthèse vocale en flux continu VibeVoice-Realtime-0.5B, publié par l'équipe de recherche de Microsoft en décembre 2025. Ce système utilise une nouvelle méthode de diffusion du jeton suivant pour modéliser les données continues dans la synthèse vocale longue à plusieurs locuteurs et introduit un segmentateur de parole continue efficace, permettant au modèle de générer jusqu'à 90 minutes de parole dans une fenêtre contextuelle de 64 Ko, prenant en charge jusqu'à quatre locuteurs. Il améliore considérablement l'efficacité de calcul tout en maintenant la fidélité audio et en capturant l'atmosphère des conversations réalistes. L'article associé est intitulé « … »VibeVoice : Synthèse vocale en streaming multi-lieux haute fidélitéLe système prend en charge la génération vocale multilocutrice, l'inférence en temps réel à faible latence et l'interaction visuelle via l'interface web Grado.
Fonctionnalités principales :
- Synthèse vocale en temps réel avec plusieurs locuteurs
- Inférence en flux continu, sortie à faible latence
- Fréquence d'échantillonnage vocale haute fidélité de 24 000 Hz
- Prend en charge la génération contrôlable à l'échelle CFG
- Inférence accélérée par GPU
- Déploiement entièrement local hors ligne, sans dépendre du réseau externe.
Ce tutoriel utilise Grado pour déployer le modèle de base VibeVoice-Realtime-0.5B, en employant une ressource de calcul « RTX_5090 », capable de prendre en charge de manière stable les services de synthèse vocale en temps réel. Ce modèle ne prend en charge que la saisie de texte en anglais.
2. Affichage des effets

VibeVoice-Realtime excelle dans ses fonctionnalités principales :
- Synthèse vocale en temps réel : génère rapidement une sortie vocale après la saisie de texte.
- Prise en charge de plusieurs locuteurs : différents styles de voix peuvent être utilisés pour un même texte.
- Qualité vocale très naturelle : son clair et intonation naturelle.
- Synthèse stable de textes longs : aucun problème évident de ponctuation ou de distorsion.
- Il possède de solides capacités d'interaction en temps réel et convient à des scénarios tels que les systèmes de dialogue et les assistants vocaux.
3. Étapes de l'opération
1. Démarrez le conteneur
Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

2. Pour commencer
Si le message « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Ce modèle étant volumineux, veuillez patienter 1 à 2 minutes, puis actualiser la page.
Lorsque vous utilisez le navigateur Safari, l'audio peut ne pas être lu directement et doit être téléchargé avant la lecture.

Description des paramètres
- Paramètres de génération de la parole
- Échelle CFG : Contrôle l’intensité du style de parole ; plus la valeur est élevée, plus l’émotion est forte.
- Paramètres du haut-parleur
- Voix du locuteur : Choisissez différentes voix de l’orateur.

Informations sur la citation
Les informations de citation pour ce projet sont les suivantes :
@article{vibevoice2024, title={VibeVoice: Real-Time Streaming Text-to-Speech with Multi-Speaker Support}, author={Zhiliang Peng and Jianwei Yu and Wenhui Wang and Yaoyao Chang and Yutao Sun and Li Dong and Yi Zhu and Weijiang Xu and Hangbo Bao and Zehua Wang and Shaohan Huang and Yan Xia and Furu Wei}, journal={arXiv preprint arXiv:2412.08635}, year={2024} }@article{vibevoice2025,
title={VibeVoice: High-Fidelity Multi-Speaker Streaming Text-to-Speech},
author={Zhiliang Peng and Jianwei Yu and Wenhui Wang and Yaoyao Chang and Yutao Sun and Li Dong and Yi Zhu and Weijiang Xu and Hangbo Bao and Zehua Wang and Shaohan Huang and Yan Xia and Furu Wei},
journal={arXiv preprint arXiv:2508.19205},
year={2025}
}
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.