HyperAIHyperAI

Command Palette

Search for a command to run...

Console

VibeVoice - Synthèse Vocale En Temps Réel : Service De Synthèse Vocale En Temps Réel

1. Introduction au tutoriel

Construire

VibeVoice-Realtime TTS est un système de synthèse vocale (TTS) temps réel de haute qualité, basé sur le modèle de synthèse vocale en flux continu VibeVoice-Realtime-0.5B, publié par l'équipe de recherche de Microsoft en décembre 2025. Ce système utilise une nouvelle méthode de diffusion du jeton suivant pour modéliser les données continues dans la synthèse vocale longue à plusieurs locuteurs et introduit un segmentateur de parole continue efficace, permettant au modèle de générer jusqu'à 90 minutes de parole dans une fenêtre contextuelle de 64 Ko, prenant en charge jusqu'à quatre locuteurs. Il améliore considérablement l'efficacité de calcul tout en maintenant la fidélité audio et en capturant l'atmosphère des conversations réalistes. L'article associé est intitulé « … »VibeVoice : Synthèse vocale en streaming multi-lieux haute fidélitéLe système prend en charge la génération vocale multilocutrice, l'inférence en temps réel à faible latence et l'interaction visuelle via l'interface web Grado.

Fonctionnalités principales :

  • Synthèse vocale en temps réel avec plusieurs locuteurs
  • Inférence en flux continu, sortie à faible latence
  • Fréquence d'échantillonnage vocale haute fidélité de 24 000 Hz
  • Prend en charge la génération contrôlable à l'échelle CFG
  • Inférence accélérée par GPU
  • Déploiement entièrement local hors ligne, sans dépendre du réseau externe.

Ce tutoriel utilise Grado pour déployer le modèle de base VibeVoice-Realtime-0.5B, en employant une ressource de calcul « RTX_5090 », capable de prendre en charge de manière stable les services de synthèse vocale en temps réel. Ce modèle ne prend en charge que la saisie de texte en anglais.

2. Affichage des effets

VibeVoice-Realtime excelle dans ses fonctionnalités principales :

  • Synthèse vocale en temps réel : génère rapidement une sortie vocale après la saisie de texte.
  • Prise en charge de plusieurs locuteurs : différents styles de voix peuvent être utilisés pour un même texte.
  • Qualité vocale très naturelle : son clair et intonation naturelle.
  • Synthèse stable de textes longs : aucun problème évident de ponctuation ou de distorsion.
  • Il possède de solides capacités d'interaction en temps réel et convient à des scénarios tels que les systèmes de dialogue et les assistants vocaux.

3. Étapes de l'opération

1. Démarrez le conteneur

Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

2. Pour commencer

Si le message « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Ce modèle étant volumineux, veuillez patienter 1 à 2 minutes, puis actualiser la page.

Lorsque vous utilisez le navigateur Safari, l'audio peut ne pas être lu directement et doit être téléchargé avant la lecture.

Description des paramètres

  • Paramètres de génération de la parole
    • Échelle CFG : Contrôle l’intensité du style de parole ; plus la valeur est élevée, plus l’émotion est forte.
  • Paramètres du haut-parleur
    • Voix du locuteur : Choisissez différentes voix de l’orateur.

Informations sur la citation

Les informations de citation pour ce projet sont les suivantes :

@article{vibevoice2024,
  title={VibeVoice: Real-Time Streaming Text-to-Speech with Multi-Speaker Support},
  author={Zhiliang Peng and Jianwei Yu and Wenhui Wang and Yaoyao Chang and Yutao Sun and Li Dong and Yi Zhu and Weijiang Xu and Hangbo Bao and Zehua Wang and Shaohan Huang and Yan Xia and Furu Wei},
  journal={arXiv preprint arXiv:2412.08635},
  year={2024}
}

@article{vibevoice2025,
title={VibeVoice: High-Fidelity Multi-Speaker Streaming Text-to-Speech},
author={Zhiliang Peng and Jianwei Yu and Wenhui Wang and Yaoyao Chang and Yutao Sun and Li Dong and Yi Zhu and Weijiang Xu and Hangbo Bao and Zehua Wang and Shaohan Huang and Yan Xia and Furu Wei},
journal={arXiv preprint arXiv:2508.19205},
year={2025}
}

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
VibeVoice - Synthèse Vocale En Temps Réel : Service De Synthèse Vocale En Temps Réel | Notebooks | HyperAI