Exécuter ce Notebook Discuter sur Discord

Date

il y a 7 mois

Organisation

Balises

RTX 5090

Text-to-Audio

URL du document

2508.19205

Licence

MIT

GitHub

microsoft/VibeVoice49.7k

1. Introduction au tutoriel

VibeVoice-Realtime TTS est un système de synthèse vocale (TTS) temps réel de haute qualité, basé sur le modèle de synthèse vocale en flux continu VibeVoice-Realtime-0.5B, publié par l'équipe de recherche de Microsoft en décembre 2025. Ce système utilise une méthode de diffusion du jeton suivant novatrice pour modéliser les données continues dans la synthèse vocale longue à plusieurs locuteurs et introduit un segmentateur de parole continue efficace. Grâce à ce segmentateur, le modèle peut générer jusqu'à 90 minutes de parole dans une fenêtre contextuelle de 64 Ko, prenant en charge jusqu'à quatre locuteurs. Il améliore considérablement l'efficacité de calcul tout en préservant la fidélité audio et en restituant l'atmosphère des conversations réalistes. Des articles de recherche associés sont disponibles. VibeVoice : Synthèse vocale en streaming multi-lieux haute fidélité Le système prend en charge la génération vocale multilocutrice, l'inférence en temps réel à faible latence et l'interaction visuelle via l'interface web Grado.

Fonctionnalités principales :

Synthèse vocale en temps réel avec plusieurs locuteurs
Inférence en flux continu, sortie à faible latence
Fréquence d'échantillonnage vocale haute fidélité de 24 000 Hz
Prend en charge la génération contrôlable à l'échelle CFG
Inférence accélérée par GPU
Déploiement entièrement local hors ligne, sans dépendre du réseau externe.

Ce tutoriel utilise Grado pour déployer le modèle de base VibeVoice-Realtime-0.5B, en employant une ressource de calcul « RTX_5090 », capable de prendre en charge de manière stable les services de synthèse vocale en temps réel. Ce modèle ne prend en charge que la saisie de texte en anglais.

2. Affichage des effets

VibeVoice-Realtime excelle dans ses fonctionnalités principales :

Synthèse vocale en temps réel : génère rapidement une sortie vocale après la saisie de texte.
Prise en charge de plusieurs locuteurs : différents styles de voix peuvent être utilisés pour un même texte.
Qualité vocale très naturelle : son clair et intonation naturelle.
Synthèse stable de textes longs : aucun problème évident de ponctuation ou de distorsion.
Il possède de solides capacités d'interaction en temps réel et convient à des scénarios tels que les systèmes de dialogue et les assistants vocaux.

3. Étapes de l'opération

1. Démarrez le conteneur

Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

2. Pour commencer

Si le message « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Ce modèle étant volumineux, veuillez patienter 1 à 2 minutes, puis actualiser la page.

Lorsque vous utilisez le navigateur Safari, l'audio peut ne pas être lu directement et doit être téléchargé avant la lecture.

Description des paramètres

Paramètres de génération de la parole
- Échelle CFG : Contrôle l’intensité du style de parole ; plus la valeur est élevée, plus l’émotion est forte.
Paramètres du haut-parleur
- Voix du locuteur : Choisissez différentes voix de l’orateur.

Informations sur la citation

Les informations de citation pour ce projet sont les suivantes :

@article{vibevoice2024,
  title={VibeVoice: Real-Time Streaming Text-to-Speech with Multi-Speaker Support},
  author={Zhiliang Peng and Jianwei Yu and Wenhui Wang and Yaoyao Chang and Yutao Sun and Li Dong and Yi Zhu and Weijiang Xu and Hangbo Bao and Zehua Wang and Shaohan Huang and Yan Xia and Furu Wei},
  journal={arXiv preprint arXiv:2412.08635},
  year={2024}
}

@article{vibevoice2025,
  title={VibeVoice: High-Fidelity Multi-Speaker Streaming Text-to-Speech},
  author={Zhiliang Peng and Jianwei Yu and Wenhui Wang and Yaoyao Chang and Yutao Sun and Li Dong and Yi Zhu and Weijiang Xu and Hangbo Bao and Zehua Wang and Shaohan Huang and Yan Xia and Furu Wei},
  journal={arXiv preprint arXiv:2508.19205},
  year={2025}
}

Ce notebook est fourni par des utilisateurs de la communauté et est destiné à des fins éducatives et informatives uniquement. Si un contenu enfreint des droits d'auteur, veuillez nous contacter à [email protected] pour un examen et un retrait rapides.

Vue d’ensemble de Notebook

Niveau

Débutant

Rubrique

Audio IA générative

Cahiers associés

OmniVoice : Prend En Charge La Synthèse Vocale De Haute Qualité Dans Plus De 600 Langues

il y a 2 mois

VibeVoice-ASR : Démonstration De Reconnaissance Vocale Multifonctionnelle De Bout En Bout

il y a 4 mois

MOSS-TTS : Un Modèle De Génération Vocale Multi-scènes Haute Fidélité

il y a 4 mois

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI