Tutoriel En Ligne | L'architecture Unique À Double Tokenizer De VibeVoice-1.5B Permet La Génération d'une Conversation De 90 Minutes Entre Quatre Personnes, Redéfinissant Les Limites De La Technologie TTS.

Le dernier modèle open source VibeVoice-1.5B de Microsoft a fait sensation dans le domaine de la synthèse vocale. Doté de 1,5 milliard de paramètres, ce modèle peut générer jusqu'à 90 minutes de parole très naturelle à la fois et simuler des conversations avec jusqu'à quatre interlocuteurs différents. Son score d'opinion moyen (MOS) officiel aux tests à l'aveugle atteint 4,5, ce qui est proche de la qualité d'une voix humaine réelle.
L'innovation principale de VibeVoice-1.5B réside dans son architecture unique à double tokeniseur et sa technologie de décodage par diffusion.Basé sur le modèle de langage Qwen2.5, il utilise un tokeniseur acoustique (utilisant une architecture σ-VAE pour atteindre une compression audio 3 200x) et un tokeniseur sémantique (axé sur la préservation du sentiment textuel et des pauses) pour traiter les séquences audio à une fréquence d'images ultra-faible de seulement 7,5 Hz. Côté décodage, un décodeur de diffusion de 123 millions de paramètres, couplé à l'algorithme DPM-Solver, reconstruit des détails audio haute fidélité.
VibeVoice-1.5B s'adresse principalement aux chercheurs et aux développeurs, offrant de nouveaux outils pour la production de podcasts, l'IA conversationnelle et la génération de contenu vocal. Il est toutefois important de noter qu'il ne prend actuellement en charge que le chinois et l'anglais et ne peut pas gérer les chevauchements de paroles ni générer d'effets sonores. Microsoft met explicitement l'accent sur son utilisation à des fins de recherche et inclut un avertissement sonore et une technologie de tatouage numérique imperceptible pour prévenir les abus.
à l'heure actuelle,Microsoft VibeVoice-1.5B redéfinit les limites de la technologie TTSIl a été lancé dans la section « Tutoriel » du site officiel d'HyperAI.Cliquez sur le lien ci-dessous pour déployer en un clic.
Lien du tutoriel :
Lien d'invitation exclusif HyperAI (copier et ouvrir dans le navigateur) :
https://openbayes.com/console/signup?r=Ada0322_NR0n
Essai de démonstration
1. Sur la page d'accueil de hyper.ai, sélectionnez la page Tutoriels, choisissez Microsoft VibeVoice-1.5B : Redéfinir les limites de la technologie TTS, puis cliquez sur Exécuter ce didacticiel en ligne.


2. Une fois la page affichée, cliquez sur « Cloner » dans le coin supérieur droit pour cloner le didacticiel dans votre propre conteneur.

3. Sélectionnez « NVIDIA GeForce RTX 4090 ». La plateforme OpenBayes propose quatre options de facturation : « Paiement à l'utilisation » ou « Journalière/Hebdomadaire/Mensuelle » selon vos besoins. Après avoir sélectionné l'image « PyTorch », cliquez sur « Continuer ». Les nouveaux utilisateurs peuvent s'inscrire via le lien d'invitation ci-dessous pour recevoir 4 heures de RTX 4090 et 5 heures de temps processeur gratuits !
Lien d'invitation exclusif HyperAI (copier et ouvrir dans le navigateur) :
https://openbayes.com/console/signup?r=Ada0322_NR0n


4. Attendez que les ressources soient allouées. Le premier processus de clonage prend environ 2 minutes. Lorsque le statut passe à « En cours d'exécution », cliquez sur la flèche de saut à côté de « Adresse API » pour accéder à la page de démonstration. Veuillez noter que les utilisateurs doivent effectuer l'authentification par nom réel avant d'utiliser la fonction d'accès à l'adresse API.

Démonstration d'effet
Après avoir accédé à la page modèle, sélectionnez le nombre d'intervenants dans « Nombre d'intervenants », définissez les intervenants dans « Intervenant 1-4 », saisissez le texte de la conversation dans « Script de conversation », et enfin cliquez sur « Générer un podcast ».
Prenant comme exemple une conversation à quatre personnes, l'auteur a généré une voix :
*rapide:
Orateur 1 : Et si on essayait ce nouveau café ce week-end ? J'ai entendu dire que leur café filtre était bon.
Orateur 2 : Bien sûr ! Mais je dois aller au yoga samedi après-midi, donc je suis libre dimanche matin.
Orateur 3 : Dimanche matin, ça me convient aussi. Je veux juste vous parler du team building de la semaine prochaine.
Orateur 4 : Alors, je n'ai aucun problème ! On se retrouve à l'entrée du café à 10 h dimanche ?
Orateur 1 : Super, je vais réserver un siège côté hublot à l'avance.

Voici le tutoriel recommandé pour ce problème. N'hésitez pas à l'essayer par vous-même ⬇️
Lien du tutoriel :https://go.hyper.ai/6Ii8l
Obtenez des articles de haute qualité et des articles d'interprétation approfondis dans le domaine de l'IA4S de 2023 à 2024 en un seul clic⬇️
