Tutoriel En Ligne | L'architecture Unique À Double Tokenizer De VibeVoice-1.5B Permet La Génération d'une Conversation De 90 Minutes Entre Quatre Personnes, Redéfinissant Les Limites De La Technologie TTS.

Le dernier modèle open source VibeVoice-1.5B de Microsoft a fait sensation dans le domaine de la synthèse vocale. Doté de 1,5 milliard de paramètres, ce modèle peut générer jusqu'à 90 minutes de parole très naturelle à la fois et simuler des conversations avec jusqu'à quatre interlocuteurs différents. Son score d'opinion moyen (MOS) officiel aux tests à l'aveugle atteint 4,5, ce qui est proche de la qualité d'une voix humaine réelle.

L'innovation principale de VibeVoice-1.5B réside dans son architecture unique à double tokeniseur et sa technologie de décodage par diffusion.Basé sur le modèle de langage Qwen2.5, il utilise un tokeniseur acoustique (utilisant une architecture σ-VAE pour atteindre une compression audio 3 200x) et un tokeniseur sémantique (axé sur la préservation du sentiment textuel et des pauses) pour traiter les séquences audio à une fréquence d'images ultra-faible de seulement 7,5 Hz. Côté décodage, un décodeur de diffusion de 123 millions de paramètres, couplé à l'algorithme DPM-Solver, reconstruit des détails audio haute fidélité.

VibeVoice-1.5B s'adresse principalement aux chercheurs et aux développeurs, offrant de nouveaux outils pour la production de podcasts, l'IA conversationnelle et la génération de contenu vocal. Il est toutefois important de noter qu'il ne prend actuellement en charge que le chinois et l'anglais et ne peut pas gérer les chevauchements de paroles ni générer d'effets sonores. Microsoft met explicitement l'accent sur son utilisation à des fins de recherche et inclut un avertissement sonore et une technologie de tatouage numérique imperceptible pour prévenir les abus.

à l'heure actuelle,Microsoft VibeVoice-1.5B redéfinit les limites de la technologie TTSIl a été lancé dans la section « Tutoriel » du site officiel d'HyperAI.Cliquez sur le lien ci-dessous pour déployer en un clic.

Lien du tutoriel :

https://go.hyper.ai/6Ii8l

Lien d'invitation exclusif HyperAI (copier et ouvrir dans le navigateur) :

https://openbayes.com/console/signup?r=Ada0322_NR0n

Essai de démonstration

1. Sur la page d'accueil de hyper.ai, sélectionnez la page Tutoriels, choisissez Microsoft VibeVoice-1.5B : Redéfinir les limites de la technologie TTS, puis cliquez sur Exécuter ce didacticiel en ligne.

2. Une fois la page affichée, cliquez sur « Cloner » dans le coin supérieur droit pour cloner le didacticiel dans votre propre conteneur.

3. Sélectionnez « NVIDIA GeForce RTX 4090 ». La plateforme OpenBayes propose quatre options de facturation : « Paiement à l'utilisation » ou « Journalière/Hebdomadaire/Mensuelle » selon vos besoins. Après avoir sélectionné l'image « PyTorch », cliquez sur « Continuer ». Les nouveaux utilisateurs peuvent s'inscrire via le lien d'invitation ci-dessous pour recevoir 4 heures de RTX 4090 et 5 heures de temps processeur gratuits !

Lien d'invitation exclusif HyperAI (copier et ouvrir dans le navigateur) :

https://openbayes.com/console/signup?r=Ada0322_NR0n

4. Attendez que les ressources soient allouées. Le premier processus de clonage prend environ 2 minutes. Lorsque le statut passe à « En cours d'exécution », cliquez sur la flèche de saut à côté de « Adresse API » pour accéder à la page de démonstration. Veuillez noter que les utilisateurs doivent effectuer l'authentification par nom réel avant d'utiliser la fonction d'accès à l'adresse API.

Démonstration d'effet

Après avoir accédé à la page modèle, sélectionnez le nombre d'intervenants dans « Nombre d'intervenants », définissez les intervenants dans « Intervenant 1-4 », saisissez le texte de la conversation dans « Script de conversation », et enfin cliquez sur « Générer un podcast ».

Prenant comme exemple une conversation à quatre personnes, l'auteur a généré une voix :

*rapide:

Orateur 1 : Et si on essayait ce nouveau café ce week-end ? J'ai entendu dire que leur café filtre était bon.

Orateur 2 : Bien sûr ! Mais je dois aller au yoga samedi après-midi, donc je suis libre dimanche matin.

Orateur 3 : Dimanche matin, ça me convient aussi. Je veux juste vous parler du team building de la semaine prochaine.

Orateur 4 : Alors, je n'ai aucun problème ! On se retrouve à l'entrée du café à 10 h dimanche ?

Orateur 1 : Super, je vais réserver un siège côté hublot à l'avance.

Voici le tutoriel recommandé pour ce problème. N'hésitez pas à l'essayer par vous-même ⬇️

Lien du tutoriel :https://go.hyper.ai/6Ii8l

Obtenez des articles de haute qualité et des articles d'interprétation approfondis dans le domaine de l'IA4S de 2023 à 2024 en un seul clic⬇️

HyperAI

Console

Tutoriel En Ligne | L'architecture Unique À Double Tokenizer De VibeVoice-1.5B Permet La Génération d'une Conversation De 90 Minutes Entre Quatre Personnes, Redéfinissant Les Limites De La Technologie TTS.

il y a 3 mois

Information

Intelligence Artificielle

Lien du tutoriel :

https://go.hyper.ai/6Ii8l

Lien d'invitation exclusif HyperAI (copier et ouvrir dans le navigateur) :

https://openbayes.com/console/signup?r=Ada0322_NR0n

Essai de démonstration

2. Une fois la page affichée, cliquez sur « Cloner » dans le coin supérieur droit pour cloner le didacticiel dans votre propre conteneur.

Lien d'invitation exclusif HyperAI (copier et ouvrir dans le navigateur) :

https://openbayes.com/console/signup?r=Ada0322_NR0n

Démonstration d'effet

Prenant comme exemple une conversation à quatre personnes, l'auteur a généré une voix :

*rapide:

Orateur 1 : Et si on essayait ce nouveau café ce week-end ? J'ai entendu dire que leur café filtre était bon.

Orateur 2 : Bien sûr ! Mais je dois aller au yoga samedi après-midi, donc je suis libre dimanche matin.

Orateur 3 : Dimanche matin, ça me convient aussi. Je veux juste vous parler du team building de la semaine prochaine.

Orateur 4 : Alors, je n'ai aucun problème ! On se retrouve à l'entrée du café à 10 h dimanche ?

Orateur 1 : Super, je vais réserver un siège côté hublot à l'avance.

Voici le tutoriel recommandé pour ce problème. N'hésitez pas à l'essayer par vous-même ⬇️

Lien du tutoriel :https://go.hyper.ai/6Ii8l

Obtenez des articles de haute qualité et des articles d'interprétation approfondis dans le domaine de l'IA4S de 2023 à 2024 en un seul clic⬇️

Tutoriel En Ligne | L'architecture Unique À Double Tokenizer De VibeVoice-1.5B Permet La Génération d'une Conversation De 90 Minutes Entre Quatre Personnes, Redéfinissant Les Limites De La Technologie TTS.

il y a 3 mois

Information

Intelligence Artificielle

Lien du tutoriel :

https://go.hyper.ai/6Ii8l

Lien d'invitation exclusif HyperAI (copier et ouvrir dans le navigateur) :

https://openbayes.com/console/signup?r=Ada0322_NR0n

Essai de démonstration

2. Une fois la page affichée, cliquez sur « Cloner » dans le coin supérieur droit pour cloner le didacticiel dans votre propre conteneur.

Lien d'invitation exclusif HyperAI (copier et ouvrir dans le navigateur) :

https://openbayes.com/console/signup?r=Ada0322_NR0n

Démonstration d'effet

Prenant comme exemple une conversation à quatre personnes, l'auteur a généré une voix :

*rapide:

Orateur 1 : Et si on essayait ce nouveau café ce week-end ? J'ai entendu dire que leur café filtre était bon.

Orateur 2 : Bien sûr ! Mais je dois aller au yoga samedi après-midi, donc je suis libre dimanche matin.

Orateur 3 : Dimanche matin, ça me convient aussi. Je veux juste vous parler du team building de la semaine prochaine.

Orateur 4 : Alors, je n'ai aucun problème ! On se retrouve à l'entrée du café à 10 h dimanche ?

Orateur 1 : Super, je vais réserver un siège côté hublot à l'avance.

Voici le tutoriel recommandé pour ce problème. N'hésitez pas à l'essayer par vous-même ⬇️

Lien du tutoriel :https://go.hyper.ai/6Ii8l

Obtenez des articles de haute qualité et des articles d'interprétation approfondis dans le domaine de l'IA4S de 2023 à 2024 en un seul clic⬇️

Tutoriel En Ligne | L'architecture Unique À Double Tokenizer De VibeVoice-1.5B Permet La Génération d'une Conversation De 90 Minutes Entre Quatre Personnes, Redéfinissant Les Limites De La Technologie TTS.

Tutoriel En Ligne | L'architecture Unique À Double Tokenizer De VibeVoice-1.5B Permet La Génération d'une Conversation De 90 Minutes Entre Quatre Personnes, Redéfinissant Les Limites De La Technologie TTS.

Related News

Tutoriel En Ligne | Microsoft Ouvre VibeVoice, Permettant 90 Minutes De Dialogue Naturel Entre 4 Rôles

Un Essai À Faible Barrière d'Open-AutoGLM : Une Expérience d'agent Intelligent Combinant La Compréhension De l'écran Et l'exécution Automatisée ; Spatial-SSRL-81k : Construction d'un Chemin d'amélioration Auto-supervisé Pour La Conscience spatiale.

Tutoriel En Ligne | Les Coûts De Calcul Chutent ! Apple Lance Ml-simplefold, Un Modèle De Repliement Des Protéines Basé Sur La Correspondance De flux.

Tutoriel En Ligne | Nouvelle Technologie Pour La Synthèse Vocale Embarquée ! NeuTTS-Air Réalise Un Clonage Audio En 3 Secondes Basé Sur Le Modèle 0.5B

Avancée Majeure En Vision 3D : ByteSeed Lance DA3, Permettant La Reconstruction De L’espace Visuel Depuis N’importe Quel Point De Vue ; Plus De 70 000 Données D’environnements Industriels Réels ! CHIP Comble Le Manque De Données Industrielles Pour L’estimation De Pose 6D.

Du Test En Niveaux De Gris De WeChat Aux Échecs De Google/ByteDance/Xiaohongshu, Les Podcasts IA peuvent-ils s'emparer Du Nouvel Océan Bleu De l'AIGC ?

Technologie d'entrée/sortie Innovante ! Tencent Hunyuan Lance HunyuanWorld-Mirror, Une Reconstruction 3D Révolutionnaire ; Découvrez l'intégralité Du Contenu Netflix ! Le Catalogue De Films Et Séries Netflix Offre Un Éclairage Précieux Sur Les Tendances Du divertissement.

Tutoriel En Ligne | L'architecture Unique À Double Tokenizer De VibeVoice-1.5B Permet La Génération d'une Conversation De 90 Minutes Entre Quatre Personnes, Redéfinissant Les Limites De La Technologie TTS.

Related News

Tutoriel En Ligne | Microsoft Ouvre VibeVoice, Permettant 90 Minutes De Dialogue Naturel Entre 4 Rôles

Un Essai À Faible Barrière d'Open-AutoGLM : Une Expérience d'agent Intelligent Combinant La Compréhension De l'écran Et l'exécution Automatisée ; Spatial-SSRL-81k : Construction d'un Chemin d'amélioration Auto-supervisé Pour La Conscience spatiale.

Tutoriel En Ligne | Les Coûts De Calcul Chutent ! Apple Lance Ml-simplefold, Un Modèle De Repliement Des Protéines Basé Sur La Correspondance De flux.

Tutoriel En Ligne | Nouvelle Technologie Pour La Synthèse Vocale Embarquée ! NeuTTS-Air Réalise Un Clonage Audio En 3 Secondes Basé Sur Le Modèle 0.5B

Avancée Majeure En Vision 3D : ByteSeed Lance DA3, Permettant La Reconstruction De L’espace Visuel Depuis N’importe Quel Point De Vue ; Plus De 70 000 Données D’environnements Industriels Réels ! CHIP Comble Le Manque De Données Industrielles Pour L’estimation De Pose 6D.

Du Test En Niveaux De Gris De WeChat Aux Échecs De Google/ByteDance/Xiaohongshu, Les Podcasts IA peuvent-ils s'emparer Du Nouvel Océan Bleu De l'AIGC ?

Technologie d'entrée/sortie Innovante ! Tencent Hunyuan Lance HunyuanWorld-Mirror, Une Reconstruction 3D Révolutionnaire ; Découvrez l'intégralité Du Contenu Netflix ! Le Catalogue De Films Et Séries Netflix Offre Un Éclairage Précieux Sur Les Tendances Du divertissement.

Related News

Tutoriel En Ligne | Microsoft Ouvre VibeVoice, Permettant 90 Minutes De Dialogue Naturel Entre 4 Rôles

Un Essai À Faible Barrière d'Open-AutoGLM : Une Expérience d'agent Intelligent Combinant La Compréhension De l'écran Et l'exécution Automatisée ; Spatial-SSRL-81k : Construction d'un Chemin d'amélioration Auto-supervisé Pour La Conscience spatiale.

Tutoriel En Ligne | Les Coûts De Calcul Chutent ! Apple Lance Ml-simplefold, Un Modèle De Repliement Des Protéines Basé Sur La Correspondance De flux.

Tutoriel En Ligne | Nouvelle Technologie Pour La Synthèse Vocale Embarquée ! NeuTTS-Air Réalise Un Clonage Audio En 3 Secondes Basé Sur Le Modèle 0.5B

Avancée Majeure En Vision 3D : ByteSeed Lance DA3, Permettant La Reconstruction De L’espace Visuel Depuis N’importe Quel Point De Vue ; Plus De 70 000 Données D’environnements Industriels Réels ! CHIP Comble Le Manque De Données Industrielles Pour L’estimation De Pose 6D.

Du Test En Niveaux De Gris De WeChat Aux Échecs De Google/ByteDance/Xiaohongshu, Les Podcasts IA peuvent-ils s'emparer Du Nouvel Océan Bleu De l'AIGC ?

Technologie d'entrée/sortie Innovante ! Tencent Hunyuan Lance HunyuanWorld-Mirror, Une Reconstruction 3D Révolutionnaire ; Découvrez l'intégralité Du Contenu Netflix ! Le Catalogue De Films Et Séries Netflix Offre Un Éclairage Précieux Sur Les Tendances Du divertissement.

Related News

Tutoriel En Ligne | Microsoft Ouvre VibeVoice, Permettant 90 Minutes De Dialogue Naturel Entre 4 Rôles

Un Essai À Faible Barrière d'Open-AutoGLM : Une Expérience d'agent Intelligent Combinant La Compréhension De l'écran Et l'exécution Automatisée ; Spatial-SSRL-81k : Construction d'un Chemin d'amélioration Auto-supervisé Pour La Conscience spatiale.

Tutoriel En Ligne | Les Coûts De Calcul Chutent ! Apple Lance Ml-simplefold, Un Modèle De Repliement Des Protéines Basé Sur La Correspondance De flux.

Tutoriel En Ligne | Nouvelle Technologie Pour La Synthèse Vocale Embarquée ! NeuTTS-Air Réalise Un Clonage Audio En 3 Secondes Basé Sur Le Modèle 0.5B

Avancée Majeure En Vision 3D : ByteSeed Lance DA3, Permettant La Reconstruction De L’espace Visuel Depuis N’importe Quel Point De Vue ; Plus De 70 000 Données D’environnements Industriels Réels ! CHIP Comble Le Manque De Données Industrielles Pour L’estimation De Pose 6D.

Du Test En Niveaux De Gris De WeChat Aux Échecs De Google/ByteDance/Xiaohongshu, Les Podcasts IA peuvent-ils s'emparer Du Nouvel Océan Bleu De l'AIGC ?

Technologie d'entrée/sortie Innovante ! Tencent Hunyuan Lance HunyuanWorld-Mirror, Une Reconstruction 3D Révolutionnaire ; Découvrez l'intégralité Du Contenu Netflix ! Le Catalogue De Films Et Séries Netflix Offre Un Éclairage Précieux Sur Les Tendances Du divertissement.

Command Palette

Tutoriel En Ligne | L'architecture Unique À Double Tokenizer De VibeVoice-1.5B Permet La Génération d'une Conversation De 90 Minutes Entre Quatre Personnes, Redéfinissant Les Limites De La Technologie TTS.

Command Palette

Tutoriel En Ligne | L'architecture Unique À Double Tokenizer De VibeVoice-1.5B Permet La Génération d'une Conversation De 90 Minutes Entre Quatre Personnes, Redéfinissant Les Limites De La Technologie TTS.

Related News

Tutoriel En Ligne | Microsoft Ouvre VibeVoice, Permettant 90 Minutes De Dialogue Naturel Entre 4 Rôles

Un Essai À Faible Barrière d'Open-AutoGLM : Une Expérience d'agent Intelligent Combinant La Compréhension De l'écran Et l'exécution Automatisée ; Spatial-SSRL-81k : Construction d'un Chemin d'amélioration Auto-supervisé Pour La Conscience spatiale.

Tutoriel En Ligne | Les Coûts De Calcul Chutent ! Apple Lance Ml-simplefold, Un Modèle De Repliement Des Protéines Basé Sur La Correspondance De flux.

Tutoriel En Ligne | Nouvelle Technologie Pour La Synthèse Vocale Embarquée ! NeuTTS-Air Réalise Un Clonage Audio En 3 Secondes Basé Sur Le Modèle 0.5B

Avancée Majeure En Vision 3D : ByteSeed Lance DA3, Permettant La Reconstruction De L’espace Visuel Depuis N’importe Quel Point De Vue ; Plus De 70 000 Données D’environnements Industriels Réels ! CHIP Comble Le Manque De Données Industrielles Pour L’estimation De Pose 6D.

Du Test En Niveaux De Gris De WeChat Aux Échecs De Google/ByteDance/Xiaohongshu, Les Podcasts IA peuvent-ils s'emparer Du Nouvel Océan Bleu De l'AIGC ?

Technologie d'entrée/sortie Innovante ! Tencent Hunyuan Lance HunyuanWorld-Mirror, Une Reconstruction 3D Révolutionnaire ; Découvrez l'intégralité Du Contenu Netflix ! Le Catalogue De Films Et Séries Netflix Offre Un Éclairage Précieux Sur Les Tendances Du divertissement.

Command Palette

Tutoriel En Ligne | L'architecture Unique À Double Tokenizer De VibeVoice-1.5B Permet La Génération d'une Conversation De 90 Minutes Entre Quatre Personnes, Redéfinissant Les Limites De La Technologie TTS.

Related News

Tutoriel En Ligne | Microsoft Ouvre VibeVoice, Permettant 90 Minutes De Dialogue Naturel Entre 4 Rôles

Un Essai À Faible Barrière d'Open-AutoGLM : Une Expérience d'agent Intelligent Combinant La Compréhension De l'écran Et l'exécution Automatisée ; Spatial-SSRL-81k : Construction d'un Chemin d'amélioration Auto-supervisé Pour La Conscience spatiale.

Tutoriel En Ligne | Les Coûts De Calcul Chutent ! Apple Lance Ml-simplefold, Un Modèle De Repliement Des Protéines Basé Sur La Correspondance De flux.

Tutoriel En Ligne | Nouvelle Technologie Pour La Synthèse Vocale Embarquée ! NeuTTS-Air Réalise Un Clonage Audio En 3 Secondes Basé Sur Le Modèle 0.5B

Avancée Majeure En Vision 3D : ByteSeed Lance DA3, Permettant La Reconstruction De L’espace Visuel Depuis N’importe Quel Point De Vue ; Plus De 70 000 Données D’environnements Industriels Réels ! CHIP Comble Le Manque De Données Industrielles Pour L’estimation De Pose 6D.

Du Test En Niveaux De Gris De WeChat Aux Échecs De Google/ByteDance/Xiaohongshu, Les Podcasts IA peuvent-ils s'emparer Du Nouvel Océan Bleu De l'AIGC ?

Technologie d'entrée/sortie Innovante ! Tencent Hunyuan Lance HunyuanWorld-Mirror, Une Reconstruction 3D Révolutionnaire ; Découvrez l'intégralité Du Contenu Netflix ! Le Catalogue De Films Et Séries Netflix Offre Un Éclairage Précieux Sur Les Tendances Du divertissement.

Related News

Tutoriel En Ligne | Microsoft Ouvre VibeVoice, Permettant 90 Minutes De Dialogue Naturel Entre 4 Rôles

Un Essai À Faible Barrière d'Open-AutoGLM : Une Expérience d'agent Intelligent Combinant La Compréhension De l'écran Et l'exécution Automatisée ; Spatial-SSRL-81k : Construction d'un Chemin d'amélioration Auto-supervisé Pour La Conscience spatiale.

Tutoriel En Ligne | Les Coûts De Calcul Chutent ! Apple Lance Ml-simplefold, Un Modèle De Repliement Des Protéines Basé Sur La Correspondance De flux.

Tutoriel En Ligne | Nouvelle Technologie Pour La Synthèse Vocale Embarquée ! NeuTTS-Air Réalise Un Clonage Audio En 3 Secondes Basé Sur Le Modèle 0.5B

Avancée Majeure En Vision 3D : ByteSeed Lance DA3, Permettant La Reconstruction De L’espace Visuel Depuis N’importe Quel Point De Vue ; Plus De 70 000 Données D’environnements Industriels Réels ! CHIP Comble Le Manque De Données Industrielles Pour L’estimation De Pose 6D.

Du Test En Niveaux De Gris De WeChat Aux Échecs De Google/ByteDance/Xiaohongshu, Les Podcasts IA peuvent-ils s'emparer Du Nouvel Océan Bleu De l'AIGC ?

Technologie d'entrée/sortie Innovante ! Tencent Hunyuan Lance HunyuanWorld-Mirror, Une Reconstruction 3D Révolutionnaire ; Découvrez l'intégralité Du Contenu Netflix ! Le Catalogue De Films Et Séries Netflix Offre Un Éclairage Précieux Sur Les Tendances Du divertissement.

Related News

Tutoriel En Ligne | Microsoft Ouvre VibeVoice, Permettant 90 Minutes De Dialogue Naturel Entre 4 Rôles

Un Essai À Faible Barrière d'Open-AutoGLM : Une Expérience d'agent Intelligent Combinant La Compréhension De l'écran Et l'exécution Automatisée ; Spatial-SSRL-81k : Construction d'un Chemin d'amélioration Auto-supervisé Pour La Conscience spatiale.

Tutoriel En Ligne | Les Coûts De Calcul Chutent ! Apple Lance Ml-simplefold, Un Modèle De Repliement Des Protéines Basé Sur La Correspondance De flux.

Tutoriel En Ligne | Nouvelle Technologie Pour La Synthèse Vocale Embarquée ! NeuTTS-Air Réalise Un Clonage Audio En 3 Secondes Basé Sur Le Modèle 0.5B

Avancée Majeure En Vision 3D : ByteSeed Lance DA3, Permettant La Reconstruction De L’espace Visuel Depuis N’importe Quel Point De Vue ; Plus De 70 000 Données D’environnements Industriels Réels ! CHIP Comble Le Manque De Données Industrielles Pour L’estimation De Pose 6D.

Du Test En Niveaux De Gris De WeChat Aux Échecs De Google/ByteDance/Xiaohongshu, Les Podcasts IA peuvent-ils s'emparer Du Nouvel Océan Bleu De l'AIGC ?

Technologie d'entrée/sortie Innovante ! Tencent Hunyuan Lance HunyuanWorld-Mirror, Une Reconstruction 3D Révolutionnaire ; Découvrez l'intégralité Du Contenu Netflix ! Le Catalogue De Films Et Séries Netflix Offre Un Éclairage Précieux Sur Les Tendances Du divertissement.