il y a 5 mois

Zhiliang Peng Jianwei Yu Wenhui Wang Yaoyao Chang Yutao Sun Li Dong Yi Zhu Weijiang Xu Hangbo Bao Zehua Wang

Résumé

Ce rapport présente VibeVoice, un modèle novateur conçu pour synthétiser des énoncés oraux longs impliquant plusieurs locuteurs grâce à une méthode de diffusion du token suivant (next-token diffusion), une approche unifiée pour modéliser des données continues en générant de manière autoregressive des vecteurs latents via une diffusion. Pour permettre cette fonctionnalité, nous introduisons un nouveau tokeniseur de parole continue, qui, comparé au modèle populaire Encodec, améliore la compression des données de 80 fois tout en maintenant des performances comparables. Ce tokeniseur préserve efficacement la fidélité audio tout en augmentant considérablement l’efficacité computationnelle lors du traitement de séquences longues. Ainsi, VibeVoice peut synthétiser des énoncés oraux longs pouvant atteindre 90 minutes (dans une fenêtre contextuelle de 64K) avec un maximum de 4 locuteurs, en capturant fidèlement l’atmosphère authentique des échanges conversationnels, tout en dépassant les modèles open source et propriétaires de dialogue existants.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 5 mois

Text-to-Speech

Synthèse

Traitement Audio Et Vocal

Générique

Audio

Tâche

Zhiliang Peng Jianwei Yu Wenhui Wang Yaoyao Chang Yutao Sun Li Dong Yi Zhu Weijiang Xu Hangbo Bao Zehua Wang

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 5 mois

Text-to-Speech

Synthèse

Traitement Audio Et Vocal

Générique

Audio

Tâche

Zhiliang Peng Jianwei Yu Wenhui Wang Yaoyao Chang Yutao Sun Li Dong Yi Zhu Weijiang Xu Hangbo Bao Zehua Wang

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Rapport technique VibeVoice

Zhiliang Peng Jianwei Yu Wenhui Wang Yaoyao Chang Yutao Sun Li Dong Yi Zhu Weijiang Xu Hangbo Bao Zehua Wang3 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Rapport technique VibeVoice

Zhiliang Peng Jianwei Yu Wenhui Wang Yaoyao Chang Yutao Sun Li Dong Yi Zhu Weijiang Xu Hangbo Bao Zehua Wang3 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Rapport technique VibeVoice

Zhiliang Peng Jianwei Yu Wenhui Wang Yaoyao Chang Yutao Sun Li Dong Yi Zhu Weijiang Xu Hangbo Bao Zehua Wang3 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Zhiliang Peng Jianwei Yu Wenhui Wang Yaoyao Chang Yutao Sun Li Dong Yi Zhu Weijiang Xu Hangbo Bao Zehua Wang

Zhiliang Peng Jianwei Yu Wenhui Wang Yaoyao Chang Yutao Sun Li Dong Yi Zhu Weijiang Xu Hangbo Bao Zehua Wang

Zhiliang Peng Jianwei Yu Wenhui Wang Yaoyao Chang Yutao Sun Li Dong Yi Zhu Weijiang Xu Hangbo Bao Zehua Wang