HyperAIHyperAI
il y a 5 jours

UniVerse-1 : Génération audiovisuelle unifiée par assemblage d'experts

Duomin Wang, Wei Zuo, Aojie Li, Ling-Hao Chen, et al
UniVerse-1 : Génération audiovisuelle unifiée par assemblage d'experts
Résumé

Nous présentons UniVerse-1, un modèle unifié inspiré de Veo-3, capable de générer simultanément des audio et des vidéos coordonnés. Pour améliorer l'efficacité d'entraînement, nous évitons l'entraînement depuis le début en adoptant une technique de « stitching of experts » (SoE). Cette approche intègre profondément les blocs correspondants des modèles pré-entraînés spécialisés dans la génération vidéo et musicale, exploitant ainsi pleinement leurs capacités fondamentales. Afin d’assurer une annotation précise et une alignement temporel correct entre les sons ambiants, la parole et le contenu vidéo, nous avons conçu un pipeline d’annotation en ligne qui traite les données d’entraînement nécessaires et génère les étiquettes durant le processus d’entraînement. Cette stratégie permet de contourner les dégradations de performance souvent dues à un désalignement des annotations basées sur le texte. Grâce à la synergie de ces techniques, notre modèle, après une adaptation fine sur environ 7 600 heures de données audiovisuelles, produit des résultats avec une coordination fine entre audio et vidéo pour la génération de sons ambiants, ainsi qu’un alignement fort pour la génération de parole. Pour évaluer de manière systématique notre méthode proposée, nous introduisons Verse-Bench, un nouveau jeu de données de référence. Dans une perspective d’encourager la recherche en génération audiovisuelle et de réduire l’écart de performance par rapport aux modèles de pointe tels que Veo3, nous mettons notre modèle et notre code à disposition du public. Nous espérons que cette contribution bénéficiera à la communauté scientifique plus large. Page du projet : ce lien URL.