Command Palette
Search for a command to run...
UniVideo : Compréhension, génération et édition unifiées pour les vidéos
Cong Wei Quande Liu Zixuan Ye Qiulin Wang Xintao Wang Pengfei Wan Kun Gai Wenhu Chen

Résumé
Les modèles multimodaux unifiés ont montré des résultats prometteurs dans la génération et l’édition de contenus multimodaux, mais restent principalement limités au domaine des images. Dans ce travail, nous présentons UniVideo, un cadre polyvalent qui étend la modélisation unifiée au domaine vidéo. UniVideo adopte une architecture à deux flux, combinant un Grand Modèle Linguistique Multimodal (MLLM) pour la compréhension des instructions avec un Modèle de Diffusion Multimodal (MMDiT) pour la génération vidéo. Ce design permet une interprétation précise d'instructions multimodales complexes tout en préservant la cohérence visuelle. Sur la base de cette architecture, UniVideo unifie diverses tâches de génération et d’édition vidéo sous une même paradigme d'instruction multimodale, et est entraîné de manière conjointe sur ces tâches. Des expériences étendues démontrent que UniVideo égale ou dépasse les meilleures solutions spécialisées existantes dans les tâches de génération vidéo à partir de texte ou d’image, ainsi que dans la génération et l’édition vidéo contextuelles. Notamment, la conception unifiée d’UniVideo permet deux formes de généralisation. Premièrement, UniVideo supporte la composition de tâches, par exemple en combinant édition et transfert de style, en intégrant plusieurs capacités au sein d’une seule instruction. Deuxièmement, même sans entraînement explicite sur l’édition vidéo libre, UniVideo transfère sa capacité d’édition à partir de données d’édition d’images à grande échelle vers ce cadre, permettant de traiter des instructions inédites telles que l’application d’un fond vert à des personnages ou le changement de matériaux au sein d’une vidéo. Au-delà de ces capacités fondamentales, UniVideo prend également en charge la génération vidéo basée sur des prompts visuels, où le MLLM interprète les prompts visuels et guide le MMDiT durant la synthèse. Afin de stimuler la recherche future, nous mettrons prochainement notre modèle et son code à disposition.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.