HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 23 jours

UniVideo : Compréhension, génération et édition unifiées pour les vidéos

Cong Wei Quande Liu Zixuan Ye Qiulin Wang Xintao Wang Pengfei Wan Kun Gai Wenhu Chen

UniVideo : Compréhension, génération et édition unifiées pour les vidéos

Résumé

Les modèles multimodaux unifiés ont montré des résultats prometteurs dans la génération et l’édition de contenus multimodaux, mais restent principalement limités au domaine des images. Dans ce travail, nous présentons UniVideo, un cadre polyvalent qui étend la modélisation unifiée au domaine vidéo. UniVideo adopte une architecture à deux flux, combinant un Grand Modèle Linguistique Multimodal (MLLM) pour la compréhension des instructions avec un Modèle de Diffusion Multimodal (MMDiT) pour la génération vidéo. Ce design permet une interprétation précise d'instructions multimodales complexes tout en préservant la cohérence visuelle. Sur la base de cette architecture, UniVideo unifie diverses tâches de génération et d’édition vidéo sous une même paradigme d'instruction multimodale, et est entraîné de manière conjointe sur ces tâches. Des expériences étendues démontrent que UniVideo égale ou dépasse les meilleures solutions spécialisées existantes dans les tâches de génération vidéo à partir de texte ou d’image, ainsi que dans la génération et l’édition vidéo contextuelles. Notamment, la conception unifiée d’UniVideo permet deux formes de généralisation. Premièrement, UniVideo supporte la composition de tâches, par exemple en combinant édition et transfert de style, en intégrant plusieurs capacités au sein d’une seule instruction. Deuxièmement, même sans entraînement explicite sur l’édition vidéo libre, UniVideo transfère sa capacité d’édition à partir de données d’édition d’images à grande échelle vers ce cadre, permettant de traiter des instructions inédites telles que l’application d’un fond vert à des personnages ou le changement de matériaux au sein d’une vidéo. Au-delà de ces capacités fondamentales, UniVideo prend également en charge la génération vidéo basée sur des prompts visuels, où le MLLM interprète les prompts visuels et guide le MMDiT durant la synthèse. Afin de stimuler la recherche future, nous mettrons prochainement notre modèle et son code à disposition.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
UniVideo : Compréhension, génération et édition unifiées pour les vidéos | Articles de recherche | HyperAI