HyperAIHyperAI

Command Palette

Search for a command to run...

Découplage hiérarchique spatio-temporel pour la génération vidéo à partir de texte

Zhiwu Qing Shiwei Zhang Jiayu Wang Xiang Wang Yujie Wei Yingya Zhang Changxin Gao Nong Sang

Résumé

Bien que les modèles de diffusion aient démontré une capacité remarquable à générer des images photoréalistes, la génération de vidéos réalistes et diversifiées reste encore à un stade précoce. L'une des raisons clés réside dans le fait que les méthodes actuelles entrelacent étroitement le contenu spatial et la dynamique temporelle, entraînant une complexité notable dans la génération vidéo à partir de texte (T2V). Dans ce travail, nous proposons HiGen, une méthode basée sur les modèles de diffusion qui améliore les performances en découplant les facteurs spatiaux et temporels des vidéos sous deux angles : le niveau de structure et le niveau de contenu. Au niveau de la structure, nous décomposons la tâche T2V en deux étapes — raisonnement spatial et raisonnement temporel — en utilisant un dénoiseur unifié. Plus précisément, nous générons des a priori spatialement cohérents à partir du texte durant le raisonnement spatial, puis produisons des mouvements temporellement cohérents à partir de ces a priori lors du raisonnement temporel. Au niveau du contenu, nous extrayons deux indices subtils du contenu de la vidéo d'entrée, capables d'exprimer respectivement les changements de mouvement et d'apparence. Ces deux indices guident ensuite l'entraînement du modèle pour la génération vidéo, permettant ainsi des variations de contenu flexibles et renforçant la stabilité temporelle. Grâce à ce paradigme découplé, HiGen parvient efficacement à réduire la complexité de la tâche et à générer des vidéos réalistes, précises sur le plan sémantique et stables sur le plan dynamique. Des expériences étendues démontrent les performances supérieures de HiGen par rapport aux méthodes de pointe en T2V.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Découplage hiérarchique spatio-temporel pour la génération vidéo à partir de texte | Articles | HyperAI