HyperAIHyperAI
il y a 11 jours

Découplage hiérarchique spatio-temporel pour la génération vidéo à partir de texte

Zhiwu Qing, Shiwei Zhang, Jiayu Wang, Xiang Wang, Yujie Wei, Yingya Zhang, Changxin Gao, Nong Sang
Découplage hiérarchique spatio-temporel pour la génération vidéo à partir de texte
Résumé

Bien que les modèles de diffusion aient démontré une capacité remarquable à générer des images photoréalistes, la génération de vidéos réalistes et diversifiées reste encore à un stade précoce. L'une des raisons clés réside dans le fait que les méthodes actuelles entrelacent étroitement le contenu spatial et la dynamique temporelle, entraînant une complexité notable dans la génération vidéo à partir de texte (T2V). Dans ce travail, nous proposons HiGen, une méthode basée sur les modèles de diffusion qui améliore les performances en découplant les facteurs spatiaux et temporels des vidéos sous deux angles : le niveau de structure et le niveau de contenu. Au niveau de la structure, nous décomposons la tâche T2V en deux étapes — raisonnement spatial et raisonnement temporel — en utilisant un dénoiseur unifié. Plus précisément, nous générons des a priori spatialement cohérents à partir du texte durant le raisonnement spatial, puis produisons des mouvements temporellement cohérents à partir de ces a priori lors du raisonnement temporel. Au niveau du contenu, nous extrayons deux indices subtils du contenu de la vidéo d'entrée, capables d'exprimer respectivement les changements de mouvement et d'apparence. Ces deux indices guident ensuite l'entraînement du modèle pour la génération vidéo, permettant ainsi des variations de contenu flexibles et renforçant la stabilité temporelle. Grâce à ce paradigme découplé, HiGen parvient efficacement à réduire la complexité de la tâche et à générer des vidéos réalistes, précises sur le plan sémantique et stables sur le plan dynamique. Des expériences étendues démontrent les performances supérieures de HiGen par rapport aux méthodes de pointe en T2V.

Découplage hiérarchique spatio-temporel pour la génération vidéo à partir de texte | Articles de recherche récents | HyperAI