HyperAIHyperAI
il y a 16 jours

VideoComposer : Synthèse vidéo compositionnelle avec maîtrise du mouvement

Xiang Wang, Hangjie Yuan, Shiwei Zhang, Dayou Chen, Jiuniu Wang, Yingya Zhang, Yujun Shen, Deli Zhao, Jingren Zhou
VideoComposer : Synthèse vidéo compositionnelle avec maîtrise du mouvement
Résumé

La quête d'une maîtrise accrue en tant que standard supérieur de création de contenu visuel a permis des progrès remarquables dans la synthèse d’images personnalisables. Toutefois, la réalisation d’une synthèse vidéo contrôlable reste un défi en raison de la grande variabilité des dynamiques temporelles et de la nécessité de maintenir une cohérence temporelle entre les trames. S’appuyant sur le paradigme de la génération compositionnelle, ce travail présente VideoComposer, une méthode permettant aux utilisateurs de composer de manière flexible une vidéo à partir de conditions textuelles, spatiales, et plus particulièrement de conditions temporelles. Plus précisément, en tenant compte des caractéristiques propres aux données vidéo, nous introduisons le vecteur de mouvement issu des vidéos compressées comme signal de contrôle explicite afin de guider les dynamiques temporelles. Par ailleurs, nous avons conçu un encodeur de conditions spatio-temporelles (STC-encoder), qui agit comme une interface unifiée pour intégrer efficacement les relations spatiales et temporelles des entrées séquentielles. Grâce à cet encodeur, le modèle peut mieux exploiter les conditions temporelles, conduisant ainsi à une meilleure cohérence inter-trames. Les résultats expérimentaux abondants démontrent que VideoComposer est capable de contrôler simultanément les motifs spatiaux et temporels au sein d’une vidéo synthétisée, sous diverses formes — telles qu’une description textuelle, une séquence de croquis, une vidéo de référence, ou même des mouvements simplement conçus à la main. Le code source et les modèles seront rendus accessibles au public à l’adresse suivante : https://videocomposer.github.io.