HyperAIHyperAI
il y a 2 mois

Vers une composition vidéo fluide

Qihang Zhang; Ceyuan Yang; Yujun Shen; Yinghao Xu; Bolei Zhou
Vers une composition vidéo fluide
Résumé

La génération de vidéos nécessite la synthèse de trames cohérentes et persistantes avec un contenu dynamique au fil du temps. Cette étude examine la modélisation des relations temporelles pour composer des vidéos de longueur arbitraire, allant de quelques trames à même une durée infinie, en utilisant des réseaux adversariaux génératifs (GANs). Premièrement, pour composer des trames adjacentes, nous montrons que l'opération sans aliasing, utilisée pour la génération d'images uniques, associée à une connaissance pré-apprise adéquate, permet une transition fluide entre les trames sans compromettre la qualité individuelle de chaque trame. Deuxièmement, en intégrant le module de décalage temporel (TSM), initialement conçu pour la compréhension vidéo, dans le discriminateur, nous parvenons à améliorer le générateur dans la synthèse de dynamiques plus cohérentes. Troisièmement, nous développons une nouvelle représentation du mouvement basée sur les B-splines pour garantir une fluidité temporelle et atteindre une génération de vidéos d'une durée infinie. Cette méthode peut dépasser le nombre de trames utilisé lors de l'entraînement. Une modulation temporelle de rang faible est également proposée pour atténuer les contenus répétitifs lors de la génération de vidéos longues. Nous évaluons notre approche sur divers jeux de données et montrons des améliorations substantielles par rapport aux méthodes de base pour la génération de vidéos. Le code source et les modèles seront rendus publiquement disponibles sur https://genforce.github.io/StyleSV.

Vers une composition vidéo fluide | Articles de recherche récents | HyperAI