il y a 9 jours

CCVS : Synthèse vidéo contrôlable consciente du contexte

Guillaume Le Moing, Jean Ponce, Cordelia Schmid

Résumé

Cette présentation introduit une approche d'apprentissage auto-supervisé pour la synthèse de nouveaux clips vidéo à partir de séquences existantes, intégrant plusieurs éléments novateurs afin d’améliorer la résolution spatiale et la réalisme : elle conditionne le processus de synthèse à des informations contextuelles pour assurer une continuité temporelle, ainsi qu’à des informations auxiliaires pour un contrôle fin. Le modèle de prédiction est doublement autoregressif : dans l’espace latent d’un autoencodeur pour la prévision, et dans l’espace d’image pour la mise à jour des informations contextuelles, qui sont également utilisées pour imposer une cohérence spatio-temporelle via un module d’écoulement optique apprenable. L’entraînement adversarial de l’autoencodeur dans les domaines apparence et temporel est employé pour renforcer davantage le réalisme de ses sorties. Un quantificateur inséré entre l’encodeur et le transformateur chargé de prédire les cadres futurs dans l’espace latent (et son inverse entre le transformateur et le décodeur) ajoute une flexibilité accrue en permettant des mécanismes simples pour gérer des informations auxiliaires multimodales contrôlant le processus de synthèse (par exemple, quelques cadres d’échantillonnage, une piste audio, une trajectoire dans l’espace image), tout en tenant compte de la nature intrinsèquement incertaine de l’avenir grâce à la possibilité de plusieurs prédictions. Des expérimentations menées sur une implémentation de l’approche proposée ont donné des résultats qualitatifs et quantitatifs très satisfaisants sur plusieurs tâches et benchmarks standards.