Synthèse Vidéo-à-Vidéo

Nous étudions le problème de la synthèse vidéo-vidéo, dont l'objectif est d'apprendre une fonction de mappage d'une vidéo source en entrée (par exemple, une séquence de masques de segmentation sémantique) à une vidéo photoréaliste en sortie qui représente précisément le contenu de la vidéo source. Bien que son équivalent en images, le problème de synthèse image-image, soit un sujet populaire, le problème de synthèse vidéo-vidéo est moins exploré dans la littérature. Sans comprendre les dynamiques temporelles, l'application directe des approches existantes de synthèse d'images à une vidéo en entrée entraîne souvent des vidéos temporellement incohérentes et de faible qualité visuelle. Dans cet article, nous proposons une nouvelle approche de synthèse vidéo-vidéo basée sur le cadre d'apprentissage génératif adversarial. Grâce à des architectures générateur et discriminateur soigneusement conçues, associées à un objectif adversarial spatio-temporel, nous obtenons des résultats vidéo photoréalistes, à haute résolution et temporellement cohérents sur un ensemble diversifié de formats d'entrée, y compris des masques de segmentation, des esquisses et des poses. Les expériences menées sur plusieurs benchmarks montrent l'avantage de notre méthode par rapport aux baselines solides. En particulier, notre modèle est capable de générer des vidéos de scènes urbaines à une résolution 2K jusqu'à 30 secondes de durée, ce qui constitue une avancée significative dans l'état de l'art en matière de synthèse vidéo. Enfin, nous appliquons notre approche à la prédiction future des vidéos, surpassant plusieurs systèmes concurrents d'avant-garde.