Apprentissage de la cohérence temporelle par auto-supervision pour la génération vidéo basée sur les GAN

Notre travail explore l'auto-supervision temporelle pour les tâches de génération vidéo basées sur les GAN (Generative Adversarial Networks). Bien que l'entraînement par adversarialité réussisse à produire des modèles génératifs dans divers domaines, les relations temporelles dans les données générées sont beaucoup moins étudiées. Les changements temporels naturels sont essentiels pour les tâches de génération séquentielle, comme la super-résolution vidéo et la traduction vidéo non appariée. Pour la première tâche, les méthodes de pointe privilégient souvent des pertes plus simples telles que $L^2$ plutôt que l'entraînement par adversarialité. Cependant, leur nature moyenne conduit facilement à des résultats temporellement lisses avec une perte indésirable de détails spatiaux. Pour la traduction vidéo non appariée, les approches existantes modifient les réseaux générateurs pour former des cohérences spatio-temporelles cycliques. En revanche, nous nous concentrons sur l'amélioration des objectifs d'apprentissage et proposons un algorithme auto-supervisé temporel. Nous montrons que l'apprentissage adversarial temporel est crucial pour obtenir des solutions cohérentes temporellement sans sacrifier les détails spatiaux. Nous proposons également une nouvelle perte Ping-Pong pour améliorer la cohérence temporelle à long terme. Elle prévient efficacement l'accumulation d'artefacts temporels dans les réseaux récurrents sans diminuer les caractéristiques détaillées. De plus, nous proposons un premier ensemble de métriques pour évaluer quantitativement la précision ainsi que la qualité perceptive de l'évolution temporelle. Une série d'études utilisateurs confirme le classement calculé avec ces métriques. Le code, les données, les modèles et les résultats sont disponibles à l'adresse https://github.com/thunil/TecoGAN. La page du projet https://ge.in.tum.de/publications/2019-tecogan-chu/ contient des matériaux supplémentaires.