Prédiction d’images vidéo adversariales basée sur la transformation sur de grandes masses de données

Les progrès récents dans le domaine de la modélisation générative adversaire ont permis de concevoir des modèles capables de produire des échantillons vidéo de haute qualité, même sur des jeux de données volumineux et complexes d’images réelles. Dans ce travail, nous nous concentrons sur la tâche de prédiction vidéo, dont l’objectif consiste, étant donné une séquence d’images extraite d’une vidéo, à générer une séquence future plausible. Nous améliorons d’abord l’état de l’art en menant une étude empirique systématique des décompositions du discriminateur, et en proposant une architecture qui permet une convergence plus rapide et des performances supérieures à celles des approches antérieures. Nous analysons ensuite les unités récurrentes du générateur, et proposons une nouvelle unité récurrente qui transforme son état caché passé selon des caractéristiques prévues de type mouvement, tout en le raffinant pour mieux gérer les occlusions partielles, les changements de scène et d’autres comportements complexes. Nous démontrons que cette unité récurrente surpasse de manière cohérente les conceptions antérieures. Notre modèle final marque une avancée significative par rapport à l’état de l’art, atteignant une distance de Fréchet vidéo (FVD) de 25,7 sur le grand jeu de données Kinetics-600, contre 69,2 précédemment.