Génération de Vidéos Adversariales sur des Jeux de Données Complexes

Les modèles génératifs d'images naturelles ont progressé vers des échantillons de haute fidélité grâce à une utilisation intensive de l'échelle. Nous tentons de transférer ce succès au domaine de la modélisation vidéo en démontrant que les grands Réseaux de Neurones Adverses Génératifs (GAN) formés sur le complexe ensemble de données Kinetics-600 sont capables de produire des échantillons vidéo d'une complexité et d'une fidélité nettement supérieures aux travaux précédents. Notre modèle proposé, Dual Video Discriminator GAN (DVD-GAN), s'adapte aux vidéos plus longues et de plus haute résolution en exploitant une décomposition computationnellement efficace de son discriminateur. Nous évaluons nos performances sur les tâches connexes de synthèse vidéo et de prédiction vidéo, et obtenons une nouvelle distance Fréchet Inception (FID) record pour la prédiction sur Kinetics-600, ainsi qu'un score Inception record pour la synthèse sur l'ensemble de données UCF-101, tout en établissant une base solide pour la synthèse sur Kinetics-600.