MoCoGAN : Décomposition du mouvement et du contenu pour la génération de vidéos

Les signaux visuels dans une vidéo peuvent être divisés en contenu et mouvement. Le contenu spécifie les objets présents dans la vidéo, tandis que le mouvement décrit leur dynamique. À partir de cette connaissance préalable, nous proposons le cadre du réseau antagoniste génératif décomposé en mouvement et en contenu (Motion and Content decomposed Generative Adversarial Network, MoCoGAN) pour la génération de vidéos. Le cadre proposé génère une vidéo en mappant une séquence de vecteurs aléatoires à une séquence d'images de la vidéo. Chaque vecteur aléatoire est composé d'une partie de contenu et d'une partie de mouvement. Tandis que la partie de contenu reste fixe, la partie de mouvement est réalisée comme un processus stochastique. Pour apprendre la décomposition du mouvement et du contenu de manière non supervisée, nous introduisons un nouveau schéma d'apprentissage par adversaire utilisant à la fois des discriminateurs d'images et des discriminateurs de vidéos. De nombreux résultats expérimentaux sur plusieurs jeux de données difficiles, avec des comparaisons qualitatives et quantitatives aux approches les plus avancées, confirment l'efficacité du cadre proposé. De plus, nous montrons que MoCoGAN permet de générer des vidéos avec le même contenu mais différents mouvements, ainsi que des vidéos avec différents contenus mais le même mouvement.