Désentrelacer plusieurs caractéristiques dans des séquences vidéo à l’aide de processus gaussiens dans des autoencodeurs variationnels

Nous introduisons MGP-VAE (Multi-disentangled-features Gaussian Processes Variational AutoEncoder), un autoencodeur variationnel qui utilise des processus Gaussiens (GP) pour modéliser l’espace latent dans le cadre de l’apprentissage non supervisé de représentations désentrelacées sur des séquences vidéo. Nous améliorons les travaux antérieurs en proposant un cadre permettant de désentrelacer plusieurs caractéristiques, statiques ou dynamiques. Plus précisément, nous utilisons des mouvements browniens fractionnaires (fBM) et des ponts browniens (BB) afin d’imposer une structure de corrélation entre cadres dans chaque canal indépendant, et démontrons que la variation de cette structure permet de capturer différents facteurs de variation présents dans les données. Nous évaluons la qualité de nos représentations à l’aide d’expériences menées sur trois jeux de données publics, et quantifions l’amélioration obtenue via une tâche de prédiction vidéo. En outre, nous introduisons une nouvelle fonction de perte géodésique qui prend en compte la courbure de la variété des données afin d’améliorer l’apprentissage. Nos expériences montrent que la combinaison des représentations améliorées avec cette fonction de perte innovante permet à MGP-VAE de surpasser les méthodes de référence en prédiction vidéo.