Apprentissage non supervisé de représentations d'images avec des particules latentes profondes

Nous proposons une nouvelle représentation des données visuelles qui dissocie la position des objets de leur apparence. Notre méthode, appelée Deep Latent Particles (DLP), décompose l'entrée visuelle en particules latentes de faible dimension, où chaque particule est décrite par sa position spatiale et les caractéristiques de sa région environnante. Pour guider l'apprentissage de telles représentations, nous adoptons une approche basée sur les VAE (Variational Autoencoders) et introduisons une loi a priori pour les positions des particules fondée sur une architecture spatial-softmax, ainsi qu'une modification de la perte de borne inférieure de preuve inspirée par la distance de Chamfer entre les particules.Nous démontrons que nos représentations DLP sont utiles pour des tâches en aval telles que la détection non supervisée de points clés (KP), la manipulation d'images et la prédiction vidéo pour des scènes composées de plusieurs objets dynamiques. De plus, nous montrons que notre interprétation probabiliste du problème fournit naturellement des estimations d'incertitude pour les positions des particules, ce qui peut être utilisé pour la sélection du modèle, parmi d'autres tâches. Les vidéos et le code sont disponibles à l'adresse suivante : https://taldatech.github.io/deep-latent-particles-web/