Apprentissage non supervisé de cadres d'objets par étiquetage dense d'images équivariant

L'un des principaux défis de la perception visuelle est d'extraire des modèles abstraits d'objets 3D et de catégories d'objets à partir de mesures visuelles, qui sont affectées par des facteurs de nuisance complexes tels que le point de vue, l'occlusion, le mouvement et les déformations. Partant de l'idée récente de la factorisation du point de vue, nous proposons une nouvelle approche capable, à partir d'un grand nombre d'images d'un objet et sans autre supervision, d'extraire un repère de coordonnées centré sur l'objet et dense. Ce repère de coordonnées est invariant aux déformations des images et est accompagné d'un réseau neuronal équivariant dense qui peut cartographier les pixels des images sur leurs coordonnées objets correspondantes. Nous démontrons l'applicabilité de cette méthode à des objets articulés simples et à des objets déformables tels que les visages humains, en apprenant des plongements à partir de transformations synthétiques aléatoires ou de correspondances d'écoulement optique, tout cela sans aucune supervision manuelle.