Autoencodeurs en Capsules Empilées

Les objets sont composés d'un ensemble de parties organisées géométriquement. Nous présentons un autoencodeur capsulaire non supervisé (SCAE), qui utilise explicitement les relations géométriques entre les parties pour raisonner sur les objets. Comme ces relations ne dépendent pas du point de vue, notre modèle est robuste aux changements de point de vue. Le SCAE se compose de deux étapes. Dans la première étape, le modèle prédit directement à partir de l'image la présence et les poses des modèles de parties et tente de reconstruire l'image en arrangeant correctement ces modèles. Dans la deuxième étape, le SCAE prédit les paramètres d'un petit nombre de capsules d'objets, qui sont ensuite utilisés pour reconstruire les poses des parties. L'inférence dans ce modèle est amortie et effectuée par des encodeurs neuronaux standards, contrairement aux réseaux capsulaires précédents. Nous constatons que la présence des capsules d'objets est très informative quant à la classe d'objet, ce qui conduit à des résultats d'avant-garde pour la classification non supervisée sur SVHN (55 %) et MNIST (98,7 %). Le code est disponible à l'adresse suivante : https://github.com/google-research/google-research/tree/master/stacked_capsule_autoencoders