GENESIS-V2 : Inférer des représentations d'objets non ordonnées sans raffinement itératif

Les progrès dans l'apprentissage non supervisé des représentations d'objets ont abouti au développement d'une large gamme de méthodes pour la segmentation d'objets non supervisée et la génération de scènes centrées sur les objets interprétables. Ces méthodes sont toutefois limitées aux ensembles de données simulés et réels présentant une complexité visuelle limitée. De plus, les représentations d'objets sont souvent inférées à l'aide de RNN (réseaux de neurones récurrents) qui ne s'adaptent pas bien aux grandes images, ou par un raffinement itératif qui évite d'imposer un ordre artificiel aux objets dans une image mais nécessite l'initialisation a priori d'un nombre fixe de représentations d'objets. Contrairement aux paradigmes établis, cette étude propose une approche basée sur les plongements (embeddings), où les plongements des pixels sont regroupés de manière différentiable à l'aide d'un processus stochastique de rupture de bâtonnets (stick-breaking). Comme le raffinement itératif, cette procédure de regroupement conduit également à des représentations d'objets ordonnées aléatoirement, mais sans nécessiter l'initialisation a priori d'un nombre fixe de clusters. Cette approche est utilisée pour développer un nouveau modèle, GENESIS-v2, capable d'inférer un nombre variable de représentations d'objets sans recourir aux RNN ni au raffinement itératif. Nous montrons que GENESIS-v2 se distingue favorablement par rapport aux références récentes en termes de segmentation d'images non supervisée et de génération de scènes centrées sur les objets, tant sur des ensembles de données synthétiques établis que sur des ensembles de données réels plus complexes.