Segmentation d'image non supervisée autoregressive

Dans ce travail, nous proposons une nouvelle approche non supervisée de segmentation d’images fondée sur la maximisation de l’information mutuelle entre différentes vues construites à partir des entrées. Inspirés des modèles génératifs autoregressifs qui prédise le pixel courant à partir des pixels précédents selon un ordre de balayage en raster obtenu via des convolutions masquées, nous proposons d’utiliser différents ordres d’entrée, obtenus à l’aide de diverses formes de convolutions masquées, afin de construire plusieurs vues des données. Pour une entrée donnée, le modèle génère une paire de prédictions basées sur deux ordres valides, puis est entraîné pour maximiser l’information mutuelle entre ces deux sorties. Ces sorties peuvent correspondre soit à des caractéristiques à faible dimension pour l’apprentissage de représentations, soit à des regroupements (clusters) correspondant à des étiquettes sémantiques, dans le cadre d’un clustering. Bien que les convolutions masquées soient utilisées pendant l’entraînement, aucune masque n’est appliqué lors de l’inférence, revenant ainsi à des convolutions standards où le modèle accède à l’entrée complète. La méthode proposée surpassent les états de l’art actuels en segmentation d’images non supervisée. Elle est simple et facile à implémenter, et peut être étendue à d’autres tâches visuelles, tout en s’intégrant de manière transparente dans les méthodes existantes d’apprentissage non supervisé nécessitant des vues multiples des données.