InfoSeg : Segmentations d'images sémantiques non supervisées basée sur la maximisation de l'information mutuelle

Nous proposons une nouvelle méthode de segmentation sémantique d’images non supervisée fondée sur la maximisation de l’information mutuelle entre des caractéristiques hauteurs locales et globales de l’image. L’idée centrale de notre travail consiste à exploiter les progrès récents réalisés dans le domaine de l’apprentissage auto-supervisé des représentations d’images. Les méthodes d’apprentissage de représentation traditionnelles calculent une seule caractéristique hauteurs qui encapsule l’image entière. À l’inverse, nous calculons plusieurs caractéristiques hauteurs, chacune capturant des segments d’image correspondant à une classe sémantique particulière. Pour cela, nous proposons une procédure d’apprentissage originale en deux étapes, comprenant une étape de segmentation et une étape de maximisation de l’information mutuelle. Dans la première étape, nous effectuons la segmentation des images à partir de caractéristiques locales et globales. Dans la deuxième étape, nous maximisons l’information mutuelle entre les caractéristiques locales et les caractéristiques hauteurs correspondantes à leur classe respective. Pour l’entraînement, nous utilisons uniquement des images non étiquetées et partons d’une initialisation aléatoire du réseau. Pour l’évaluation quantitative et qualitative, nous utilisons des références établies, ainsi que le jeu de données COCO-Persons, que nous introduisons dans cet article comme une nouvelle référence exigeante. InfoSeg dépasse significativement l’état de l’art actuel : par exemple, nous obtenons une amélioration relative de 26 % sur le métrique Pixel Accuracy sur le jeu de données COCO-Stuff.