Segmentation sémantique d'images non supervisée à l'aide de superpixels et de réseaux neuronaux de graphes

La segmentation d’images non supervisée est une tâche importante dans de nombreux scénarios du monde réel où les données étiquetées sont rares. Dans cet article, nous proposons une nouvelle approche qui exploite les avancées récentes en apprentissage non supervisé en combinant de manière end-to-end la maximisation de l’information mutuelle (MIM), la segmentation par superpixels neuronaux et les réseaux de graphes (GNNs), une approche qui n’avait encore jamais été explorée. Nous tirons parti de la représentation compacte des superpixels et la combinons avec les GNNs afin d’apprendre des représentations fortes et sémantiquement significatives des images. Plus précisément, nous démontrons que notre méthode basée sur les GNNs permet de modéliser les interactions entre des pixels éloignés dans l’image, et sert de prior fort aux réseaux de neurones convolutifs (CNNs) existants, conduisant à une amélioration de la précision. Nos expérimentations révèlent à la fois des avantages qualitatifs et quantitatifs de notre approche par rapport aux méthodes de pointe actuelles sur quatre jeux de données populaires.