Amélioration de la segmentation sémantique non supervisée avec des propositions de masques principales

La segmentation sémantique non supervisée vise à partitionner automatiquement les images en régions sémantiquement significatives en identifiant des catégories sémantiques globales au sein d'un corpus d'images sans aucune forme d'annotation. En nous appuyant sur les récents progrès de l'apprentissage auto-supervisé des représentations, nous nous concentrons sur la façon dont ces grands modèles pré-entraînés peuvent être exploités pour la tâche aval de la segmentation non supervisée. Nous présentons PriMaPs (Principal Mask Proposals) - une méthode qui décompose les images en masques sémantiquement significatifs basés sur leur représentation de caractéristiques. Cela nous permet de réaliser une segmentation sémantique non supervisée en ajustant des prototypes de classe aux PriMaPs avec un algorithme stochastique d'espérance-maximisation, appelé PriMaPs-EM. Malgré sa simplicité conceptuelle, PriMaPs-EM conduit à des résultats compétitifs sur divers modèles de tronc commun pré-entraînés, notamment DINO et DINOv2, ainsi que sur différents jeux de données tels que Cityscapes, COCO-Stuff et Potsdam-3. Il est important de noter que PriMaPs-EM est capable d'améliorer les résultats lorsqu'il est appliqué orthogonalement aux pipelines actuels d'état de l'art pour la segmentation sémantique non supervisée. Le code est disponible à l'adresse suivante : https://github.com/visinf/primaps.