Association d'instances saillantes inter-images pour la segmentation sémantique supervisée faiblement

Le raccordement efficace entre les annotations par mots-clés au niveau de l’image et les pixels correspondants constitue l’un des principaux défis de la segmentation sémantique faiblement supervisée. Dans cet article, nous utilisons un détecteur d’objets saillants au niveau des instances pour générer automatiquement des instances saillantes (objets candidats) à partir des images d’entraînement. En exploitant les caractéristiques de similarité extraites à partir de chaque instance saillante dans l’ensemble d’entraînement complet, nous construisons un graphe de similarité, puis appliquons un algorithme de partitionnement de graphe afin de le diviser en plusieurs sous-graphes, chacun étant associé à un seul mot-clé (tag). Notre algorithme de regroupement basé sur le partitionnement de graphe permet de prendre en compte les relations entre toutes les instances saillantes de l’ensemble d’entraînement ainsi que l’information contenue au sein de chacune. Nous montrons également que, grâce à l’information d’attention, notre algorithme de regroupement est capable de corriger certaines affectations erronées, conduisant à des résultats plus précis. Le cadre proposé est généralisable, et toute architecture de réseau supervisé de pointe peut être intégrée pour apprendre le réseau de segmentation. Lorsqu’il est combiné avec DeepLab pour la segmentation sémantique, notre méthode surpasse de manière significative les approches actuelles de segmentation faiblement supervisée, atteignant un mIoU de 65,6 % sur le jeu de données PASCAL VOC 2012. Nous combinons également notre méthode avec Mask R-CNN pour la segmentation d’instances, démontrant ainsi pour la première fois la possibilité de réaliser une segmentation d’instances faiblement supervisée à l’aide uniquement d’annotations par mots-clés.