La fiabilité compte : une approche de segmentation sémantique faiblement supervisée en bout-en-bout

La segmentation sémantique faiblement supervisée constitue une tâche difficile, car elle ne repose que sur des informations au niveau de l’image pour l’apprentissage, tout en produisant des prédictions au niveau des pixels lors de l’évaluation. Pour relever ce défi, la plupart des approches les plus récentes et les plus performantes adoptent une stratégie en deux étapes : 1) apprendre à générer des masques pseudo-étiquetés au niveau des pixels, puis 2) utiliser des réseaux fully convolutionnels (FCN) pour entraîner le modèle de segmentation sémantique à l’aide de ces masques pseudo-étiquetés. Toutefois, ces approches en deux étapes s’appuient souvent sur de nombreux artifices (« bells and whistles ») afin d’obtenir des masques pseudo-étiquetés de haute qualité, ce qui rend ces méthodes complexes et peu élégantes. Dans ce travail, nous exploitons les étiquettes au niveau de l’image pour produire des annotations au niveau des pixels fiables, et concevons un réseau entièrement end-to-end capable d’apprendre à prédire des cartes de segmentation. Plus précisément, nous utilisons d’abord une branche de classification d’image pour générer des cartes d’activation de classe pour les catégories annotées, lesquelles sont ensuite affinées afin d’obtenir des régions objectives ou de fond fiables mais de petite taille. Ces régions fiables servent directement de vérité terrain pour une branche de segmentation parallèle, où une nouvelle fonction de perte d’énergie dense est conçue pour l’optimisation. Malgré sa simplicité apparente, notre approche en une seule étape atteint des scores compétitifs en mIoU (val : 62,6 ; test : 62,9) sur le jeu de données Pascal VOC, comparée aux meilleures méthodes en deux étapes. En étendant notre méthode en une étape à une approche en deux étapes, nous obtenons une nouvelle performance de pointe sur Pascal VOC (val : 66,3 ; test : 66,5).