La seuil est cruciale en WSSS : manipulation de l'activation pour un modèle de segmentation robuste et précis face aux seuils

La segmentation sémantique faiblement supervisée (WSSS) a récemment suscité un vif intérêt en raison de sa capacité à entraîner des modèles de segmentation à partir uniquement d’étiquettes au niveau d’image. Les méthodes WSSS existantes considèrent généralement que la couverture parcimonieuse des cartes d’activation de classification (CAM) constitue le goulot d’étranglement de la performance en WSSS. Ce papier fournit des preuves analytiques et empiriques indiquant que le véritable goulot d’étranglement pourrait ne pas résider dans cette couverture parcimonieuse, mais plutôt dans le schéma de seuillage global appliqué après les CAM. Nous montrons ensuite que ce problème peut être atténué en satisfaisant deux conditions : 1) réduire le déséquilibre dans l’activation de la région de premier plan, et 2) augmenter l’écart entre les activations du premier plan et celles du fond. À partir de ces constatations, nous proposons un nouveau réseau de manipulation d’activation intégrant une perte de classification par pixel et un module de conditionnement sur les étiquettes. La classification par pixel induit naturellement une activation à deux niveaux dans les cartes d’activation, ce qui permet de pénaliser les régions les plus discriminantes, de promouvoir celles moins discriminantes, et d’annuler les régions de fond. Le conditionnement sur les étiquettes impose que l’étiquette de sortie des pseudo-masques soit l’une des véritables étiquettes au niveau d’image ; cela pénalise les activations erronées attribuées à des classes non cibles. À partir d’analyses et d’évaluations étendues, nous démontrons que chaque composant contribue à la génération de pseudo-masques précis, offrant ainsi une robustesse vis-à-vis du choix du seuil global. Enfin, notre modèle atteint des résultats de pointe sur les jeux de données PASCAL VOC 2012 et MS COCO 2014.