Déverrouiller le potentiel d'un classificateur ordinaire : cadre d'effacement adversarial spécifique à la classe pour la segmentation sémantique faiblement supervisée

La segmentation sémantique faiblement supervisée (WSSS) utilisant des étiquettes de classification d’image repose généralement sur les Cartes d’Activation de Classe (CAMs) pour localiser les objets d’intérêt dans les images. Bien que les CAMs ne mettent en évidence que les régions les plus discriminantes des classes ciblées, des méthodes d’effacement adverses (AE) ont été proposées afin d’explorer davantage les régions moins discriminantes. Dans ce travail, nous examinons le potentiel du classificateur pré-entraîné, entraîné sur des images brutes. Nous vérifions expérimentalement que le classificateur classique possède déjà la capacité à activer les régions moins discriminantes lorsque les régions les plus discriminantes sont partiellement effacées. À partir de cette observation, nous proposons un cadre AE spécifique à la classe qui exploite pleinement le potentiel d’un classificateur ordinaire. Notre cadre (1) utilise le classificateur classique pour identifier les régions à effacer, et (2) génère un masque spécifique à la classe en échantillonnant aléatoirement une seule classe cible parmi celles présentes dans l’image afin d’obtenir des CAMs plus précises. Plus précisément, guidé par le classificateur classique, le réseau de génération de CAMs (CGNet) est contraint de produire une CAM pour la classe cible tout en empêchant celle-ci d’intruder dans les régions des autres classes. En combinant les pseudo-étiquettes affinées à partir de nos CAMs, nous atteignons des performances de pointe en WSSS sur les jeux de données PASCAL VOC 2012 et MS-COCO, uniquement avec une supervision au niveau de l’image. Le code est disponible à l’adresse suivante : https://github.com/KAIST-vilab/OC-CSE.