Le pseudo-mask compte dans la segmentation sémantique faiblement supervisée

La plupart des méthodes de segmentation sémantique faiblement supervisée (WSSS) suivent une approche consistant à générer initialement des pseudo-masques, puis à entraîner le modèle de segmentation de manière entièrement supervisée à l’aide de ces pseudo-masques. Toutefois, nous avons identifié plusieurs enjeux liés à ces pseudo-masques, notamment la génération de pseudo-masques de haute qualité à partir des cartes d’activation de classe (CAM), ainsi que l’entraînement sous supervision bruitée par des pseudo-masques. Pour relever ces défis, nous proposons les améliorations suivantes afin d’atteindre un nouveau record d’état de l’art : (i) un lissage par coefficient de variation, permettant de lisser les CAM de manière adaptative ; (ii) une génération proportionnelle de pseudo-masques, qui projette les CAM étendues en pseudo-masques à l’aide d’un nouveau critère indiquant l’importance de chaque classe en chaque position, au lieu des scores appris à partir de classificateurs binaires ; (iii) une stratégie de « sous-apprentissage simulé » (pretended under-fitting), visant à atténuer l’influence du bruit présent dans les pseudo-masques ; (iv) une approche itérative de pseudo-masques (cyclic pseudo-mask), conçue pour améliorer la qualité des pseudo-masques durant l’entraînement du modèle de segmentation sémantique entièrement supervisée (FSSS). Les expériences menées sur la base de notre méthode atteignent de nouveaux records d’état de l’art sur deux jeux de données exigeants pour la segmentation sémantique faiblement supervisée, avec un mIoU respectif de 70,0 % sur PAS-CAL VOC 2012 et de 40,2 % sur MS COCO 2014. Le code source, incluant le cadre de segmentation, est disponible à l’adresse suivante : https://github.com/Eli-YiLi/PMM.