MARS : Suppression d'objets biaisés agnostiques du modèle sans surveillance supplémentaire pour la segmentation sémantique faiblement supervisée

La segmentation sémantique faiblement supervisée vise à réduire les coûts d'étiquetage en entraînant des modèles de segmentation sémantique à l’aide d’une supervision faible, telle que des étiquettes de classe au niveau de l’image. Toutefois, la plupart des approches peinent à produire des cartes de localisation précises et souffrent de prédictions erronées sur les arrière-plans liés aux classes (objets biaisés), par exemple détecter une voie ferrée comme étant une classe de train. Les méthodes récentes visant à éliminer ces objets biaisés nécessitent une supervision supplémentaire pour identifier manuellement les objets biaisés par classe problématique, ainsi que pour collecter leurs jeux de données en examinant les prédictions, ce qui limite leur applicabilité aux jeux de données réels comportant plusieurs étiquettes et des relations complexes de biais. À la suite de la première observation selon laquelle les caractéristiques biaisées peuvent être séparées et éliminées en appariant les objets biaisés avec leurs arrière-plans dans le même jeu de données, nous proposons un cadre entièrement automatique et indépendant du modèle, appelé MARS (Model-Agnostic biased object Removal without additional Supervision), qui exploite des caractéristiques sémantiquement cohérentes issues d’une technique non supervisée afin d’éliminer les objets biaisés dans les étiquettes pseudo-étiquetées. De manière surprenante, nous montrons que MARS atteint de nouveaux états de l’art sur deux benchmarks populaires, PASCAL VOC 2012 (val : 77,7 %, test : 77,2 %) et MS COCO 2014 (val : 49,4 %), en améliorant de manière cohérente les performances de divers modèles de WSSS (Weakly Supervised Semantic Segmentation) d’au moins 30 %, sans nécessiter de supervision supplémentaire.