Le train n'est pas le rail : la saliency comme supervision pseudo-pixel pour la segmentation sémantique faiblement supervisée

Les études existantes en segmentation sémantique faiblement supervisée (WSSS) basées sur une supervision de niveau image présentent plusieurs limites : une couverture insuffisante des objets, des frontières d’objets peu précises, ainsi que la présence de pixels co-occurentes provenant d’objets non cibles. Pour surmonter ces défis, nous proposons un cadre novateur, nommé Supervision explicite par pseudo-pixels (EPS), qui apprend à partir d’un retour à niveau pixel en combinant deux sources de supervision faible : l’étiquette de niveau image fournit l’identité de l’objet via une carte de localisation, tandis qu’une carte de salience issue d’un modèle de détection de salience existant fournit des frontières riches et détaillées. Nous avons conçu une stratégie d’entraînement conjoint, permettant d’exploiter pleinement la complémentarité entre ces deux sources d’information. Notre méthode permet d’obtenir des frontières d’objets précises et d’éliminer les pixels co-occurentes, améliorant ainsi significativement la qualité des pseudo-masques. Les résultats expérimentaux montrent que la méthode proposée dépasse nettement les approches existantes en résolvant les défis clés de la WSSS, atteignant ainsi un nouveau record d’état de l’art sur les jeux de données PASCAL VOC 2012 et MS COCO 2014.