Réseau d'attention auto-guidée par la salience pour la segmentation sémantique faiblement et semi-supervisée

La segmentation sémantique faiblement supervisée (WSSS) utilisant uniquement des étiquettes au niveau d’image peut réduire considérablement les coûts d’annotation, ce qui explique son intérêt croissant dans la recherche. Toutefois, ses performances restent inférieures à celles des méthodes entièrement supervisées. Pour réduire cet écart, nous proposons un réseau d’attention auto-guidée par la saliency (SGAN) afin de traiter le problème de la WSSS. Le mécanisme d’attention auto-introduit est capable de capturer des informations contextuelles riches et étendues, mais peut parfois étendre inappropriément l’attention à des régions inattendues. Afin de permettre à ce mécanisme de fonctionner efficacement dans un cadre de supervision faible, nous intégrons des priorités de saliency indépendantes de la classe dans le mécanisme d’attention, tout en exploitant des indices d’attention spécifiques à la classe comme une supervision additionnelle pour SGAN. Notre SGAN est ainsi capable de générer des indicateurs de localisation denses et précis, ce qui améliore significativement les performances de segmentation. En outre, en remplaçant simplement les supervisions additionnelles par des vérités terrain partiellement étiquetées, SGAN s’applique également efficacement à la segmentation sémantique semi-supervisée. Des expériences sur les jeux de données PASCAL VOC 2012 et COCO montrent que notre approche surpasse toutes les méthodes de pointe existantes, tant dans les scénarios faiblement supervisés que semi-supervisés.