Extraction de sémantiques inter-images pour la segmentation sémantique faiblement supervisée

Cet article étudie le problème de l’apprentissage de la segmentation sémantique à partir d’une supervision au niveau des images uniquement. Les solutions actuelles courantes exploitent les cartes de localisation d’objets issues des classificateurs comme signaux de supervision, mais peinent à faire en sorte que ces cartes captent un contenu d’objet plus complet. Contrairement aux approches antérieures qui se concentrent principalement sur les informations intra-images, nous mettons en évidence la valeur des relations sémantiques entre images pour une exploration approfondie des motifs d’objets. Pour ce faire, deux mécanismes d’attention coopérative sont intégrés au classificateur afin de capturer de manière complémentaire les similarités et les différences sémantiques entre images. Plus précisément, étant donné une paire d’images d’entraînement, une attention coopérative pousse le classificateur à reconnaître les sémantiques communes issues des objets co-attentifs, tandis que l’autre, appelée attention coopérative contrastive, incite le classificateur à identifier les sémantiques non partagées à partir des objets restants, non communs. Cela permet au classificateur de découvrir davantage de motifs d’objets et de mieux ancrer les sémantiques dans les régions des images. En outre, en plus d’améliorer l’apprentissage des motifs d’objets, l’attention coopérative peut tirer parti du contexte provenant d’autres images liées afin d’améliorer l’inférence des cartes de localisation, ce qui profite finalement à l’apprentissage de la segmentation sémantique. De manière plus fondamentale, notre algorithme propose un cadre unifié qui s’adapte efficacement à différents scénarios de segmentation sémantique faiblement supervisée (WSSS), à savoir : (1) apprentissage WSSS avec une supervision au niveau des images précise uniquement, (2) données supplémentaires simples à une seule étiquette, et (3) données web bruitées supplémentaires. Il établit de nouveaux états de l’art sur chacun de ces scénarios, démontrant ainsi son efficacité et sa généralisabilité. En outre, notre approche a obtenu la première place dans la catégorie « Weakly-Supervised Semantic Segmentation » du défi CVPR2020 « Learning from Imperfect Data ».