Réseau unifié guidé par l'attention pour la segmentation panoptique

Ce document étudie la segmentation panoramique, une tâche récemment proposée qui segmente les objets du premier plan (FG) au niveau des instances ainsi que les contenus du fond (BG) au niveau sémantique. Les méthodes existantes traitaient généralement ces deux problèmes de manière séparée, mais dans ce travail, nous mettons en lumière la relation sous-jacente entre eux, en particulier le fait que les objets du premier plan fournissent des indices complémentaires pour aider à la compréhension du fond. Notre approche, nommée Réseau Unifié Guidé par l'Attention (AUNet), est un cadre unifié avec deux branches pour la segmentation simultanée du premier plan et du fond. Deux sources d'attention sont ajoutées à la branche de fond, à savoir le RPN et le masque de segmentation du premier plan, pour fournir respectivement des attentions au niveau objet et au niveau pixel. Notre méthode est généralisée à différents backbones avec une amélioration constante de la précision dans les segmentations FG et BG, et établit également de nouveaux états de l'art dans les benchmarks MS-COCO (46,5% PQ) et Cityscapes (59,0% PQ).