Masque d'attention et Mask Transformer pour la segmentation universelle d'images

La segmentation d'images consiste à regrouper des pixels selon différentes sémantiques, par exemple l'appartenance à une catégorie ou à une instance, où chaque choix de sémantique définit une tâche. Bien que seules les sémantiques de chaque tâche diffèrent, la recherche actuelle se concentre sur la conception d'architectures spécialisées pour chaque tâche. Nous présentons le Masked-attention Mask Transformer (Mask2Former), une nouvelle architecture capable de traiter n'importe quelle tâche de segmentation d'images (panoptique, par instance ou sémantique). Ses composants clés incluent l'attention masquée, qui extrait des caractéristiques localisées en restreignant l'attention croisée aux régions de masque prédites. Outre la réduction des efforts de recherche d'au moins trois fois, elle surpasse les meilleures architectures spécialisées avec une marge significative sur quatre jeux de données populaires. Notamment, Mask2Former établit un nouveau niveau d'excellence pour la segmentation panoptique (57,8 PQ sur COCO), la segmentation par instance (50,1 AP sur COCO) et la segmentation sémantique (57,7 mIoU sur ADE20K).