Pondération par attention croisée dense entre requêtes et supports pour l’agrégation de masques en segmentation à faibles exemples

Les recherches sur la segmentation sémantique à faible exemplaire (Few-shot Semantic Segmentation, FSS) ont suscité un intérêt croissant, visant à segmenter des objets cibles dans une image de requête à partir de seulement quelques images d’appui annotées pour cette classe. Une clé de cette tâche exigeante réside dans l’exploitation optimale de l’information contenue dans les images d’appui, en tirant parti des corrélations fines entre les images de requête et d’appui. Toutefois, la plupart des approches existantes réduisent l’information d’appui à quelques prototypes par classe, ou n’utilisent qu’une partie de cette information (par exemple, uniquement le fond avant), entraînant une perte d’information non négligeable au niveau des pixels. Dans cet article, nous proposons une méthode appelée DCAMA (Dense pixel-wise Cross-query-and-support Attention weighted Mask Aggregation), qui exploite pleinement à la fois l’information de fond et de premier plan provenant des images d’appui grâce à des corrélations pixel-par-pixel multi-niveaux entre les caractéristiques appariées de requête et d’appui. Implémentée à l’aide de l’attention produit scalaire dot dans l’architecture Transformer, DCAMA traite chaque pixel de la requête comme un token, calcule sa similarité avec tous les pixels d’appui, puis prédit son étiquette de segmentation comme une agrégation additive des étiquettes de tous les pixels d’appui — pondérées par leurs similarités. Grâce à la formulation originale de DCAMA, nous proposons également une inférence efficace et performante en une seule passe pour la segmentation n-shot, où tous les pixels des images d’appui sont regroupés simultanément pour l’agrégation des masques. Les expérimentations montrent que notre méthode DCAMA améliore significativement l’état de l’art sur les benchmarks standards de FSS PASCAL-5i, COCO-20i et FSS-1000, avec des gains absolus de 3,1 %, 9,7 % et 3,6 % respectivement en mIoU à 1-shot par rapport aux meilleures performances antérieures. Des études ablatives confirment également la pertinence de la conception de DCAMA.