HyperAIHyperAI

Command Palette

Search for a command to run...

Pondération par attention croisée dense entre requêtes et supports pour l’agrégation de masques en segmentation à faibles exemples

Xinyu Shi Dong Wei Yu Zhang Donghuan Lu Munan Ning Jiashun Chen Kai Ma Yefeng Zheng

Résumé

Les recherches sur la segmentation sémantique à faible exemplaire (Few-shot Semantic Segmentation, FSS) ont suscité un intérêt croissant, visant à segmenter des objets cibles dans une image de requête à partir de seulement quelques images d’appui annotées pour cette classe. Une clé de cette tâche exigeante réside dans l’exploitation optimale de l’information contenue dans les images d’appui, en tirant parti des corrélations fines entre les images de requête et d’appui. Toutefois, la plupart des approches existantes réduisent l’information d’appui à quelques prototypes par classe, ou n’utilisent qu’une partie de cette information (par exemple, uniquement le fond avant), entraînant une perte d’information non négligeable au niveau des pixels. Dans cet article, nous proposons une méthode appelée DCAMA (Dense pixel-wise Cross-query-and-support Attention weighted Mask Aggregation), qui exploite pleinement à la fois l’information de fond et de premier plan provenant des images d’appui grâce à des corrélations pixel-par-pixel multi-niveaux entre les caractéristiques appariées de requête et d’appui. Implémentée à l’aide de l’attention produit scalaire dot dans l’architecture Transformer, DCAMA traite chaque pixel de la requête comme un token, calcule sa similarité avec tous les pixels d’appui, puis prédit son étiquette de segmentation comme une agrégation additive des étiquettes de tous les pixels d’appui — pondérées par leurs similarités. Grâce à la formulation originale de DCAMA, nous proposons également une inférence efficace et performante en une seule passe pour la segmentation n-shot, où tous les pixels des images d’appui sont regroupés simultanément pour l’agrégation des masques. Les expérimentations montrent que notre méthode DCAMA améliore significativement l’état de l’art sur les benchmarks standards de FSS PASCAL-5i, COCO-20i et FSS-1000, avec des gains absolus de 3,1 %, 9,7 % et 3,6 % respectivement en mIoU à 1-shot par rapport aux meilleures performances antérieures. Des études ablatives confirment également la pertinence de la conception de DCAMA.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp