Prototype en tant que requête pour la segmentation sémantique à faible exemple

La segmentation sémantique à peu de exemples (Few-shot Semantic Segmentation, FSS) a été proposée pour segmenter des classes non vues dans une image de requête, en se basant uniquement sur quelques exemples annotés appelés images de support. Une caractéristique fondamentale de la FSS réside dans l'incohérence spatiale entre les cibles de l'image de requête et celles des images de support, par exemple en termes de texture ou d'apparence. Ce phénomène pose un défi majeur à la capacité de généralisation des méthodes FSS, qui doivent exploiter efficacement les dépendances entre l'image de requête et les exemples de support. La plupart des méthodes existantes réduisent les caractéristiques de support en des vecteurs prototypes, puis établissent une interaction avec les caractéristiques de requête à l’aide de la similarité cosinus ou de la concaténation de caractéristiques. Toutefois, cette approche simple peut ne pas capturer adéquatement les détails spatiaux présents dans les caractéristiques de requête. Pour atténuer cette limitation, certaines méthodes exploitent l’information pixel par pixel des caractéristiques de support en calculant les corrélations pixel par pixel entre les caractéristiques appariées de requête et de support, via un mécanisme d’attention inspiré du Transformer. Ces approches souffrent toutefois d’une charge computationnelle élevée due au calcul de l’attention par produit scalaire entre tous les pixels des caractéristiques de requête et de support. Dans cet article, nous proposons un cadre simple mais efficace basé sur le Transformer, nommé ProtoFormer, afin de capturer pleinement les détails spatiaux présents dans les caractéristiques de requête. Notre méthode considère le prototype abstrait de la classe cible dans les caractéristiques de support comme « Query », tandis que les caractéristiques de requête sont traitées comme « Key » et « Value » dans le décodeur du Transformer. Ainsi, les détails spatiaux sont mieux capturés, et les caractéristiques sémantiques de la classe cible dans l’image de requête sont mieux mises en évidence. La sortie du module basé sur le Transformer peut être interprétée comme des noyaux dynamiques sensibles au contenu sémantique, utilisés pour filtrer le masque de segmentation à partir des caractéristiques de requête enrichies. Des expériences étendues sur les jeux de données PASCAL-$5^{i}$ et COCO-$20^{i}$ montrent que notre ProtoFormer améliore significativement les méthodes de l’état de l’art.