Transformateur pour l'extraction de prototypes intermédiaires pour la segmentation sémantique à faible exemple

La segmentation sémantique à peu d'exemples vise à segmenter les objets cibles dans une image de requête à partir de quelques images de support annotées. La plupart des travaux antérieurs se sont efforcés d’extraire des informations catégorielles plus efficaces à partir des images de support afin de les associer aux objets correspondants dans la requête. Toutefois, ils ont tous négligé l’écart d’information catégorielle existant entre les images de requête et celles de support. Lorsque les objets présentent une forte diversité intra-catégorielle, le transfert forcé d’informations catégorielles du support vers la requête s’avère inefficace. Pour résoudre ce problème, nous introduisons pour la première fois un prototype intermédiaire permettant d’extraire à la fois des informations catégorielles déterministes à partir du support et des connaissances catégorielles adaptatives à partir de la requête. Plus précisément, nous proposons un Transformer d’Extraction de Prototype Intermédiaire (IPMT) pour apprendre ce prototype de manière itérative. À chaque couche de l’IPMT, nous propageons l’information des objets présents dans les caractéristiques du support et de la requête vers le prototype, puis utilisons ce dernier pour activer la carte de caractéristiques de la requête. En répétant ce processus de manière itérative, le prototype intermédiaire et les caractéristiques de la requête sont progressivement améliorés. Enfin, la caractéristique de requête finale est utilisée pour produire une prédiction de segmentation précise. Des expériences étendues sur les jeux de données PASCAL-5i et COCO-20i confirment clairement l’efficacité de notre IPMT, qui surpassent de manière significative les méthodes précédentes de pointe. Le code est disponible à l’adresse suivante : https://github.com/LIUYUANWEI98/IPMT