Distillation hiérarchique de corrélation dense pour la segmentation à faible exemplaire

La segmentation sémantique à peu de exemples (FSS) vise à concevoir des modèles agnostiques aux classes capables de segmenter des classes non vues à partir d’un nombre très restreint d’étiquettes. Les méthodes précédentes, limitées aux représentations de caractéristiques sémantiques et aux prototypes, souffrent d’une granularité de segmentation trop grossière et d’un surajustement au jeu d’entraînement. Dans ce travail, nous proposons le Réseau d’Appariement Hiérarchiquement Découplé (HDMNet), qui exploite une architecture Transformer pour extraire des corrélations pixel-à-pixel à partir des supports. Les modules d’attention auto-attention sont utilisés pour construire des caractéristiques denses hiérarchiques, permettant ainsi une correspondance en cascade entre les caractéristiques de requête et celles de support. En outre, nous introduisons un module d’appariement visant à réduire le surajustement au jeu d’entraînement, ainsi qu’une distillation de corrélation exploitant les correspondances sémantiques allant d’une résolution grossière vers une résolution fine, afin d’améliorer la précision de la segmentation fine. Nos expériences montrent des performances satisfaisantes : nous atteignons un mIoU de $50,0\%$ sur le jeu de données \coco{} dans le cadre d’un exemple unique (one-shot), et de $56,0\%$ dans le cas de cinq exemples (five-shot).