Encodage croisé masqué entre images pour la segmentation à faible exemple

La segmentation à peu de exemples (FSS) est une tâche de prédiction dense dont l'objectif est d'inférer les étiquettes par pixel de classes non vues à partir d'un nombre limité d'images annotées. Le défi principal de la FSS réside dans la classification des étiquettes des pixels de requête à l'aide de prototypes de classes appris à partir d'exemplaires de support peu étiquetés. Les approches antérieures de FSS se sont généralement concentrées sur l'apprentissage d'indicateurs spécifiques à chaque classe à partir des images de support, négligeant ainsi les informations contextuelles riches et les dépendances mutuelles entre les caractéristiques des images de support et celles de requête. Pour surmonter cette limitation, nous proposons une méthode d'apprentissage conjoint appelée Encodage Croisé Masqué (MCE), conçue pour capturer les propriétés visuelles communes décrivant les détails des objets et pour apprendre des dépendances inter-images bidirectionnelles renforçant l'interaction des caractéristiques. Le MCE n'est pas seulement un module d'enrichissement des représentations visuelles ; il prend également en compte les dépendances mutuelles entre images ainsi que des indices implicites. Des expériences menées sur les benchmarks FSS PASCAL-$5^i$ et COCO-$20^i$ démontrent la capacité avancée d'apprentissage métacognitif de la méthode proposée.