Apprentissage auto-dirigé et cross-dirigé pour la segmentation en peu d'exemples

La segmentation à peu d'exemples attire de plus en plus d'attention en raison de sa capacité à segmenter des classes d'objets inédites à partir de très peu d'exemples annotés. La plupart des approches existantes utilisent un pooling global moyenné masqué (GAP) pour encoder une image de support annotée en un vecteur de caractéristiques, afin de faciliter la segmentation de l'image de requête. Toutefois, ce pipeline entraîne inévitablement une perte d'informations discriminatives en raison de l'opération de moyennage. Dans cet article, nous proposons une approche simple mais efficace d'apprentissage auto-guidé, permettant de récupérer les informations critiques perdues. Plus précisément, en effectuant une prédiction initiale sur l'image de support annotée, les régions avant-plan couvertes et non couvertes sont respectivement encodées en vecteurs de support primaire et auxiliaire à l’aide du GAP masqué. En combinant ces deux vecteurs de support, des performances de segmentation améliorées sont obtenues sur les images de requête. Inspirés par notre module auto-guidé pour la segmentation à un exemple (1-shot), nous proposons un module cross-guidé adapté à la segmentation à plusieurs exemples (multi-shot), où le masque final est fusionné à partir des prédictions issues de plusieurs exemples annotés, les vecteurs de support de haute qualité contribuant davantage, tandis que ceux de moindre qualité ont un poids réduit. Ce module améliore la prédiction finale lors de l'étape d'inférence sans nécessiter de re-entraînement. Des expériences étendues montrent que notre approche atteint de nouveaux résultats d'état de l'art sur les jeux de données PASCAL-5i et COCO-20i.