Segmentation sémantique à peu de exemples itérative à partir d’un texte d’étiquette d’image

La segmentation sémantique à peu de exemples vise à apprendre à segmenter des objets appartenant à des classes inconnues à partir de seulement quelques images de support. La plupart des méthodes précédentes reposent sur les étiquettes au niveau des pixels des images de support. Dans ce travail, nous nous concentrons sur un cadre plus exigeant, dans lequel seules des étiquettes au niveau des images sont disponibles. Nous proposons un cadre général qui génère d’abord des masques grossiers grâce au puissant modèle vision-langage CLIP, puis affine itérativement et mutuellement les prédictions de masques des images de support et des images de requête. Des expériences étendues sur les jeux de données PASCAL-5i et COCO-20i montrent que notre méthode surpassent de manière significative les approches supervisées faiblement supervisées les plus récentes, tout en atteignant des résultats comparables ou supérieurs à ceux des méthodes supervisées récentes. En outre, notre méthode présente une excellente capacité de généralisation sur des images réelles et des classes inhabituelles. Le code sera disponible à l’adresse suivante : https://github.com/Whileherham/IMR-HSNet.