Apprentissage de représentations CLIP conscientes du masque pour la segmentation zéro-shot

Récemment, les modèles pré-entraînés vision-langage ont été de plus en plus utilisés pour aborder la tâche exigeante de segmentation zéro-shot. Les approches classiques suivent un paradigme consistant à générer d'abord des propositions de masques, puis à les classifier à l’aide de CLIP. Afin de préserver la capacité de transfert zéro-shot de CLIP, les méthodes antérieures privilégient le gel de CLIP pendant l’entraînement. Toutefois, dans ce travail, nous révélons que CLIP est peu sensible aux différentes propositions de masques et a tendance à produire des prédictions similaires pour diverses propositions de masques issues de la même image. Cette insensibilité entraîne un grand nombre de faux positifs lors de la classification des propositions de masques. Ce problème est principalement dû au fait que CLIP est entraîné avec une supervision au niveau de l’image. Pour atténuer ce défaut, nous proposons une méthode simple mais efficace, nommée Mask-aware Fine-tuning (MAFT). Plus précisément, nous introduisons un encodeur CLIP pour les propositions d’images (IP-CLIP Encoder), capable de traiter simultanément un nombre arbitraire d’images et de propositions de masques. Ensuite, nous concevons une fonction de perte sensible au masque et une perte de self-distillation afin d’ajuster finement l’IP-CLIP Encoder, garantissant ainsi que CLIP devienne sensible aux différentes propositions de masques sans compromettre sa capacité de transfert. Ainsi, des représentations sensibles au masque peuvent être facilement apprises, permettant aux véritables positifs de se démarquer clairement. Notons que notre solution peut être intégrée de manière transparente à la plupart des méthodes existantes, sans introduire de nouveaux paramètres durant le processus d’ajustement fin. Nous menons des expériences étendues sur des benchmarks populaires en segmentation zéro-shot. Grâce à MAFT, les performances des méthodes de pointe sont considérablement améliorées : +8,2 % (50,4 %) sur COCO, +3,2 % (81,8 %) sur Pascal-VOC, et +4,3 % (8,7 %) sur ADE20K en termes de mIoU pour les classes inconnues. Le code source est disponible à l’adresse suivante : https://github.com/jiaosiyu1999/MAFT.git.