il y a 11 jours

CLIP est également un segmenteur efficace : une approche pilotée par le texte pour la segmentation sémantique faiblement supervisée

Yuqi Lin, Minghao Chen, Wenxiao Wang, Boxi Wu, Ke Li, Binbin Lin, Haifeng Liu, Xiaofei He

Résumé

La segmentation sémantique faiblement supervisée (WSSS) à l’aide d’étiquettes au niveau d’image constitue une tâche particulièrement difficile. Les approches courantes suivent un cadre multi-étapes et souffrent de coûts d’entraînement élevés. Dans cet article, nous explorons le potentiel des modèles de pré-entraînement contraste langage-image (CLIP) pour localiser différentes catégories à partir uniquement d’étiquettes au niveau d’image, sans entraînement supplémentaire. Pour générer efficacement des masques de segmentation de haute qualité à partir de CLIP, nous proposons un nouveau cadre WSSS appelé CLIP-ES. Notre cadre améliore les trois étapes de la WSSS grâce à des conceptions spécifiques adaptées à CLIP : 1) Nous introduisons la fonction softmax dans GradCAM et exploitons la capacité « zero-shot » de CLIP afin de supprimer les ambiguïtés causées par les classes non cibles et les arrière-plans. Par ailleurs, afin d’exploiter pleinement les capacités de CLIP, nous réexaminons les entrées textuelles dans le cadre de la WSSS et proposons deux stratégies pilotées par le texte : une sélection de prompts basée sur la netteté et une fusion par synonymes. 2) Pour simplifier l’étape de raffinement des CAM, nous proposons un module d’affinité basé sur une attention consciente de la classe (CAA), en temps réel, fondé sur l’attention auto-entraînée multi-têtes (MHSA) inhérente aux CLIP-ViTs. 3) Lors de l’entraînement du modèle final de segmentation à partir des masques générés par CLIP, nous introduisons une fonction de perte guidée par la confiance (CGL), qui se concentre sur les régions les plus fiables. Notre méthode CLIP-ES atteint des performances de pointe (SOTA) sur Pascal VOC 2012 et MS COCO 2014, tout en nécessitant seulement 10 % du temps des méthodes précédentes pour la génération des masques pseudo-étiquetés. Le code est disponible à l’adresse suivante : https://github.com/linyq2117/CLIP-ES.