HyperAIHyperAI

Command Palette

Search for a command to run...

CLIP est également un segmenteur efficace : une approche pilotée par le texte pour la segmentation sémantique faiblement supervisée

Yuqi Lin Minghao Chen Wenxiao Wang Boxi Wu Ke Li Binbin Lin Haifeng Liu Xiaofei He

Résumé

La segmentation sémantique faiblement supervisée (WSSS) à l’aide d’étiquettes au niveau d’image constitue une tâche particulièrement difficile. Les approches courantes suivent un cadre multi-étapes et souffrent de coûts d’entraînement élevés. Dans cet article, nous explorons le potentiel des modèles de pré-entraînement contraste langage-image (CLIP) pour localiser différentes catégories à partir uniquement d’étiquettes au niveau d’image, sans entraînement supplémentaire. Pour générer efficacement des masques de segmentation de haute qualité à partir de CLIP, nous proposons un nouveau cadre WSSS appelé CLIP-ES. Notre cadre améliore les trois étapes de la WSSS grâce à des conceptions spécifiques adaptées à CLIP : 1) Nous introduisons la fonction softmax dans GradCAM et exploitons la capacité « zero-shot » de CLIP afin de supprimer les ambiguïtés causées par les classes non cibles et les arrière-plans. Par ailleurs, afin d’exploiter pleinement les capacités de CLIP, nous réexaminons les entrées textuelles dans le cadre de la WSSS et proposons deux stratégies pilotées par le texte : une sélection de prompts basée sur la netteté et une fusion par synonymes. 2) Pour simplifier l’étape de raffinement des CAM, nous proposons un module d’affinité basé sur une attention consciente de la classe (CAA), en temps réel, fondé sur l’attention auto-entraînée multi-têtes (MHSA) inhérente aux CLIP-ViTs. 3) Lors de l’entraînement du modèle final de segmentation à partir des masques générés par CLIP, nous introduisons une fonction de perte guidée par la confiance (CGL), qui se concentre sur les régions les plus fiables. Notre méthode CLIP-ES atteint des performances de pointe (SOTA) sur Pascal VOC 2012 et MS COCO 2014, tout en nécessitant seulement 10 % du temps des méthodes précédentes pour la génération des masques pseudo-étiquetés. Le code est disponible à l’adresse suivante : https://github.com/linyq2117/CLIP-ES.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
CLIP est également un segmenteur efficace : une approche pilotée par le texte pour la segmentation sémantique faiblement supervisée | Articles | HyperAI