HyperAIHyperAI

Command Palette

Search for a command to run...

Un regard plus attentif sur l'explicabilité du préentraînement contraste entre langage et image

Yi Li Hualiang Wang Yiqun Duan Jiheng Zhang Xiaomeng Li

Résumé

Le pré-entraînement contrastif langage-image (CLIP) est un modèle puissant de vision-langage qui a démontré des avantages significatifs pour de nombreuses tâches. Toutefois, nous avons identifié certains problèmes liés à son explication (explainability), qui compromettent sa crédibilité et limitent son efficacité dans des applications connexes. Plus précisément, nous constatons que CLIP a tendance à se concentrer sur les régions de fond plutôt que sur les objets principaux, avec des activations bruyantes à des positions non pertinentes dans les visualisations obtenues. Ces phénomènes contredisent les méthodes classiques d'explication fondées sur la carte d'attention de classe (CAM), où le modèle brut peut mettre en évidence les régions locales d'intérêt grâce à une supervision globale, sans nécessiter d'alignement. Pour résoudre ces problèmes, nous analysons attentivement l'architecture et les caractéristiques de CLIP. À partir d'analyses approfondies, nous observons que les auto-attentiones brutes sont associées à des régions sémantiques incohérentes, ce qui entraîne des visualisations inversées. Par ailleurs, les activations bruyantes proviennent de la redondance des caractéristiques entre catégories. À partir de ces observations, nous proposons une méthode appelée CLIP Surgery pour une CAM fiable, qui permet des modifications chirurgicales de l'architecture d'inférence et des caractéristiques, sans nécessiter de fine-tuning supplémentaire comme les méthodes classiques de CAM. Cette approche améliore considérablement l'explicabilité de CLIP, dépassant largement les méthodes existantes. En outre, elle permet une visualisation multimodale et étend la capacité du CLIP brut sur des tâches à vocabulaire ouvert, sans nécessiter d'alignement supplémentaire. Le code est disponible à l'adresse suivante : https://github.com/xmed-lab/CLIP_Surgery.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp