il y a 11 jours

Un regard plus attentif sur l'explicabilité du préentraînement contraste entre langage et image

Yi Li, Hualiang Wang, Yiqun Duan, Jiheng Zhang, Xiaomeng Li

Résumé

Le pré-entraînement contrastif langage-image (CLIP) est un modèle puissant de vision-langage qui a démontré des avantages significatifs pour de nombreuses tâches. Toutefois, nous avons identifié certains problèmes liés à son explication (explainability), qui compromettent sa crédibilité et limitent son efficacité dans des applications connexes. Plus précisément, nous constatons que CLIP a tendance à se concentrer sur les régions de fond plutôt que sur les objets principaux, avec des activations bruyantes à des positions non pertinentes dans les visualisations obtenues. Ces phénomènes contredisent les méthodes classiques d'explication fondées sur la carte d'attention de classe (CAM), où le modèle brut peut mettre en évidence les régions locales d'intérêt grâce à une supervision globale, sans nécessiter d'alignement. Pour résoudre ces problèmes, nous analysons attentivement l'architecture et les caractéristiques de CLIP. À partir d'analyses approfondies, nous observons que les auto-attentiones brutes sont associées à des régions sémantiques incohérentes, ce qui entraîne des visualisations inversées. Par ailleurs, les activations bruyantes proviennent de la redondance des caractéristiques entre catégories. À partir de ces observations, nous proposons une méthode appelée CLIP Surgery pour une CAM fiable, qui permet des modifications chirurgicales de l'architecture d'inférence et des caractéristiques, sans nécessiter de fine-tuning supplémentaire comme les méthodes classiques de CAM. Cette approche améliore considérablement l'explicabilité de CLIP, dépassant largement les méthodes existantes. En outre, elle permet une visualisation multimodale et étend la capacité du CLIP brut sur des tâches à vocabulaire ouvert, sans nécessiter d'alignement supplémentaire. Le code est disponible à l'adresse suivante : https://github.com/xmed-lab/CLIP_Surgery.