16 天前

对比语言-图像预训练的可解释性深入分析

Yi Li, Hualiang Wang, Yiqun Duan, Jiheng Zhang, Xiaomeng Li
对比语言-图像预训练的可解释性深入分析
摘要

对比语言-图像预训练(Contrastive Language-Image Pre-training, CLIP)是一种强大的视觉-语言模型,在多种任务中展现出显著优势。然而,我们发现其可解释性方面存在一些问题,这些问题削弱了模型的可信度,并限制了其在相关任务中的应用潜力。具体而言,我们观察到CLIP倾向于关注图像背景区域,而非前景区域,且在可视化结果中,无关位置出现噪声激活现象。这一现象与基于类别注意力图(Class Activation Map, CAM)的传统可解释性方法相悖——后者通过全局监督即可使原始模型准确突出局部前景区域,而无需额外对齐。为解决上述问题,我们深入分析了CLIP的架构与特征表示。经过系统性研究,我们发现原始模型中的自注意力机制(self-attention)关联了语义不一致的区域,从而导致了相反的可视化结果。此外,噪声激活主要源于类别间冗余的特征表示。基于上述发现,我们提出一种名为“CLIP Surgery”的新方法,该方法可在不进行额外微调的前提下,对CLIP的推理架构与特征进行类“手术式”的精细化调整,实现可靠且精准的CAM生成。该方法显著提升了CLIP的可解释性,性能远超现有方法。同时,该方法支持多模态可视化,并在无需额外对齐的情况下,扩展了原始CLIP在开放词汇(open-vocabulary)任务中的能力。相关代码已开源,地址为:https://github.com/xmed-lab/CLIP_Surgery。

对比语言-图像预训练的可解释性深入分析 | 最新论文 | HyperAI超神经