17 天前

优化视觉Transformer的相关性图有助于提升模型鲁棒性

Hila Chefer, Idan Schwartz, Lior Wolf
优化视觉Transformer的相关性图有助于提升模型鲁棒性
摘要

研究发现,视觉分类模型在实际应用中往往过度依赖图像背景信息,而忽视了前景目标,这一现象导致模型在面对数据分布变化时鲁棒性较差。为缓解这一问题,本文提出通过监控并调控模型的显著性响应信号,引导模型将注意力集中在前景物体上。该方法作为微调步骤,仅需少量样本,每组样本包含一张图像及其对应的前景掩码(foreground mask)。具体而言,我们通过优化策略促使模型的显著性图具备以下特性:(i)降低对背景区域的响应权重;(ii)尽可能充分地利用前景区域的信息;(iii)提升模型决策的置信度。当该方法应用于视觉Transformer(Vision Transformer, ViT)模型时,显著提升了模型在领域迁移(domain shift)场景下的鲁棒性。此外,前景掩码可通过ViT模型自身的自监督变体自动获取,无需额外的人工标注或监督信号,从而实现了端到端的高效优化。