
摘要
弱监督目标定位(WSOL)旨在仅使用图像级标签来定位目标,由于其在实际应用中较低的标注成本而受到广泛关注。近期的研究利用视觉Transformer中的自注意力机制对长距离依赖进行重新激活语义区域,以避免传统类别激活映射(CAM)中的部分激活问题。然而,Transformer中的长距离建模忽略了对象固有的空间一致性,通常会导致语义感知区域扩散到远离对象边界的地方,从而使定位结果显著偏大或偏小。为了解决这一问题,我们引入了一种简单而有效的空间校准模块(SCM),该模块将补丁标记的语义相似性和它们的空间关系整合到一个统一的扩散模型中。具体而言,我们引入了一个可学习的参数,用于动态调整语义相关性和空间上下文强度,以实现有效的信息传播。在实际应用中,SCM被设计为Transformer的一个外部模块,并且可以在推理阶段移除以降低计算成本。通过训练阶段的优化,对象敏感的定位能力被隐式地嵌入到Transformer编码器中。这使得生成的注意力图能够捕捉更清晰的对象边界并过滤掉与对象无关的背景区域。广泛的实验结果证明了所提出方法的有效性,在CUB-200和ImageNet-1K基准测试中显著优于其同类方法TS-CAM。代码可在https://github.com/164140757/SCM 获取。