
摘要
视觉注意力机制并不总是能够捕捉到用于实现鲁棒预测所必需的关键物体表征。注意力模块在训练过程中往往会强化目标物体本身,同时也会关注那些频繁共现的上下文信息,而这些上下文被模块视为有助于预测的有用线索。这一问题的根源在于上下文带来的混淆效应,导致物体与预测结果之间产生错误的因果关联,而视觉注意力机制进一步加剧了这种偏差。为此,本文提出一种新颖的注意力模块——干预式双注意力(Interventional Dual Attention, IDA),用于学习对上下文偏差具有鲁棒性的因果物体特征。具体而言,IDA采用两层注意力结构,并结合多采样干预机制,有效缓解了注意力机制对混淆性上下文的过度依赖。值得注意的是,该方法具有模型无关性(model-agnostic),可灵活应用于多种骨干网络。大量实验结果表明,所提模型在分类与检测任务中均取得了显著性能提升,且计算开销更低。尤其在MS-COCO和PASCAL-VOC数据集上的多标签分类任务中,我们的方法达到了当前最优(state-of-the-art)性能。