17 天前

细粒度视觉分类与目标重识别的双交叉注意力学习

Haowei Zhu, Wenjing Ke, Dong Li, Ji Liu, Lu Tian, Yi Shan
细粒度视觉分类与目标重识别的双交叉注意力学习
摘要

近年来,自注意力机制在多种自然语言处理(NLP)与计算机视觉(CV)任务中展现出卓越的性能,能够有效捕捉序列特征并提取全局信息。在本工作中,我们探讨如何将自注意力模块进一步拓展,以更好地学习细微特征嵌入,从而实现细粒度物体的准确识别,例如不同鸟类物种或个体身份的区分。为此,我们提出了一种双交叉注意力学习(Dual Cross-Attention Learning, DCAL)算法,用以协同优化自注意力学习过程。首先,我们提出了全局-局部交叉注意力(Global-Local Cross-Attention, GLCA),旨在增强图像全局信息与局部高响应区域之间的交互,从而强化空间维度上的判别性线索,提升识别能力。其次,我们设计了成对交叉注意力(Pair-wise Cross-Attention, PWCA),用于建立图像对之间的交互关系。PWCA通过将一张图像视为另一张图像的干扰项(distractor)来对注意力学习进行正则化,且该机制在推理阶段会被移除,避免引入额外计算开销。实验观察表明,DCAL能够有效减少误导性注意力分布,并使注意力响应更加分散,从而发现更多互补的视觉区域以辅助识别。我们在细粒度视觉分类与物体重识别任务上进行了广泛的实验验证。结果表明,DCAL在性能上达到当前先进方法的水平,并持续提升了多个自注意力基线模型的表现。例如,在MSMT17数据集上,DCAL分别在DeiT-Tiny和ViT-Base基础上提升了2.8%和2.4%的mAP指标。