17 天前

细粒度视觉分类的渐进式协同注意力网络

Tian Zhang, Dongliang Chang, Zhanyu Ma, Jun Guo
细粒度视觉分类的渐进式协同注意力网络
摘要

细粒度视觉分类旨在识别同一类别下多个子类别的图像,由于这些高度相似类别之间存在细微的内在差异,该任务极具挑战性。现有大多数方法仅以单张图像作为输入,这可能限制了模型从不同图像中捕捉对比性线索的能力。为此,本文提出一种名为渐进式协同注意力网络(Progressive Co-Attention Network, PCA-Net)的有效方法来应对这一问题。具体而言,通过促进同类别图像对内部特征通道之间的交互,计算通道间的相似性,以捕捉共有的判别性特征。同时,考虑到互补信息在识别中的重要性,我们通过抑制由通道交互增强的显著区域,迫使网络关注其他具有判别性的区域。所提出的模型在三个细粒度视觉分类基准数据集(CUB-200-2011、Stanford Cars 和 FGVC Aircraft)上均取得了具有竞争力的性能表现。