
摘要
细粒度视觉分类(Fine-Grained Visual Categorization, FGVC)的核心在于学习细微但具有判别性的特征。以往大多数方法通过显式选择判别性局部区域,或在基于卷积神经网络(CNN)的框架中引入注意力机制来实现这一目标。然而,这些方法往往增加了计算复杂度,并导致模型过度依赖包含物体主体的区域,从而忽略了其他潜在关键信息。近年来,视觉Transformer(Vision Transformer, ViT)在通用图像识别任务中取得了最先进的性能。其自注意力机制能够将所有图像块(patch)的信息聚合并加权至分类令牌(classification token),因而非常适合FGVC任务。然而,在深层网络中,分类令牌更关注全局信息,而缺乏FGVC任务所必需的局部细节与低层次特征。针对上述问题,本文提出一种全新的纯Transformer架构——特征融合视觉Transformer(Feature Fusion Vision Transformer, FFVT)。该方法通过从每一层Transformer中聚合关键令牌(important tokens),以补充模型在局部、低层次及中层特征上的缺失。为此,我们设计了一种新颖的令牌选择模块——互注意力权重选择(Mutual Attention Weight Selection, MAWS),该模块能够高效且有效地引导网络选择具有判别性的令牌,且无需引入额外参数。我们在三个基准数据集上验证了FFVT的有效性,实验结果表明,该方法在各项指标上均达到了当前最优(state-of-the-art)性能。