摘要
细粒度视觉分类旨在对具有高度相似性的子类别进行区分,其面临的主要挑战在于同一子类别内部存在较大的视觉变异,而不同子类别之间则具有极高的视觉相似性。近年来,通过提取具有判别性的区域语义部件的方法受到越来越多关注。然而,现有大多数方法通常通过目标检测模块或注意力机制生成矩形边界框来提取部件特征,这种方式难以充分捕捉物体丰富的形状信息。本文提出一种新型的多粒度部件采样注意力网络(Multi-Granularity Part Sampling Attention, MPSA),用于细粒度视觉分类。首先,设计了一种新颖的多粒度部件回溯模块,用于提取不同尺度下的部件信息,并通过融合不同粒度的判别性部件特征,增强高层特征表示能力。其次,为在每一粒度下有效提取具有不同形状的部件特征,提出部件采样注意力机制,该机制能够全面地在特征图上采样隐式的语义部件。所提出的部件采样注意力不仅考虑了采样部件的重要性,还引入部件丢弃(part dropout)策略,以缓解模型过拟合问题。此外,本文还提出一种新颖的多粒度融合方法,借助梯度类激活图(gradient class activation map)增强前景特征、抑制背景噪声。实验结果表明,所提出的MPSA在四个常用的细粒度视觉分类基准数据集上均取得了当前最优的性能。项目源代码已公开,地址为:https://github.com/mobulan/MPSA。