
摘要
细粒度图像识别由于难以同时捕捉语义上的全局特征与具有区分性的局部特征而极具挑战性。与此同时,这两类特征的融合并不容易,甚至在联合使用时存在冲突。为此,本文提出一种基于检索的粗到精框架,通过利用局部区域增强的嵌入特征对TopN分类结果进行重排序,从而提升Top1准确率(基于“正确类别通常位于TopN结果中”这一观察)。为提取用于区分细粒度图像的判别性区域,我们引入一种弱监督方法,仅使用图像级别标签训练一个边界框生成分支。此外,为进一步学习更具表现力的语义全局特征,我们设计了一种基于自动构建的层次化类别结构的多层级损失函数。实验结果表明,所提方法在三个基准数据集(CUB-200-2011、Stanford Cars和FGVC Aircraft)上均达到了当前最优性能。同时,本文还提供了可视化结果与深入分析,以增强方法的可解释性与理解。