18 天前

用于细粒度分类的注意力成对交互学习

Peiqin Zhuang, Yali Wang, Yu Qiao
用于细粒度分类的注意力成对交互学习
摘要

细粒度分类是一个具有挑战性的问题,其难点在于类别之间存在细微的差异,极易混淆。现有大多数方法通过学习单个输入图像的判别性特征表示来应对这一挑战。然而,人类在识别时往往能够通过对比图像对来有效捕捉差异性线索。受此启发,本文提出了一种简单而有效的注意力配对交互网络(Attentive Pairwise Interaction Network, API-Net),该网络通过图像间的逐步交互,实现对细粒度图像对的渐进式识别。具体而言,API-Net首先学习一个共享的互特征向量,用于捕捉输入图像对之间的语义差异;随后,将该互特征向量与每张图像的独立特征向量进行比较,生成用于调控每张图像的门控向量。这些具有差异性语义上下文的门控向量,使API-Net能够通过图像对之间的注意力交互,精准捕捉对比性线索。此外,本文采用端到端的方式训练API-Net,并引入分数排序正则化(score ranking regularization),使模型在训练过程中能够考虑特征的重要性优先级,从而进一步提升泛化能力。我们在五个主流的细粒度分类基准数据集上进行了广泛实验,包括CUB-200-2011(90.0%)、Aircraft(93.9%)、Stanford Cars(95.3%)、Stanford Dogs(90.3%)以及NABirds(88.1%)。实验结果表明,API-Net在各项指标上均优于当前最先进的方法,验证了其有效性与优越性。