17 天前

ELoPE:基于高效定位、池化与嵌入的细粒度视觉分类

Harald Hanselmann, Hermann Ney
ELoPE:基于高效定位、池化与嵌入的细粒度视觉分类
摘要

细粒度视觉分类(Fine-Grained Visual Classification, FGVC)任务旨在解决类别间差异极小的分类问题,例如区分不同鸟类物种或汽车型号。当前最先进的方法通常通过在标准卷积神经网络(CNN)中集成复杂的注意力机制或(部分)定位方法来应对这一挑战。本文同样致力于提升骨干网络(如ResNet)的性能,通过引入三个专为FGVC任务设计的高效且轻量级组件实现。这三个组件分别为:全局k-最大池化(global k-max pooling)、通过优化类别均值进行训练的判别性嵌入层,以及仅需类别标签即可训练的高效边界框估计器。实验结果表明,所提出的模型在Stanford Cars和FGVC-Aircraft两个数据集上均取得了新的最先进识别准确率。