3 个月前

基于高效端到端定位的细粒度视觉分类

Harald Hanselmann, Hermann Ney
基于高效端到端定位的细粒度视觉分类
摘要

细粒度视觉分类(Fine-Grained Visual Classification, FGVC)指的是一类类别之间差异极小的分类任务,分类模型需能够识别细微差别以实现准确预测。当前最先进的方法通常包含一个定位模块,旨在通过定位输入图像中的相关局部区域来辅助分类网络。然而,这类方法通常需要多次迭代或对完整分类网络进行多轮前向传播,或依赖复杂的训练策略。本文提出了一种高效的定位模块,可与分类网络以端到端的方式无缝融合。该模块一方面通过来自分类网络的反向传播梯度进行训练,另一方面引入两种自监督损失函数,以进一步提升定位精度。我们在三个基准数据集CUB200-2011、Stanford Cars和FGVC-Aircraft上对所提模型进行了评估,结果表明其在识别性能上达到了具有竞争力的水平。