17 天前

一种用于细粒度视觉分类的新型插件模块

Po-Yung Chou, Cheng-Hung Lin, Wen-Chung Kao
一种用于细粒度视觉分类的新型插件模块
摘要

视觉分类可分为粗粒度分类与细粒度分类。粗粒度分类处理的是差异较大的类别,例如猫与狗的分类;而细粒度分类则针对差异极小的子类别,如猫的品种、鸟类的种类以及车辆的品牌或型号。与粗粒度视觉分类不同,细粒度视觉分类通常需要专业人员进行数据标注,导致数据标注成本较高。为应对这一挑战,已有诸多方法致力于自动识别最具判别性的图像区域,并利用局部特征提取更精确的表示。这类方法仅需图像级别的标注,从而显著降低了标注成本。然而,大多数现有方法依赖于两阶段或多阶段架构,无法实现端到端训练。为此,本文提出一种新型即插即用模块,可无缝集成于多种主流骨干网络,包括基于CNN或Transformer的模型,以生成具有强判别能力的区域特征。该插件模块能够输出像素级特征图,并通过融合筛选后的特征,有效增强细粒度视觉分类性能。实验结果表明,所提出的插件模块在CUB200-2011和NABirds数据集上分别取得了92.77%和92.83%的分类准确率,显著优于当前最先进的方法。相关源代码已开源,地址为:https://github.com/chou141253/FGVC-PIM.git。

一种用于细粒度视觉分类的新型插件模块 | 最新论文 | HyperAI超神经