
摘要
细粒度分类模型通常在类内方差较大而类间方差较小时,能够明确聚焦于有助于区分高度相似类别的关键细节。大多数此类模型通过使用部件标注(如边界框、位置信息或文本属性)来提升分类性能;另一些模型则采用复杂技术自动提取注意力图以增强特征表达。我们假设,基于部件的方法作为自动裁剪手段,容易丢失局部特征的完整表示,而这些局部特征对于区分相似物体至关重要。相比之下,人类在识别物体时不仅关注细节,还倾向于建立语义关联。本文提出一种新型端到端深度神经网络模型——EnGraf-Net,利用结构化的语义关联(以层级分类体系,即分类学taxonomy形式)作为监督信号。在Cifar-100、CUB-200-2011和FGVC-Aircraft三个知名数据集上的大量实验表明,EnGraf-Net在性能上显著优于多种现有细粒度分类模型,并且在不依赖任何裁剪技术或人工标注的情况下,其表现与当前最先进的模型相当。