
摘要
探索和挖掘外观相似的子类别之间细微但独特的特征对于细粒度视觉分类(FGVC)至关重要。然而,对于提取的视觉表示的质量评估,研究投入相对较少。直观上,网络可能难以从低质量样本中捕捉到区分性特征,这会导致FGVC性能显著下降。为了解决这一挑战,我们提出了一种弱监督的上下文语义质量感知网络(CSQA-Net)用于FGVC。在该网络中,为了建模丰富的局部描述符与全局语义之间的空间上下文关系,从而捕获对象内部更多的区分性细节,我们设计了一个新颖的多部分多尺度交叉注意力模块(MPMSCA)。在输入MPMSCA模块之前,开发了局部导航器以解决尺度混淆问题并准确识别局部独特区域。此外,我们提出了一种通用的多层次语义质量评估模块(MLSQE),以逐步监督和增强骨干网络不同层次的层次语义。最后,来自MPMSCA的上下文感知特征和来自MLSQE的语义增强特征被输入相应的质量探测分类器进行实时评估,从而提高特征表示的区分能力。在四个流行且竞争激烈的FGVC数据集上的全面实验表明,所提出的CSQA-Net相比现有方法具有优越性。