
摘要
细粒度视觉分类(Fine-grained Visual Classification, FGVC)是一项具有挑战性的任务,其主要难点在于类别间差异细微,而同一类别内部样本之间的差异却十分显著。为应对这些挑战,以往的方法主要聚焦于定位类别间的细微差异,并增强特征的判别能力。然而,背景信息同样蕴含重要线索,能够帮助模型识别哪些特征对于分类是冗余甚至有害的;若模型过度依赖局部细微特征,可能会忽略全局上下文信息和整体结构特征。为此,本文提出一种新型网络结构——“高温度精炼与背景抑制”(High-temperature Refinement and Background Suppression, HERBS),该网络由两个核心模块构成:高温度精炼模块与背景抑制模块。前者通过在不同尺度上对特征图进行精细化处理,引导模型学习适切的特征尺度,从而提升对多样化特征的建模能力;后者则利用分类置信度得分将特征图划分为前景与背景区域,对低置信度区域的特征值进行抑制,同时强化具有判别性的特征表达。实验结果表明,所提出的HERBS方法能够有效融合多尺度特征,显著抑制背景噪声,并在合适尺度上提取出更具判别力的特征,显著提升细粒度视觉分类性能。在CUB-200-2011与NABirds两个主流基准数据集上,该方法均取得了当前最优的分类准确率,均超过93%。因此,HERBS为提升细粒度视觉分类任务的性能提供了一种极具前景的解决方案。代码开源地址:https://github.com/chou141253/FGVC-HERBS