摘要
尽管在细粒度视觉分类(Fine-Grained Visual Classification, FGVC)任务上已取得显著进展,严重的过拟合问题仍然制约着模型的泛化能力。近期研究表明,训练集中的困难样本(hard samples)容易被模型拟合,但大多数现有FGVC方法在测试集上仍难以正确分类部分困难样本。其根本原因在于:模型在训练过程中对训练集中的困难样本产生了过拟合,却未能学习到对未见样本的泛化能力。为此,本文提出一种适度困难样本调制(Moderate Hard Example Modulation, MHEM)策略,旨在对困难样本进行合理调控,以防止模型过度拟合,从而提升模型的泛化性能与判别能力。具体而言,本文首先提出三个关键条件,并构建了一种通用形式的调制损失函数。随后,基于该框架实例化损失函数,构建了一个强大的FGVC基准模型,使得基础骨干网络(naive backbone)的性能显著提升,达到与当前先进方法相媲美的水平。此外,本文进一步证明,所提出的基准模型可无缝集成至现有方法中,有效增强这些方法的判别能力。在三个典型的FGVC数据集——CUB-200-2011、Stanford Cars和FGVC-Aircraft上,结合该强基准模型后,均实现了稳定且一致的性能提升。我们期望“适度困难样本调制”这一思想能够为未来细粒度视觉识别研究提供新的思路,推动更高效、更鲁棒的细粒度分类方法的发展。