
摘要
本文对EfficientNet图像分类器在多种近期训练方法下的性能进行了全面分析,特别关注一种能够校正训练图像与测试图像之间差异的训练策略。由此提出的新型网络结构称为FixEfficientNet,在参数量相同的情况下,显著超越了原始架构的性能表现。例如,我们所提出的无需额外训练数据的FixEfficientNet-B0在ImageNet数据集上达到了79.3%的top-1准确率,参数量仅为530万。这一结果相比使用3亿张未标注图像通过“噪声学生”(Noisy Student)策略训练的EfficientNet-B0,实现了+0.5%的绝对性能提升。此外,一个在3亿张未标注图像上通过弱监督预训练、并进一步结合FixRes优化的EfficientNet-L2模型,在单裁剪(single crop)设置下取得了88.5%的top-1准确率(top-5:98.7%),创下ImageNet任务的新纪录。上述性能提升均在比传统ImageNet评估协议更为严谨的实验设置下进行了系统性验证。特别地,我们证明了所提方法在ImageNet-v2测试集(对过拟合更具鲁棒性)以及ImageNet Real标签数据集上的有效性,两种情况下均建立了新的性能标杆,进一步验证了方法的泛化能力与可靠性。