
摘要
最近提出的时序集成(Temporal Ensembling)方法在多个半监督学习基准测试中取得了最先进的结果。该方法对每个训练样本的标签预测值维护一个指数移动平均值,并对与该目标不一致的预测进行惩罚。然而,由于目标仅在每个epoch结束时更新一次,因此在处理大规模数据集时,时序集成变得难以管理。为了解决这一问题,我们提出了一种名为均值教师(Mean Teacher)的方法,该方法对模型权重进行平均而不是标签预测值。此外,均值教师提高了测试准确性,并且能够在比时序集成更少的标签下进行训练。在不改变网络架构的情况下,均值教师在使用250个标签的SVHN数据集上实现了4.35%的错误率,优于使用1000个标签训练的时序集成。我们还表明,良好的网络架构对于性能至关重要。通过结合均值教师和残差网络(Residual Networks),我们将CIFAR-10数据集上使用4000个标签的最先进错误率从10.55%降低到6.28%,并在ImageNet 2012数据集上使用10%的标签将错误率从35.24%降低到9.11%。