2 个月前

有许多一致的未标记数据解释:为什么你应该取平均值

Ben Athiwaratkun; Marc Finzi; Pavel Izmailov; Andrew Gordon Wilson
有许多一致的未标记数据解释:为什么你应该取平均值
摘要

目前,半监督学习中最成功的方法是基于一致性正则化,即通过训练模型使其对输入数据和参数的小扰动具有鲁棒性。为了理解一致性正则化,我们从概念上探讨了损失几何与训练过程之间的相互作用。一致性损失显著提高了泛化性能,超越了仅使用有监督训练的结果;然而,我们发现随机梯度下降(SGD)在收敛于一致性损失时存在困难,并且会继续进行较大的步骤,导致测试数据上的预测发生变化。基于这些观察结果,我们提出使用随机权重平均(Stochastic Weight Averaging, SWA)来训练基于一致性的方法,这是一种最近提出的通过修改学习率调度来沿SGD轨迹平均权重的技术。此外,我们还提出了快速SWA(fast-SWA),该方法通过在循环学习率调度的每个周期内平均多个点进一步加速收敛。通过权重平均技术,我们在CIFAR-10和CIFAR-100数据集上取得了已知的最佳半监督学习结果,无论标签训练数据的数量如何。例如,在仅有4000个标签的情况下,我们在CIFAR-10上实现了5.0%的错误率,而文献中此前的最佳结果为6.3%。

有许多一致的未标记数据解释:为什么你应该取平均值 | 最新论文 | HyperAI超神经