Command Palette
Search for a command to run...
平均权重导致更宽的最优解和更好的泛化性能
平均权重导致更宽的最优解和更好的泛化性能
Pavel Izmailov*1 Dmitrii Podoprikhin*2,3 Timur Garipov*4,5 Dmitry Vetrov2,3 Andrew Gordon Wilson1
摘要
深度神经网络通常通过优化损失函数并结合使用学习率衰减的随机梯度下降(SGD)变体进行训练,直至收敛。我们发现,沿SGD轨迹对多个点进行简单平均,使用循环或恒定的学习率,可以实现比传统训练方法更好的泛化性能。此外,我们还证明了这种随机权重平均(Stochastic Weight Averaging, SWA)过程能够找到比SGD更平坦的解,并且可以用单个模型近似最近提出的快速几何集成(Fast Geometric Ensembling, FGE)方法。利用SWA,我们在CIFAR-10、CIFAR-100和ImageNet数据集上的一系列最先进残差网络、PyramidNets、DenseNets和Shake-Shake网络上实现了显著的测试准确率提升。简而言之,SWA非常易于实现,能够改善泛化性能,并且几乎不会增加计算开销。