HyperAIHyperAI

Command Palette

Search for a command to run...

平均权重导致更宽的最优解和更好的泛化性能

Pavel Izmailov*1 Dmitrii Podoprikhin*2,3 Timur Garipov*4,5 Dmitry Vetrov2,3 Andrew Gordon Wilson1

摘要

深度神经网络通常通过优化损失函数并结合使用学习率衰减的随机梯度下降(SGD)变体进行训练,直至收敛。我们发现,沿SGD轨迹对多个点进行简单平均,使用循环或恒定的学习率,可以实现比传统训练方法更好的泛化性能。此外,我们还证明了这种随机权重平均(Stochastic Weight Averaging, SWA)过程能够找到比SGD更平坦的解,并且可以用单个模型近似最近提出的快速几何集成(Fast Geometric Ensembling, FGE)方法。利用SWA,我们在CIFAR-10、CIFAR-100和ImageNet数据集上的一系列最先进残差网络、PyramidNets、DenseNets和Shake-Shake网络上实现了显著的测试准确率提升。简而言之,SWA非常易于实现,能够改善泛化性能,并且几乎不会增加计算开销。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供