HyperAIHyperAI

Command Palette

Search for a command to run...

重みの平均化は最適解の範囲を広げ、更好的概括性能を向上させる。

Pavel Izmailov*1 Dmitrii Podoprikhin*2,3 Timur Garipov*4,5 Dmitry Vetrov2,3 Andrew Gordon Wilson1

概要

深層ニューラルネットワークは通常、損失関数をSGD(確率的勾配降下法)の変種で最適化し、学習率を減衰させながら収束するまで訓練されます。本研究では、SGDの軌跡上の複数の点を単純に平均化することにより、周期的なまたは一定の学習率を使用した場合、従来の訓練方法よりも良い汎化性能が得られることを示しています。また、この確率的重み平均(Stochastic Weight Averaging: SWA)手法は、SGDよりもずっと平坦な解を見つけ出し、最近提唱された高速幾何アンサンブル(Fast Geometric Ensembling: FGE)アプローチを単一モデルで近似することが可能であることを示しています。SWAを使用することで、CIFAR-10、CIFAR-100、およびImageNetにおいて最新の残差ネットワーク、PyramidNets、DenseNets、Shake-Shakeネットワークでのテスト精度に顕著な改善が見られます。要するに、SWAは実装が非常に簡単であり、汎化性能を向上させるとともに、計算コストもほとんどかかりません。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています