Command Palette
Search for a command to run...
重みの平均化は最適解の範囲を広げ、更好的概括性能を向上させる。
重みの平均化は最適解の範囲を広げ、更好的概括性能を向上させる。
Pavel Izmailov*1 Dmitrii Podoprikhin*2,3 Timur Garipov*4,5 Dmitry Vetrov2,3 Andrew Gordon Wilson1
概要
深層ニューラルネットワークは通常、損失関数をSGD(確率的勾配降下法)の変種で最適化し、学習率を減衰させながら収束するまで訓練されます。本研究では、SGDの軌跡上の複数の点を単純に平均化することにより、周期的なまたは一定の学習率を使用した場合、従来の訓練方法よりも良い汎化性能が得られることを示しています。また、この確率的重み平均(Stochastic Weight Averaging: SWA)手法は、SGDよりもずっと平坦な解を見つけ出し、最近提唱された高速幾何アンサンブル(Fast Geometric Ensembling: FGE)アプローチを単一モデルで近似することが可能であることを示しています。SWAを使用することで、CIFAR-10、CIFAR-100、およびImageNetにおいて最新の残差ネットワーク、PyramidNets、DenseNets、Shake-Shakeネットワークでのテスト精度に顕著な改善が見られます。要するに、SWAは実装が非常に簡単であり、汎化性能を向上させるとともに、計算コストもほとんどかかりません。