9ヶ月前

ニューラルネットワーク

畳み込みニューラルネットワーク

Pavel Izmailov1 Dmitrii Podoprikhin2,3 Timur Garipov*4,5 Dmitry Vetrov2,3 Andrew Gordon Wilson1

概要

深層ニューラルネットワークは通常、損失関数をSGD（確率的勾配降下法）の変種で最適化し、学習率を減衰させながら収束するまで訓練されます。本研究では、SGDの軌跡上の複数の点を単純に平均化することにより、周期的なまたは一定の学習率を使用した場合、従来の訓練方法よりも良い汎化性能が得られることを示しています。また、この確率的重み平均（Stochastic Weight Averaging: SWA）手法は、SGDよりもずっと平坦な解を見つけ出し、最近提唱された高速幾何アンサンブル（Fast Geometric Ensembling: FGE）アプローチを単一モデルで近似することが可能であることを示しています。SWAを使用することで、CIFAR-10、CIFAR-100、およびImageNetにおいて最新の残差ネットワーク、PyramidNets、DenseNets、Shake-Shakeネットワークでのテスト精度に顕著な改善が見られます。要するに、SWAは実装が非常に簡単であり、汎化性能を向上させるとともに、計算コストもほとんどかかりません。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

9ヶ月前

ニューラルネットワーク

畳み込みニューラルネットワーク

Pavel Izmailov1 Dmitrii Podoprikhin2,3 Timur Garipov*4,5 Dmitry Vetrov2,3 Andrew Gordon Wilson1

概要

深層ニューラルネットワークは通常、損失関数をSGD（確率的勾配降下法）の変種で最適化し、学習率を減衰させながら収束するまで訓練されます。本研究では、SGDの軌跡上の複数の点を単純に平均化することにより、周期的なまたは一定の学習率を使用した場合、従来の訓練方法よりも良い汎化性能が得られることを示しています。また、この確率的重み平均（Stochastic Weight Averaging: SWA）手法は、SGDよりもずっと平坦な解を見つけ出し、最近提唱された高速幾何アンサンブル（Fast Geometric Ensembling: FGE）アプローチを単一モデルで近似することが可能であることを示しています。SWAを使用することで、CIFAR-10、CIFAR-100、およびImageNetにおいて最新の残差ネットワーク、PyramidNets、DenseNets、Shake-Shakeネットワークでのテスト精度に顕著な改善が見られます。要するに、SWAは実装が非常に簡単であり、汎化性能を向上させるとともに、計算コストもほとんどかかりません。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています