2ヶ月前

パラメータの再初期化をサイクリックなバッチサイズスケジュールを通じて行う

Norman Mu; Zhewei Yao; Amir Gholami; Kurt Keutzer; Michael Mahoney
パラメータの再初期化をサイクリックなバッチサイズスケジュールを通じて行う
要約

最適なパラメータ初期化は、ニューラルネットワークの学習において依然として重要な問題である。不適切な重み初期化は、学習に時間がかかり、または非最適解に収束する可能性がある。本稿では、学習過程における反復的なアニーリングとノイズの注入による重みの再初期化方法を提案する。この方法は、ニューラルネットワークの学習に対するベイジアン的視点に基づいたサイクリックなバッチサイズスケジュールによって実装される。我々は言語モデル、自然言語推論、画像分類などのタスクで広範な実験を通じて提案手法を評価した。結果として、我々の手法が言語モデルの性能を最大7.91のペレキシティ(perplexity)向上させるとともに、最大61%の学習イテレーション削減を達成したことを示した。さらに、スナップショットアンサンブルや敵対的訓練との併用にも柔軟に対応できることが確認された。