17日前

ワイドミニマ密度仮説と探索-活用学習率スケジュール

Nikhil Iyer, V Thejas, Nipun Kwatra, Ramachandran Ramjee, Muthian Sivathanu
ワイドミニマ密度仮説と探索-活用学習率スケジュール
要約

いくつかの論文では、広い極小値(wide minima)の方が狭い極小値(narrow minima)よりも一般化性能が優れていると主張している。本論文では、広い極小値の一般化特性を裏付ける詳細な実験を行うだけでなく、新たな仮説である「広い極小値の密度は狭い極小値の密度よりも低い可能性がある」という主張について、実証的な証拠を提示する。さらに、この仮説をもとに、探索(explore)と活用(exploit)を適切にバランスさせる新しい学習率スケジュールを設計した。画像および自然言語処理の多様なデータセットにおいて、従来の手動で調整された学習率ベースラインと比較して、本手法は、同じ訓練予算で最大0.84%の絶対的精度向上を達成するか、あるいは元の報告された精度を維持しつつ、最大57%の訓練時間短縮を実現できることを示した。たとえば、高性能なモデルの学習率スケジュールをわずかに変更するだけで、IWSLT'14(DE-EN)データセットにおいて、最先端(SOTA)の精度を達成することができた。