HyperAIHyperAI

Command Palette

Search for a command to run...

ワイドミニマ密度仮説と探索-活用学習率スケジュール

Nikhil Iyer V Thejas Nipun Kwatra Ramachandran Ramjee Muthian Sivathanu

概要

いくつかの論文では、広い極小値(wide minima)の方が狭い極小値(narrow minima)よりも一般化性能が優れていると主張している。本論文では、広い極小値の一般化特性を裏付ける詳細な実験を行うだけでなく、新たな仮説である「広い極小値の密度は狭い極小値の密度よりも低い可能性がある」という主張について、実証的な証拠を提示する。さらに、この仮説をもとに、探索(explore)と活用(exploit)を適切にバランスさせる新しい学習率スケジュールを設計した。画像および自然言語処理の多様なデータセットにおいて、従来の手動で調整された学習率ベースラインと比較して、本手法は、同じ訓練予算で最大0.84%の絶対的精度向上を達成するか、あるいは元の報告された精度を維持しつつ、最大57%の訓練時間短縮を実現できることを示した。たとえば、高性能なモデルの学習率スケジュールをわずかに変更するだけで、IWSLT'14(DE-EN)データセットにおいて、最先端(SOTA)の精度を達成することができた。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
ワイドミニマ密度仮説と探索-活用学習率スケジュール | 記事 | HyperAI超神経