17日前

適応型最適化におけるチューニングなしウォームアップの十分性について

Jerry Ma, Denis Yarats
適応型最適化におけるチューニングなしウォームアップの十分性について
要約

Adamのような適応型最適化アルゴリズムは、深層学習において広く用いられている。このようなアルゴリズムの安定性は、学習率に対してウォームアップスケジュールを導入することでしばしば向上する。しかし、ウォームアップスケジュールの選定および調整が困難であることに着目し、最近の研究ではAdamの適応型学習率に対する自動的な分散補正(「RAdam」と呼ばれる)が提案された。この補正手法は、従来のAdamアルゴリズムを上回り、ウォームアップを伴うAdamの高コストな調整の必要性を軽減すると主張している。本研究では、この分析を否定し、訓練の安定性により関連性の高い更新項の大きさに基づく、ウォームアップの必要性に関する代替的説明を提示する。さらに、実用的な場面で有用な「目安」としてのウォームアップスケジュールを提示し、典型的な実践的設定において、調整なしの単純なウォームアップを施したAdamが、RAdamとほぼ同等の性能を発揮することを実証する。結論として、実務家はAdamと併用する際、線形ウォームアップを採用することを推奨する。その際の合理的なデフォルトとして、$2 / (1 - β_2)$回の訓練イテレーションにわたる線形ウォームアップを提案する。

適応型最適化におけるチューニングなしウォームアップの十分性について | 最新論文 | HyperAI超神経