17日前

大バッチ最適化手法の現実検証：従来型で汎用的な最適化手法はバッチサイズにかかわらず十分である

Zachary Nado, Justin M. Gilmer, Christopher J. Shallue, Rohan Anil, George E. Dahl

要約

近年、大バッチサイズを用いたニューラルネットワークの高速学習を目指して、LARSおよびLAMBという最適化手法が提案された。LARSはHeavy-ballモーメンタムの更新則に層ごとの正規化を導入し、LAMBはAdamの更新則に同様の正規化を適用したものである。これらの手法は、主要なベンチマークやディープラーニングライブラリにおいて広く採用され、高い人気を博している。しかし、標準的な最適化手法との公平な比較が行われていないため、LARSおよびLAMBが従来の汎用的なアルゴリズムに比べて実質的な利点を有しているかどうかは、依然として未解決の問題である。本研究では、NesterovモーメンタムやAdamといった標準的な最適化手法が、大バッチサイズにおいてLARSやLAMBの性能を同等または上回ることを実証した。本成果により、大バッチサイズにおける今後の最適化手法比較のための、より厳密で強力なベースラインが確立された。さらに、ニューラルネットワーク学習における最適化手法の比較の困難さについても、新たな知見が得られた。