17 天前

大规模批量优化器的现实检验：在不同批量大小下，传统的通用优化器已足够

Zachary Nado, Justin M. Gilmer, Christopher J. Shallue, Rohan Anil, George E. Dahl

摘要

近期，LARS 和 LAMB 优化器被提出，用于在使用大批次（large batch sizes）训练神经网络时实现更快的收敛速度。LARS 和 LAMB 分别在 Heavy-ball 动量法和 Adam 优化器的更新规则中引入了逐层归一化（layer-wise normalization），并已在多个主流基准测试和深度学习框架中得到广泛应用。然而，由于缺乏与标准优化器的公平对比，目前尚不清楚 LARS 和 LAMB 是否在性能上确实优于传统的通用优化算法。在本项工作中，我们证明，在大批次设置下，诸如 Nesterov 动量法和 Adam 等标准优化算法能够达到甚至超越 LARS 和 LAMB 的性能表现。我们的研究结果为未来在大批次场景下的优化器比较建立了更为严格、更强的基准线，并进一步揭示了在神经网络训练中进行优化器比较所面临的普遍挑战。