17 天前

自适应优化中未调优预热策略的充分性

Jerry Ma, Denis Yarats
自适应优化中未调优预热策略的充分性
摘要

自适应优化算法(如 Adam)在深度学习中被广泛使用。通常,通过为学习率设置预热(warmup)策略,可以提升这类算法的稳定性。然而,由于预热策略的选择与调参过程复杂且耗时,近期研究提出了一种自动方差校正机制,用于修正 Adam 算法的自适应学习率,声称该改进方法(“RAdam”)优于原始 Adam 算法,并显著降低了对结合预热策略的 Adam 进行昂贵调参的需求。本文对上述分析提出质疑,并基于更新项的大小(magnitude of the update term)提出了一个更具相关性的替代解释,说明预热机制在保障训练稳定性中的必要性。在此基础上,我们给出若干“经验法则”式的预热策略建议,并通过实验证明:在典型的实际应用场景中,对 Adam 进行简单、无需调参的预热处理,其性能与 RAdam 几乎相当。综上所述,我们建议实践者在使用 Adam 时,采用线性预热策略,其合理默认设置为在 $2 / (1 - β_2)$ 个训练迭代内完成线性预热。