17 天前

自适应优化中未调优预热策略的充分性

Jerry Ma, Denis Yarats

摘要

自适应优化算法（如 Adam）在深度学习中被广泛使用。通常，通过为学习率设置预热（warmup）策略，可以提升这类算法的稳定性。然而，由于预热策略的选择与调参过程复杂且耗时，近期研究提出了一种自动方差校正机制，用于修正 Adam 算法的自适应学习率，声称该改进方法（“RAdam”）优于原始 Adam 算法，并显著降低了对结合预热策略的 Adam 进行昂贵调参的需求。本文对上述分析提出质疑，并基于更新项的大小（magnitude of the update term）提出了一个更具相关性的替代解释，说明预热机制在保障训练稳定性中的必要性。在此基础上，我们给出若干“经验法则”式的预热策略建议，并通过实验证明：在典型的实际应用场景中，对 Adam 进行简单、无需调参的预热处理，其性能与 RAdam 几乎相当。综上所述，我们建议实践者在使用 Adam 时，采用线性预热策略，其合理默认设置为在 $2 / (1 - β_2)$ 个训练迭代内完成线性预热。