通过梯度分组缩放学习率来驯服大语言模型(LLMs)
Siyuan Li, Juanxi Tian, Zedong Wang, Xin Jin, Zicheng Liu, Wentao Zhang, Dan Xu
发布日期: 6/3/2025

摘要
训练大型语言模型(LLMs)面临诸多挑战,主要是由于其巨大的规模和异构架构。尽管自适应优化器如AdamW有助于解决梯度变化问题,但在高效且精确地估计参数级学习率方面仍存在困难,导致训练不稳定、收敛速度慢以及与参数高效的微调(PEFT)技术兼容性差。本研究引入了一种称为基于梯度分组的缩放(SGG)的优化器包装器,通过动态分组和特定组别的缩放来改进自适应学习率估计。SGG首先将每一层中的梯度统计信息聚类为多个簇,然后应用特定簇别的缩放来校准每个参数的学习率,从而在保持精确的参数级适应的同时施加集体的组别约束。在多种(M)LLM基准测试上的实验表明,SGG能够无缝集成到现有的优化器中,并在不同模型尺寸下提供一致的性能提升和更快的收敛速度。其在不同批次大小和学习率下的稳定性使SGG成为大型语言模型优化的一个稳健选择。