HyperAI超神经

大型语言模型预训练中的模型融合

Li, Yunshui ; Ma, Yiyuan ; Yan, Shen ; Zhang, Chaoyi ; Liu, Jing ; Lu, Jianqiao ; Xu, Ziwen ; Chen, Mengzhao ; Wang, Minrui ; Zhan, Shiyi ; Ma, Jin ; Lai, Xunhao ; Luo, Yao ; Bin, Xingyan ; Ren, Hongbin ; Han, Mingji ; Hao, Wenhao ; Yi, Bairen ; Liu, LingJun ; Ma, Bole ; Jia, Xiaoying ; Xun, Zhou ; Xiang, Liang ; Wu, Yonghui
发布日期: 5/21/2025
大型语言模型预训练中的模型融合
摘要

模型融合已成为提升大型语言模型性能的一种有前景的技术,尽管其在大规模预训练中的应用仍相对较少探索。本文对预训练过程中模型融合技术进行了全面的研究。通过针对从数百万到超过100亿参数的密集型和专家混合(Mixture-of-Experts, MoE)架构进行广泛的实验,我们证明了使用恒定学习率训练的检查点合并不仅能够显著提高性能,还能准确预测退火行为。这些改进不仅提高了模型开发的效率,还大幅降低了训练成本。我们对融合策略和超参数进行了详细的消融研究,为理解其底层机制提供了新的见解,并揭示了一些新颖的应用。通过全面的实验分析,我们为开源社区提供了有效的模型融合预训练指南。