HyperAI超神经

缪子在预训练中的实际效率

Essential AI, Ishaan Shah, Anthony M. Polloreno, Karl Stratos, Philip Monk, Adarsh Chaluvaraju, Andrew Hojel, Andrew Ma, Anil Thomas, Ashish Tanwer, Darsh J Shah, Khoi Nguyen, Kurt Smith, Michael Callahan, Michael Pust, Mohit Parmar, Peter Rushton, Platon Mazarakis, Ritvik Kapila, Saurabh Srivastava, Somanshu Singla, Tim Romanski, Yash Vanjani, Ashish Vaswani
发布日期: 5/7/2025
缪子在预训练中的实际效率
摘要

我们证明了Muon作为二阶优化器最简单的实例,在计算时间权衡方面明确扩展了相对于AdamW的帕累托前沿。研究发现,Muon在大批次规模下保留数据效率的能力优于AdamW,远超所谓的临界批次规模,同时保持了计算效率,从而实现了更加经济的训练。我们探讨了Muon与最大更新参数化(muP)的结合,以实现高效的超参数迁移,并提出了一种简单的望远镜算法,该算法能够考虑muP中的所有误差来源,而仅引入适度的资源开销。通过模型规模高达四十亿参数的广泛实验以及对数据分布和架构的消融分析,我们验证了我们的研究结果。