构建AI扩展定律:实现高效大语言模型训练与预算效益最大化
在构建大型语言模型(LLM)时,如何在有限的计算和财务预算下实现性能最大化,是研究者面临的核心挑战。训练一个大型模型可能耗资数百万美元,因此必须审慎决策模型架构、优化器、训练数据集等关键因素。为预测大模型的性能,研究人员通常依赖“缩放定律”——通过训练较小、成本更低的模型,来推断大规模目标模型的表现。然而,由于存在数千种构建缩放定律的方法,如何选择最优路径成为难题。 麻省理工学院(MIT)与MIT-IBM沃森人工智能实验室的研究团队提出了一种系统性解决方案。他们收集并公开了来自40个模型家族(如Pythia、OPT、LLaMA、Bloom、GPT等)的485个预训练模型,涵盖190万项性能指标,包括损失值、下游任务表现、训练检查点、计算成本(FLOPs)和训练轮次等。基于这些数据,团队拟合了超过1000条缩放定律,并系统分析了其在不同架构、模型规模和训练策略下的预测准确性。 研究发现,缩放定律的预测误差(绝对相对误差,ARE)在4%左右已接近理论极限(受随机种子噪声影响),而20%以内的误差仍可用于关键决策。提升预测精度的关键包括:使用中间训练阶段的检查点而非仅依赖最终损失值;剔除训练初期(少于100亿token)的噪声数据;在不同规模模型间均匀分布训练样本,建议至少训练5个模型以增强鲁棒性;对目标模型进行部分训练(约30%数据量)即可实现有效外推,节省成本。 此外,研究揭示了多个意外发现:部分训练的小模型仍具备强预测能力;已训练完成的大模型的中间阶段可直接作为独立模型用于预测;跨模型家族的缩放定律存在高度相关性,仅需三个关键超参数即可解释大部分性能变化。这些发现打破了“小模型与大模型行为本质不同”的假设,表明它们共享统一的缩放规律。 研究团队还指出,未来可将该方法拓展至推理阶段——即模型“思考”时间的缩放规律。随着用户每次查询都需动态决策推理成本,构建预测模型以优化运行时资源分配将变得愈发重要。 该工作由MIT-IBM沃森AI实验室及斯隆研究奖资助,为AI研究者提供了可操作、可复现的缩放定律构建指南,显著提升了模型训练效率与资源利用的科学性,助力在预算约束下实现最优性能。