HyperAIHyperAI

Command Palette

Search for a command to run...

AI扩展定律:用小型模型预测大型语言模型性能的通用指南

一项由麻省理工学院(MIT)与MIT-IBM沃森人工智能实验室联合开展的新研究,发布了一套通用指南,帮助研究人员基于同一模型家族中的小型模型,更准确地预测大型语言模型(LLM)的性能表现。该研究在2025年国际机器学习会议(ICML 2025)上发表,旨在解决AI开发中成本高昂、资源有限的难题。 构建大型语言模型需耗费数百万美元,因此在决定模型架构、训练数据规模、优化器等关键参数前,必须依赖“缩放定律”(scaling laws)进行性能预估。传统方法通常基于单一模型或数据集构建缩放定律,但缺乏系统性验证。此次研究首次汇集了来自40个模型家族(如LLaMA、Pythia、OPT、Bloom等)的485个预训练模型,涵盖1900万条训练与性能指标,构建了超过1000条缩放定律,并系统评估其预测准确性。 研究团队发现,使用中间训练阶段的检查点(而非仅依赖最终损失值)可显著提升预测可靠性,而训练初期(少于100亿token)的数据噪声较大,应予以剔除。建议开发者至少训练5个不同规模的模型以增强模型鲁棒性。若预算有限,可仅训练目标模型约30%的数据量,即可实现有效预测;也可借用架构相似模型家族的缩放参数,但该方法对编码器-解码器结构模型效果不佳。 研究还揭示,尽管模型家族各异,但其缩放行为存在高度共性——仅五个超参数中的三个即可解释近90%的性能变化,表明不同模型间存在可泛化的规律。更令人意外的是,大型模型的缩放定律竟能反向预测小型模型的表现,推翻了“小模型与大模型本质不同”的假设。 此外,研究团队指出,已有模型的中间训练状态可“免费”用于预测,无需额外训练成本。未来,团队计划将该方法拓展至推理阶段,研究模型“思考时间”与性能的关系,以应对用户每次查询都需动态调整推理强度的实际需求。这一进展有望使AI系统在保证质量的同时,更高效地利用计算资源。

相关链接