HyperAI超神经

一项由麻省理工学院（MIT）与MIT-IBM沃森人工智能实验室联合开展的新研究，发布了一套通用指南，帮助研究人员基于同一模型家族中的小型模型，更准确地预测大型语言模型（LLM）的性能表现。该研究在2025年国际机器学习会议（ICML 2025）上发表，旨在解决AI开发中成本高昂、资源有限的难题。构建大型语言模型需耗费数百万美元，因此在决定模型架构、训练数据规模、优化器等关键参数前，必须依赖“缩放定律”（scaling laws）进行性能预估。传统方法通常基于单一模型或数据集构建缩放定律，但缺乏系统性验证。此次研究首次汇集了来自40个模型家族（如LLaMA、Pythia、OPT、Bloom等）的485个预训练模型，涵盖1900万条训练与性能指标，构建了超过1000条缩放定律，并系统评估其预测准确性。研究团队发现，使用中间训练阶段的检查点（而非仅依赖最终损失值）可显著提升预测可靠性，而训练初期（少于100亿token）的数据噪声较大，应予以剔除。建议开发者至少训练5个不同规模的模型以增强模型鲁棒性。若预算有限，可仅训练目标模型约30%的数据量，即可实现有效预测；也可借用架构相似模型家族的缩放参数，但该方法对编码器-解码器结构模型效果不佳。研究还揭示，尽管模型家族各异，但其缩放行为存在高度共性——仅五个超参数中的三个即可解释近90%的性能变化，表明不同模型间存在可泛化的规律。更令人意外的是，大型模型的缩放定律竟能反向预测小型模型的表现，推翻了“小模型与大模型本质不同”的假设。此外，研究团队指出，已有模型的中间训练状态可“免费”用于预测，无需额外训练成本。未来，团队计划将该方法拓展至推理阶段，研究模型“思考时间”与性能的关系，以应对用户每次查询都需动态调整推理强度的实际需求。这一进展有望使AI系统在保证质量的同时，更高效地利用计算资源。

相关链接

相关链接

相关链接

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

Command Palette

AI扩展定律：用小型模型预测大型语言模型性能的通用指南

相关链接

Command Palette

AI扩展定律：用小型模型预测大型语言模型性能的通用指南

相关链接

Command Palette

AI扩展定律：用小型模型预测大型语言模型性能的通用指南

相关链接

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟