MiMo:释放语言模型的推理潜力——从预训练到后训练
Xiaomi LLM-Core Team: Bingquan Xia, Bowen Shen, Cici, Dawei Zhu, Di Zhang, Gang Wang et al
发布日期: 5/14/2025

摘要
我们推出了 MiMo-7B,这是一个专为推理任务而生的大型语言模型,并在训练前和训练后阶段进行了优化。在训练前阶段,我们增强了数据预处理流程,并采用三阶段数据混合策略来增强基础模型的推理潜力。MiMo-7B-Base 已在 25 万亿个 token 上进行预训练,并附加了多 token 预测目标,以提升性能并加快推理速度。在训练后阶段,我们整理了一个包含 13 万个可验证数学和编程问题的数据集,用于强化学习,并集成了测试难度驱动的代码奖励方案以缓解稀疏奖励问题,并采用策略性数据重采样来稳定训练。广泛的评估表明,MiMo-7B-Base 拥有卓越的推理潜力,其表现甚至优于规模更大的 32B 模型。最终的强化学习调优模型 MiMo-7B-RL 在数学、代码和通用推理任务上均取得了卓越的性能,超越了 OpenAI o1-mini 的性能。模型检查点可在此 https URL获取。