HyperAI

2026年2月12日，上海企业MiniMax在港股上市仅一个月后，推出其最新大模型M2.5。该模型在多项关键指标上表现亮眼：SWE-Bench Verified得分80.2%，Multi-SWE-Bench达51.3%（排名第一），BrowseComp达76.3%，与Claude Opus 4.6和GPT-5.2等顶尖模型处于同一水平。更引人注目的是，其运行成本仅为每小时1美元（以每秒100个token的持续负载计算），堪称当前最经济的前沿模型之一。 M2.5延续M2系列架构，采用2300亿总参数的混合专家（MoE）设计，但每轮推理仅激活100亿参数，显著降低计算开销。其API提供“闪电版”和“标准版”，前者吞吐量是同类模型的两倍，后者价格极具竞争力。相较之下，Claude Opus 4.6输入单价为5美元/百万token，输出高达25美元/百万token；而新发布的GLM-5也达1美元/百万token输入，远高于M2.5。该模型不仅擅长编程，还能处理Word、Excel、PowerPoint等完整办公场景。其训练基于20万+真实世界环境中的大规模强化学习，覆盖Python、Go、C++、Rust、Java等十余种语言。在多轮函数调用任务中，M2.5以76.8%的得分领先Opus 4.6超13个百分点，较M2.1提升39.4分，显示其在复杂工具链使用上的飞跃。技术核心在于MiniMax自研的“Forge”强化学习框架，一种“代理原生”的训练体系。其关键在于将训练引擎与代理框架解耦，使模型能跨不同工具接口泛化，避免过拟合。为实现高效训练，MiniMax提出三项创新：CISPO算法（通过裁剪重要性采样权重提升梯度效率）、异步调度与树状样本合并（提升GPU利用率，训练速度提升约40倍），以及过程级奖励机制（通过监控生成质量与任务耗时，引导模型追求高效解法）。据工程师透露，M2.5的完整强化学习训练仅耗时约两个月，成本远低于同类项目。模型还展现出“涌现式需求撰写”能力——在编码前主动规划项目结构，从而减少错误、提升效率。在SWE-Bench任务中，M2.5平均消耗352万token，优于M2.1的372万。此外，MiniMax构建了内部GDPval-MM评估体系，测试其在办公自动化任务中的表现，M2.5在与主流模型的对比中胜率高达59%。公司还推出了面向消费者的MiniMax Agent平台，已有超1万个“专家”配置被用户创建。尽管早期反馈显示模型在实际任务中偶有疏漏（如错误推送分支、格式遗漏），但其在成本与能力之间的平衡已清晰勾勒出未来路径。MiniMax承诺将发布关于Forge框架与强化学习扩展规律的深度技术文章，值得期待。这场竞争中，代码能力之外的办公自动化与成本效率，或将成为新的差异化突破口。

相关链接

相关链接

相关链接

零代码自主发现科学图像处理算法，美阿贡国家实验室提出 CVEvolve，具备写代码/结果自查/策略优化等全栈能力

零代码自主发现科学图像处理算法，美阿贡国家实验室提出 CVEvolve，具备写代码/结果自查/策略优化等全栈能力

Command Palette

MiniMax-M2.5：每小时1美元的高效前沿AI模型

相关链接

Command Palette

MiniMax-M2.5：每小时1美元的高效前沿AI模型

相关链接

Command Palette

MiniMax-M2.5：每小时1美元的高效前沿AI模型

相关链接

零代码自主发现科学图像处理算法，美阿贡国家实验室提出 CVEvolve，具备写代码/结果自查/策略优化等全栈能力

零代码自主发现科学图像处理算法，美阿贡国家实验室提出 CVEvolve，具备写代码/结果自查/策略优化等全栈能力