HyperAIHyperAI

Command Palette

Search for a command to run...

MiniMax-M2.5:每小时1美元的高效前沿AI模型

2026年2月12日,上海企业MiniMax在港股上市仅一个月后,推出其最新大模型M2.5。该模型在多项关键指标上表现亮眼:SWE-Bench Verified得分80.2%,Multi-SWE-Bench达51.3%(排名第一),BrowseComp达76.3%,与Claude Opus 4.6和GPT-5.2等顶尖模型处于同一水平。更引人注目的是,其运行成本仅为每小时1美元(以每秒100个token的持续负载计算),堪称当前最经济的前沿模型之一。 M2.5延续M2系列架构,采用2300亿总参数的混合专家(MoE)设计,但每轮推理仅激活100亿参数,显著降低计算开销。其API提供“闪电版”和“标准版”,前者吞吐量是同类模型的两倍,后者价格极具竞争力。相较之下,Claude Opus 4.6输入单价为5美元/百万token,输出高达25美元/百万token;而新发布的GLM-5也达1美元/百万token输入,远高于M2.5。 该模型不仅擅长编程,还能处理Word、Excel、PowerPoint等完整办公场景。其训练基于20万+真实世界环境中的大规模强化学习,覆盖Python、Go、C++、Rust、Java等十余种语言。在多轮函数调用任务中,M2.5以76.8%的得分领先Opus 4.6超13个百分点,较M2.1提升39.4分,显示其在复杂工具链使用上的飞跃。 技术核心在于MiniMax自研的“Forge”强化学习框架,一种“代理原生”的训练体系。其关键在于将训练引擎与代理框架解耦,使模型能跨不同工具接口泛化,避免过拟合。为实现高效训练,MiniMax提出三项创新:CISPO算法(通过裁剪重要性采样权重提升梯度效率)、异步调度与树状样本合并(提升GPU利用率,训练速度提升约40倍),以及过程级奖励机制(通过监控生成质量与任务耗时,引导模型追求高效解法)。 据工程师透露,M2.5的完整强化学习训练仅耗时约两个月,成本远低于同类项目。模型还展现出“涌现式需求撰写”能力——在编码前主动规划项目结构,从而减少错误、提升效率。在SWE-Bench任务中,M2.5平均消耗352万token,优于M2.1的372万。 此外,MiniMax构建了内部GDPval-MM评估体系,测试其在办公自动化任务中的表现,M2.5在与主流模型的对比中胜率高达59%。公司还推出了面向消费者的MiniMax Agent平台,已有超1万个“专家”配置被用户创建。 尽管早期反馈显示模型在实际任务中偶有疏漏(如错误推送分支、格式遗漏),但其在成本与能力之间的平衡已清晰勾勒出未来路径。MiniMax承诺将发布关于Forge框架与强化学习扩展规律的深度技术文章,值得期待。这场竞争中,代码能力之外的办公自动化与成本效率,或将成为新的差异化突破口。

相关链接

MiniMax-M2.5:每小时1美元的高效前沿AI模型 | 热门资讯 | HyperAI超神经