HyperAI超神经
Back to Headlines

MiniMax 发布 M1:首个开放权重的大规模混合注意力推理模型

14 hours ago

近日,GitHub 上发布了一款名为 MiniMax-M1 的大型混合注意力推理模型,标志着世界首款开源权重、大规模混合注意力模型的诞生。MiniMax-M1 拥有 4560 亿参数,能够在每个令牌上激活 45.9 亿个参数,支持高达 100 万个词汇的上下文长度,这是 DeepSeek R1 的 8 倍。MiniMax-M1 还引入了闪电注意力机制,显著提高了长上下文处理的效率,生成长度为 10 万个词汇时,计算资源消耗仅为 DeepSeek R1 的 25%。 MiniMax-M1 的研发团队基于他们之前开发的 MiniMax-Text-01 模型,通过大规模强化学习(RL)进行了系统性的优化。在 RL 框架方面,MiniMax 团队提出了 CISPO 算法,该算法通过对重要性采样权重而非令牌更新进行剪裁,从而在多个基准测试中超越了其他竞争模型。此外,其混合注意力设计还自然地增强了 RL 的效率,解决了与混合架构相关的独特挑战。 为了验证 MiniMax-M1 的性能,研究团队将其与其他商业和开源模型进行了一系列基准测试对比,特别是在数学、编程、软件工程、长期记忆理解以及代理工具使用等方面。实验结果显示,MiniMax-M1 在解决复杂任务时表现尤为出色。尤其是在软件工程领域,MiniMax-M1-80K 版本在 SWE-bench 验证数据集上的成绩远超 Qwen3-235B 和 DeepSeek-R1。 具体来看,在 AIME 2024 和 2025 数学竞赛中,MiniMax-M1-80K 分别取得了 86.0% 和 76.9% 的高分数。在 LiveCodeBench 编程基准测试中,得分达到了 65.0%,而在 FullStackBench 中,得分则为 68.3%。在长期记忆理解方面的 OpenAI-MRCR (1M) 测试中,MiniMax-M1-80K 达到了 56.2% 的准确率,显著优于竞争对手。另外,在代理工具使用的 TAU-bench (零售环境) 测试中,MiniMax-M1-80K 获得了 67.8% 的表现,仅次于 Claude 4 和 Gemini 2.5 Pro。 为了让开发者能够更方便地使用 MiniMax-M1,团队提供了详细的部署指南。用户可以在 HuggingFace 仓库下载模型,并推荐使用 vLLM 服务框架,支持多种功能调用能力,包括视频生成、图像生成、语音合成等。此外,还提供了一个具备在线搜索功能的聊天机器人及在线 API,方便开发者进行评估和集成。 业内人士普遍认为,MiniMax-M1 不仅在技术创新上具有重要意义,而且其高效能和长上下文支持能力使其在实际应用中具备巨大潜力。对于需要处理大量文本数据和复杂推理任务的场景,MiniMax-M1 尤其值得期待。MiniMax 是国内知名的人工智能公司,拥有丰富的模型研发经验和技术积累,此次 MiniMax-M1 的发布将进一步巩固该公司在语言模型领域的领先地位。

Related Links