MiniMax发布全新开源模型M1:支持100万标记上下文和高效强化学习
中国人工智能初创公司MiniMax近日宣布了其最新的大型语言模型MiniMax-M1,并于6月16日正式开源发布。这一举动不仅令企业和开发者兴奋,还标志着公司在长期上下文理解和计算效率方面取得了显著进展。M1在开源代码社区Hugging Face和Microsoft的GitHub上提供下载,无需付出任何费用或遵守使用限制。 MiniMax-M1的最大亮点是其拥有100万个输入标记(tokens)的上下文窗口,以及最高80,000个输出标记。这意味着该模型可以在一次交互中处理相当于一个小型图书系列的信息量。相比之下,OpenAI的GPT-4和Google的Gemini 2.5 Pro分别只能处理128,000个和100万个标记。 该模型采用了混合专家(MoE)架构和闪电注意力机制,大大降低了推理成本。根据技术报告,MiniMax-M1在生成长度为100,000个标记时,仅需传统模型大约四分之一的浮点运算(FLOPs)。这种高效的计算能力主要归功于MiniMax开发的自定义强化学习算法CISPO,该算法通过剪裁重要性采样权重而不是标记更新来实现。 MiniMax-M1基于公司早期的MiniMax-Text-01模型构建,具有4560亿个参数,每个标记激活45.9亿个参数。M1提供两种变种——MiniMax-M1-40k和MiniMax-M1-80k,分别对应40,000和80,000个标记的输出长度。公司表示,M1的总训练成本仅为534,700美元,远低于其他前沿模型,如DeepSeek R1的500万至600万美元和GPT-4超过1亿美元的训练成本。 MiniMax-M1在一系列基准测试中展现出了卓越的性能,尤其是在高级推理、软件工程和工具使用能力方面。例如,在2024年AIME数学竞赛基准测试中,M1-80k模型的准确率达到86.0%。此外,它在编程和长上下文任务中的表现也非常出色,超过了其他开源模型如DeepSeek R1和Qwen3-235B-A22B。 为了方便部署,MiniMax推荐使用vLLM作为服务后端,因为该后端针对大规模模型负载进行了优化,具备内存效率高和批量请求处理能力强的特点。此外,公司还提供了Transformers库的部署选项。 MiniMax-M1支持结构化函数调用,并附带了一个聊天机器人API,集成了在线搜索、视频和图像生成、语音合成及声音克隆工具。这些功能旨在支持更广泛的实际应用中的智能代理行为。 MiniMax-M1的开放访问和超长上下文窗口解决了技术专业人士管理大规模AI系统时面临的多个常见挑战。对于负责LLM全生命周期的工程主管,M1不仅提供了更低的运营成本,还能支持复杂的推理任务,减少预处理海量文档或日志数据所需的时间和资源。 在AI编排管道管理方面,M1可以轻松地与其他成熟工具如vLLM和Transformers集成,简化内部协程或基于代理系统的开发。其混合注意机制和多步推理能力也使其在自动化管道中表现出色。从数据平台的角度来看,团队可以利用M1的结构化函数调用和现有的自动化管道,提高基础设施的效率和可扩展性。此外,开源性质允许团队根据自己的需求定制模型性能,而不会受到供应商锁定的限制。 安全负责人也将受益于M1的安全本地部署能力,使得在内部部署高能力模型而不必向第三方传输敏感数据成为可能。总体而言,MiniMax-M1为企业提供了实验和扩大先进AI能力的机会,管理成本、保持运营灵活性,同时避免专有约束。 业内人士认为,MiniMax-M1的发布不仅是公司在技术上的突破,也是其持续关注实用、可扩展AI模型的战略体现。通过结合开源、先进技术架构和高计算效率,MiniMax有望为下一代需要深厚推理能力和长范围输入理解的应用提供基础支持。这家公司在2023年凭借其现实主义AI视频模型Hailuo获得了国际声誉,如今的M1进一步巩固了其在AI领域的领先地位。