HyperAIHyperAI

Command Palette

Search for a command to run...

MiniMax M3在英伟达加速平台部署长上下文推理与智能体工作流

近日,MiniMax与NVIDIA联合宣布,其4280亿参数多模态大模型MiniMax M3已全面适配NVIDIA加速计算基础设施。该模型专为解决企业AI开发中管道碎片化、成本高企及迭代缓慢等痛点而生,支持长达100万词元的上下文推理、智能体工作流及多模态创意任务。MiniMax M3采用混合专家架构,激活参数仅220亿,创新引入稀疏注意力机制,通过预过滤关键上下文区块并实现连续内存读取,在保持精度前提下将每词元计算量降至上一代模型的二十分之一,预填充与解码速度分别提升九倍与十五倍。模型自训练初期即原生融合文本、图像与视频数据,无需后期拼接。在部署层面,开发者可通过相关平台快速原型验证,并自由选择各类开源推理引擎。配合分布式推理平台,系统利用分离式服务架构将长上下文交互响应速度提升四倍,且不增加算力预算。此外,借助模型定制框架,企业可实现深度微调与专属优化。目前,开发者已可访问云端接口或获取模型权重,全面开启统一多模态AI应用的规模化落地。

相关链接