JetBrains 推出 12B 参数混合专家模型 Mellum2
JetBrains 正式发布 Mellum2,这是一款专为低延迟文本与代码任务优化的 120 亿参数混合专家模型。该模型从零开始训练,涵盖自然语言与代码领域,每处理一个 token 仅激活 25 亿参数。这种独特的架构设计使其在保持高模型容量的同时,实现了超过 2 倍的推理速度提升,在同类大小模型的基准测试中表现强劲且高效。 Mellum2 采用混合专家架构,专注于文本和代码处理,不涉及多模态任务,这使其成为软件工程工作负载的理想选择。其核心设计理念是作为大型 AI 系统中的“聚焦”模型,而非试图取代所有组件。在现代 AI 系统中,路由、检索、摘要、规划及验证等操作对延迟极为敏感,且无需使用超大规模模型。Mellum2 正是针对这些高频、对时效性要求高的中间环节而设计。 具体应用场景广泛,包括多模型系统中的路由与编排,如提示词分类与工具选择;适用于高吞吐检索增强生成流程,支持上下文压缩与检索后处理;还可作为子智能体执行规划、验证及变换任务,从而减少调用大模型的需求。此外,由于模型开源且推理高效,它非常适合私有化部署,确保专有代码与内部数据的安全。Mellum2 采用 Apache 2.0 开源协议发布,开发者可在 Hugging Face 下载模型,详细的技术架构与训练细节已收录于相关技术报告中。这一发布标志着 AI 系统架构正从单体大模型向更高效、更可控的专用组件协作模式转变。
