HyperAI超神经

5 天前

JetBrains 正式发布 Mellum2，这是一款专为低延迟文本与代码任务优化的 120 亿参数混合专家模型。该模型从零开始训练，涵盖自然语言与代码领域，每处理一个 token 仅激活 25 亿参数。这种独特的架构设计使其在保持高模型容量的同时，实现了超过 2 倍的推理速度提升，在同类大小模型的基准测试中表现强劲且高效。 Mellum2 采用混合专家架构，专注于文本和代码处理，不涉及多模态任务，这使其成为软件工程工作负载的理想选择。其核心设计理念是作为大型 AI 系统中的“聚焦”模型，而非试图取代所有组件。在现代 AI 系统中，路由、检索、摘要、规划及验证等操作对延迟极为敏感，且无需使用超大规模模型。Mellum2 正是针对这些高频、对时效性要求高的中间环节而设计。具体应用场景广泛，包括多模型系统中的路由与编排，如提示词分类与工具选择；适用于高吞吐检索增强生成流程，支持上下文压缩与检索后处理；还可作为子智能体执行规划、验证及变换任务，从而减少调用大模型的需求。此外，由于模型开源且推理高效，它非常适合私有化部署，确保专有代码与内部数据的安全。Mellum2 采用 Apache 2.0 开源协议发布，开发者可在 Hugging Face 下载模型，详细的技术架构与训练细节已收录于相关技术报告中。这一发布标志着 AI 系统架构正从单体大模型向更高效、更可控的专用组件协作模式转变。

此资讯由 AI 智能聚合生成，旨在高效传递行业动态，不代表任何观点或建议。

相关链接

相关链接

相关链接

MiniCPM5-1B 采用 RL+OPD 训练，多项复杂任务达 SOTA；面向复杂医疗业务自动化：医疗智能体评测数据集 CHI-Bench 发布

MiniCPM5-1B 采用 RL+OPD 训练，多项复杂任务达 SOTA；面向复杂医疗业务自动化：医疗智能体评测数据集 CHI-Bench 发布

Command Palette

JetBrains 推出 12B 参数混合专家模型 Mellum2

相关链接

Command Palette

JetBrains 推出 12B 参数混合专家模型 Mellum2

相关链接

Command Palette

JetBrains 推出 12B 参数混合专家模型 Mellum2

相关链接

MiniCPM5-1B 采用 RL+OPD 训练，多项复杂任务达 SOTA；面向复杂医疗业务自动化：医疗智能体评测数据集 CHI-Bench 发布

MiniCPM5-1B 采用 RL+OPD 训练，多项复杂任务达 SOTA；面向复杂医疗业务自动化：医疗智能体评测数据集 CHI-Bench 发布