HyperAIHyperAI

Command Palette

Search for a command to run...

IBM 发布 Granite 4.1 大语言模型

IBM 正式开源 Granite 4.1 系列大型语言模型,涵盖 3B、8B 和 30B 三种参数量级。该模型家族采用密集解码器架构,基于约 15 万亿 tokens 的高质量数据完成预训练,并支持长达 512K 的上下文窗口。所有模型均采用 Apache 2.0 开源协议发布。 训练过程分为五个精细阶段:前两个阶段进行通用语言基础训练;中间阶段逐步引入高质量数学、代码及思维链数据,通过数据退火策略提升推理能力;最后阶段通过多步扩展实现超长上下文训练。在微调阶段,团队引入基于大模型的自动化评审框架(LLM-as-Judge),结合规则过滤与去重,精选 410 万条高质样本进行监督微调。随后,模型经过多阶段强化学习优化,涵盖多领域任务、对话助手指令、身份校准及数学专项强化,显著提升了指令遵循、逻辑推理及工具调用能力。 评测显示,Granite 4.1-8B 模型在多个基准测试中表现优异,其性能匹配甚至超越了上一代拥有 320 亿参数的混合专家模型(MoE),且推理延迟更低、运营成本更可控。该系列模型支持英、德、法、中、日等十多种语言,并提供 FP8 量化版本以优化部署效率。IBM 强调,Granite 4.1 证明了在数据质量与训练流程精细化驱动下,小型密集模型完全具备与大型复杂架构竞争的实力,为企业在生产环境中部署高效、可靠的 AI 应用提供了理想选择。

相关链接

IBM 发布 Granite 4.1 大语言模型 | 热门资讯 | HyperAI超神经