HyperAI

2 个月前

IBM 正式开源 Granite 4.1 系列大型语言模型，涵盖 3B、8B 和 30B 三种参数量级。该模型家族采用密集解码器架构，基于约 15 万亿 tokens 的高质量数据完成预训练，并支持长达 512K 的上下文窗口。所有模型均采用 Apache 2.0 开源协议发布。训练过程分为五个精细阶段：前两个阶段进行通用语言基础训练；中间阶段逐步引入高质量数学、代码及思维链数据，通过数据退火策略提升推理能力；最后阶段通过多步扩展实现超长上下文训练。在微调阶段，团队引入基于大模型的自动化评审框架（LLM-as-Judge），结合规则过滤与去重，精选 410 万条高质样本进行监督微调。随后，模型经过多阶段强化学习优化，涵盖多领域任务、对话助手指令、身份校准及数学专项强化，显著提升了指令遵循、逻辑推理及工具调用能力。评测显示，Granite 4.1-8B 模型在多个基准测试中表现优异，其性能匹配甚至超越了上一代拥有 320 亿参数的混合专家模型（MoE），且推理延迟更低、运营成本更可控。该系列模型支持英、德、法、中、日等十多种语言，并提供 FP8 量化版本以优化部署效率。IBM 强调，Granite 4.1 证明了在数据质量与训练流程精细化驱动下，小型密集模型完全具备与大型复杂架构竞争的实力，为企业在生产环境中部署高效、可靠的 AI 应用提供了理想选择。

此资讯由 AI 智能聚合生成，旨在高效传递行业动态，不代表任何观点或建议。

相关链接

相关链接

相关链接

材料 AI 迈向「可解释时代」，日本团队破解高维光谱黑箱，锁定新材料发现关键特征

材料 AI 迈向「可解释时代」，日本团队破解高维光谱黑箱，锁定新材料发现关键特征

Command Palette

IBM 发布 Granite 4.1 大语言模型

相关链接

Command Palette

IBM 发布 Granite 4.1 大语言模型

相关链接

Command Palette

IBM 发布 Granite 4.1 大语言模型

相关链接

材料 AI 迈向「可解释时代」，日本团队破解高维光谱黑箱，锁定新材料发现关键特征

材料 AI 迈向「可解释时代」，日本团队破解高维光谱黑箱，锁定新材料发现关键特征