IBM 发布 Granite 4.0 1B 语音模型:紧凑、多语种、适配边缘端
IBM 近日发布了最新款 Granite 4.0 1B 语音模型,这是其 Granite 语音系列的最新力作。该模型专为资源受限设备上的企业应用设计,是一款紧凑型的语音语言模型,支持多语言自动语音识别(ASR)和双向语音翻译(AST)。与前代模型相比,Granite 4.0 1B 的参数量减少了一半,却在英语转录准确率上实现了提升,并通过推测性解码技术显著加快了推理速度。 此次更新显著扩展了语言支持范围,涵盖英语、法语、德语、西班牙语、葡萄牙语及日语。新版本特别增加了日语语音识别功能和关键词列表偏置功能,以更好地识别人名和缩写,这些均回应了开发社区的长期需求。凭借出色的性能,该模型已在 OpenASR 排行榜上位列第一,展示了其作为开源语音识别系统的强劲实力。 在性能评估方面,该模型采用词错误率(WER)作为衡量标准,数值越低代表准确率越高。数据显示,尽管模型体积小巧,但在多个标准数据集上均达到了极具竞争力的低词错误率,表现优于许多参数量更大的同类模型。Granite 4.0 1B 遵循 Apache 2.0 开源协议发布,原生支持 Hugging Face Transformers 和 vLLM 框架。IBM 在多种标准 ASR 和 AST 基准测试中验证了其性能,结果证明其表现与参数量远超它的模型相当或更优。用户可通过官方模型卡获取详细的评估结果、架构细节及训练数据。建议在生产环境中搭配 Granite Guardian 使用,以增强风险检测能力。目前,开发团队已鼓励开发者试用该模型并提供反馈。
