HyperAIHyperAI

Command Palette

Search for a command to run...

Nemotron Labs 推出扩散语言模型实现光速文本生成

NVIDIA 推出 Nemotron-Labs Diffusion 扩散语言模型,旨在突破传统大语言模型逐词生成的速度瓶颈。现有自回归模型每次仅生成一个 token,依赖前序内容,导致计算效率受限且难以修正错误。新模型采用扩散技术,可并行生成多个 token 并分步优化,不仅大幅提升推理速度,还具备自我修正能力。 该模型家族包含 30 亿、80 亿和 140 亿参数量的文本模型,以及 80 亿参数的视觉语言模型。所有文本模型均支持商业使用,代码及训练配方也已开源。其核心创新在于同一模型内集成了三种生成模式:自回归模式保持与传统大模型兼容;扩散模式分块并行生成;自投机模式则利用扩散快速草稿并结合自回归验证,兼顾速度与准确性。这种灵活设计使开发者无需修改应用架构,即可通过调整部署设置实现极致加速。 性能测试显示,Nemotron-Labs Diffusion 8B 模型的准确性较 Qwen3 8B 提升 1.2%。在推理效率上,扩散模式比传统自回归模型快 2.6 倍,而自投机模式更是达到 6 倍至 6.4 倍的提升。该模型通过联合自回归与扩散目标进行训练,基于 NVIDIA 海量语料预训练及微调,成功解决了以往扩散模型训练难、精度低及缓存兼容性差的问题。目前,模型即将在 SGLang 推理框架中正式支持部署。开发者可访问相关资源库,体验这一融合高效训练、灵活生成与加速能力的新一代开源模型。

相关链接