Seed Diffusion: Schnellere Spracherzeugung mit Diffusionsmodellen
清华大学智能产业研究院(AIR)联合字节跳动Seed与SIA-Lab发布全新成果——Seed Diffusion Preview,一种基于扩散机制的超大规模语言模型,实现每秒2146个token的推理速度,较同等规模自回归模型提升5.4倍,显著超越Google Gemini Diffusion。该模型在代码生成与编辑任务中表现优异,尤其在需要全局规划的结构化推理任务中展现出超越传统自回归模型的能力,标志着语言模型生成范式正从“逐词生成”迈向“并行重构”的新阶段。 传统自回归模型虽在生成质量上成熟,但受限于串行生成机制,推理速度慢、延迟高,难以满足实时应用需求。扩散模型凭借其从粗到精的并行生成特性,在图像与视频领域取得突破,但将其应用于离散语言数据面临根本挑战:语言具有强因果结构,而标准扩散过程难以有效建模这种依赖关系。为此,研究团队提出四项关键技术突破:一是两阶段课程学习,增强模型对全局语义的校正能力;二是引入结构化先验,通过约束顺序训练与轨迹蒸馏,使模型掌握变量声明与使用的正确逻辑;三是同策略学习范式,通过代理损失函数优化生成步数,在保证质量的前提下显著加速收敛;四是系统级工程优化,采用块级并行采样与KV缓存机制,支持灵活分块推理并复用历史信息,大幅降低延迟。 实验表明,Seed Diffusion Preview在多个公开代码基准(如HumanEval、MBPP)上性能媲美顶尖自回归模型,而在CanitEdit等需全局规划的代码编辑任务中表现更优,证明其在复杂结构化推理中的独特优势。该成果不仅在“速度-质量”帕累托前沿树立新标杆,更揭示了扩散模型在语言生成中超越自回归模型的潜力。 业内专家指出,Seed Diffusion Preview不仅是速度的飞跃,更是生成范式的一次根本性跃迁。其并行生成能力为多步骤推理、代码重构、逻辑规划等高阶任务提供了新路径。尽管当前仍面临训练成本高、采样稳定性等挑战,但其展现出的可扩展性与结构化建模能力,预示着离散扩散模型有望成为下一代大模型的基础设施。字节跳动与清华AIR的深度协同,也凸显了产学研融合在推动AI底层创新中的关键作用。未来,随着规模化定律的揭示与系统优化的深化,此类模型或将重塑AI生成的底层逻辑。