HyperAIHyperAI
Back to Headlines

清华大学智能产业研究院发布Seed Diffusion Preview:每秒生成超2000 tokens,刷新语言模型推理速度纪录

منذ 3 أيام

清华大学智能产业研究院(AIR)联合字节跳动Seed与SIA-Lab发布全新研究成果——Seed Diffusion Preview,一款基于扩散模型的超大规模语言模型,实现每秒生成超过2146个词元(tokens),推理速度较同等规模的自回归模型提升5.4倍,显著超越Google Gemini Diffusion。该成果标志着语言模型生成范式迎来关键突破,有望重塑未来大模型的发展路径。 尽管近年来多模态大模型在图像理解、视频生成等领域表现惊艳,但其真实推理能力仍存疑。为深入评估模型在复杂环境中的逻辑与决策能力,AIR团队联合清华大学、复旦大学推出3D密室逃脱环境EscapeCraft。实验表明,即便GPT-4o等顶尖模型也频频“翻车”:看到门却绕墙而行,捡到钥匙却不知使用,甚至试图“抓沙发”寻找暗格——这些现象揭示了一个核心问题:模型“看见”不等于“理解”,其推理仍多依赖表面关联,缺乏系统性思维。 针对这一挑战,Seed Diffusion Preview应运而生。该模型以代码生成为切入点,验证了扩散模型在语言任务中的高效潜力。其核心突破在于四项关键技术: 首先,采用两阶段课程学习,在训练初期聚焦局部修复,后期引入全局一致性校正,提升生成连贯性。其次,引入结构化先验,通过约束变量声明与使用的因果顺序,使模型更贴合语言逻辑,避免无序生成。第三,提出同策略学习范式,通过优化生成步数与质量的平衡,结合编辑距离作为代理损失,实现高效收敛。该机制隐式“修剪”低效路径,促使模型快速抵达高质量解,效果类似“模式过滤”。最后,通过系统级工程优化,采用块级并行采样与KV缓存机制,在保证因果顺序的前提下实现灵活分块推理,显著降低延迟。 实验结果显示,Seed Diffusion Preview在多个主流代码生成基准上性能媲美自回归模型,且在代码编辑等需全局规划的任务中表现更优。其推理速度达到2146 tokens/s,远超传统方法,同时保持高质量输出,成功在“速度-质量”帕累托前沿树立新标杆。 这一成果不仅验证了离散扩散模型在语言生成中的可行性,更揭示其在复杂结构化推理中的独特优势。未来,团队将继续探索该技术的规模化规律与在多步推理、规划任务中的深层应用,推动语言模型从“快速生成”迈向“深度理解”的新阶段。

Related Links