Command Palette

Search for a command to run...

2 天前

SDAR:一种用于可扩展序列生成的协同扩散-自回归范式

SDAR:一种用于可扩展序列生成的协同扩散-自回归范式

摘要

我们提出SDAR(协同扩散-自回归范式),该范式将自回归模型的训练效率与扩散模型的并行推理能力有机结合。与昂贵的端到端扩散训练不同,SDAR采用轻量级的范式转换机制,仅通过简短、数据高效的适配过程,即可将一个训练良好的自回归(AR)模型转化为分块扩散模型。在推理阶段,SDAR在块之间以自回归方式生成序列以保证全局一致性,同时在每个块内部通过离散扩散过程并行解码所有标记,从而实现高效生成。大量实验表明,自回归模型在计算效率上仍显著优于掩码扩散模型,为范式迁移提供了坚实基础。基于这一洞察,SDAR实现了高效的AR到扩散模型转换,仅付出极低代价,即可在保持自回归级别性能的同时,支持并行生成。在密集架构与专家混合(Mixture-of-Experts, MoE)架构上的扩展研究表明,SDAR具备良好的可扩展性且无需妥协:模型规模越大,对块大小和解码阈值的鲁棒性越强,从而在不损失准确率的前提下实现更高的加速比。除效率优势外,SDAR还展现出更强的推理能力与领域适应性。我们的300亿参数MoE模型在GPQA和ChemBench等具有挑战性的科学推理基准测试中超越了其自回归对应模型,并在测试时扩展方法(如多数投票和pass@k)下进一步提升性能。综上,这些结果确立了SDAR作为一种实用范式,能够有效融合自回归与扩散模型的优势,实现可扩展、高吞吐量的推理能力。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供