HyperAIHyperAI

Command Palette

Search for a command to run...

Console

ReFusion:一种具有并行自回归解码的扩散型大语言模型

Jia-Nan Li Jian Guan Wei Wu Chongxuan Li

Abstract

自回归模型(Autoregressive Models, ARMs)受限于缓慢的串行推理过程。尽管掩码扩散模型(Masked Diffusion Models, MDMs)提供了一种并行推理的替代方案,但其仍存在关键缺陷:由于无法使用键值缓存(Key-Value Caching),导致计算开销显著增加;同时,由于在难以处理的词元组合空间中学习依赖关系,生成结果常出现不连贯现象。为解决上述局限,我们提出 ReFusion——一种新型掩码扩散模型,通过将并行解码从词元层级提升至更高层级的“槽位”(slot)层级,实现了卓越的性能与效率。每个槽位为固定长度、连续的子序列。该方法基于一种迭代式的“规划-填充”解码流程:首先通过扩散模型进行规划,识别出一组弱相关性槽位;随后,利用自回归方式并行解码这些选定槽位。该槽位级设计在保持统一因果框架的同时,实现了完整的键值缓存复用,并将学习复杂度从难以处理的词元组合空间显著降低至可管理的槽位级排列空间。在七个多样化基准上的大量实验表明,ReFusion不仅在性能上相较先前MDMs平均提升34%,推理速度平均提升超过18倍,同时显著缩小了与强自回归模型之间的性能差距,且仍保持平均2.33倍的加速优势。

一句话总结

中国人民大学与蚂蚁集团的研究者提出 ReFusion,一种新型掩码扩散模型,通过在槽位级别(固定长度的标记子序列)采用迭代“规划-填充”框架,实现高效的并行解码。该设计支持完整的 KV 缓存复用并降低学习复杂度,在七个基准测试中平均性能比先前的 MDM 提升 34%,吞吐量提升超过 18 倍,同时在保持 2.33 倍平均速度优势的前提下,达到强自回归模型(ARM)的水平。

主要贡献

  • ReFusion 通过引入槽位级别的并行解码框架,解决了自回归模型(ARM)的根本效率瓶颈以及掩码扩散模型(MDM)的连贯性问题:以固定长度的连续子序列(槽位)替代单个标记作为并行生成单元,兼顾高吞吐与输出连贯性。
  • 模型采用迭代“规划-填充”流程:基于扩散的规划步骤识别弱依赖槽位,随后通过自回归填充步骤并行解码这些槽位,利用因果注意力机制实现完整的 KV 缓存复用,并将学习复杂度从指数级的标记组合降低为可管理的槽位排列。
  • 在涵盖数学、代码与推理任务的七个多样化基准测试中,ReFusion 相比先前 MDM(如 LLaDA 和 Dream)性能提升 34%,吞吐量提升超过 18 倍;在 GSM8K 和 MBPP 上超越强自回归模型 Qwen3-8B 3.68 个百分点,同时保持 2.33 倍平均速度优势。

引言

研究者利用掩码扩散模型(MDM)克服自回归模型(ARM)的序列解码瓶颈,后者虽性能优异但限制了推理吞吐量。尽管 MDM 通过迭代去噪与条件独立性假设实现了并行标记生成,但先前方法面临两大挑战:由于双向注意力导致与 KV 缓存架构不兼容,造成高延迟;未能建模复杂标记依赖关系,尤其在邻近标记间,导致输出不连贯。为解决这些问题,研究者提出 ReFusion,一种基于扩散的新型大语言模型,通过在槽位级别(将标记分组为固定长度子序列)进行并行解码,采用两步流程:首先基于扩散的规划步骤识别弱依赖槽位,随后进行自回归填充。该设计保留因果注意力以实现高效 KV 缓存,同时将学习空间从难以处理的标记组合转换为可管理的槽位排列,显著降低复杂度。ReFusion 采用混合训练目标,对所有标记同时使用去噪损失与自回归损失,提升数据效率。实验表明,ReFusion 在平均性能上比先前 MDM 提升 34%,吞吐量提升超过 18 倍,且在准确率与速度上均超越强自回归模型 Qwen3-8B,推动性能-效率边界向前发展。

方法

研究者提出一种新颖的槽位级架构,以应对传统掩码扩散模型(MDM)固有的效率低下与输出不连贯问题。其核心是迭代“规划-填充”解码流程,该流程在槽位级别运行,其中槽位定义为固定长度的连续标记子序列。该设计将并行解码从标记级别提升至更高、更易管理的层级,构建统一的因果框架,同时支持全局生成灵活性与完整的键值(KV)缓存复用。

整体框架如图所示,包含两个主要阶段:推理与训练。在推理阶段,过程从提示词和完全掩码的响应序列开始,该序列被划分为一系列槽位。解码以迭代方式通过两个协同步骤进行。首先,基于扩散的规划步骤并行生成所有掩码槽位的草稿标记。该步骤利用模型从部分掩码上下文中预测的能力,为每个槽位生成推测性猜测。随后,模型根据置信度指标(如槽位首位置最可能标记的概率)对这些草稿槽位进行评分,选取一批置信度超过预设阈值的槽位进入下一阶段。其次,自回归填充步骤并行解码选定的槽位。该步骤利用模型的自回归能力验证并完成草稿槽位,确保局部连贯性。为加速此过程,采用推测性解码策略:模型首先对拼接后的草稿槽位进行全局验证。若验证通过的前缀足够长,则整批槽位被整体接受,无需进行昂贵的后缀补全。否则,采用并行迭代补全过程,独立优化每个选定槽位直至完全完成。每次迭代后,新完成的槽位被移至剩余掩码槽位的前端,这一重排序机制使得所有已解码标记均可实现完整的 KV 缓存复用。该重排序之所以可行,是因为模型对所有标记使用一致的、真实的位置 ID,这些 ID 与输入缓冲区中的物理位置无关。通过为这些绝对位置 ID 应用 RoPE,模型能正确计算相对距离,并关注所有逻辑前驱,从而在非顺序输入顺序下仍保持序列连贯性。

训练过程精心设计,以匹配推理算法的动态行为,确保模型同时学习规划与填充能力。训练数据由提示-响应对构建:首先将响应划分为一系列槽位,然后随机掩码其中一部分槽位,生成一个被破坏的序列。关键在于,未掩码(干净)的槽位被随机打乱,以模拟推理过程中遇到的任意生成顺序。最终的训练实例由打乱后的干净槽位与掩码槽位拼接而成。该数据构建策略确保模型学会处理任意顺序的上下文。训练目标为两种损失的混合:干净槽位使用标准自回归损失,优化模型的下一个标记预测能力;掩码槽位使用去噪损失,优化模型从掩码上下文中重建原始标记的能力。最终目标为这两个损失的加权和,使模型能够学习“规划-填充”流程所需的全局规划与局部解码能力。

实验

  • ReFusion 在七个基准测试上进行评估:MMLU-Pro、ARC-C、GSM8K、MATH、GPQA、HumanEval 和 MBPP,代码任务使用 pass@1,其余任务使用准确率,推理吞吐量以单张 A100 GPU 上的每秒标记数(TPS)衡量。
  • 在 HumanEval 上,ReFusion 达到 78.66% 的 pass@1,比次优 MDM(Dream-7B-Instruct)高出 22 个百分点;在 MBPP 上达到 92.09 TPS,比次快 MDM 快 1.4 倍。
  • ReFusion 在性能与吞吐量上均优于所有 MDM 基线,并挑战强自回归模型:相比 Qwen3-8B 平均提速 2.33 倍,且在 GSM8K 与 MBPP 上分别领先 3.68 个百分点。
  • 在受控对比中,ReFusion 在 120K 子集上微调后,在 HumanEval 上比微调后的 Qwen3-8B 高出 16 分,且快 1.9 倍,证明其架构优势独立于数据或骨干网络优势。
  • 与基于原生 Qwen2.5-7B 骨干的 Dream-7B-Instruct 对比(尽管 Dream 经过大规模预训练),ReFusion 实现 2.23% 的平均性能提升与 11.05 倍速度提升,在推理与编码任务中表现更优。
  • 消融研究证实,ReFusion 的 KV 缓存复用策略在无性能损失甚至轻微提升的情况下,使吞吐量提升 1.16–1.33 倍,归因于误差传播减少。
  • 超参数分析识别出宽泛的“最佳区域”:τslot[0.5,1.0]\tau_{\text{slot}} \in [0.5, 1.0]τslot[0.5,1.0]τtoken[0.1,0.9]\tau_{\text{token}} \in [0.1, 0.9]τtoken[0.1,0.9]k{8,32}k \in \{8, 32\}k{8,32}b[32,128]b \in [32, 128]b[32,128],在此范围内 ReFusion 在性能与 TPS 上均超越 Qwen3-8B。
  • ReFusion 展现出强数据扩展性:吞吐量从 120K 样本的 51 TPS 提升至 14M 样本的 81 TPS 以上,尽管训练周期固定导致性能非单调增长,但整体显著提升。
  • ReFusion 的平坦性能-效率前沿(图 6)证实其在高并行度下仍能保持性能,而 LLaDA 与 Dream 则出现急剧下降。
  • 案例研究展示了 ReFusion 的高并行性与非线性生成顺序,使其在代码生成中实现高效、类人的问题求解,结构与质量优于基线模型。

结果表明,ReFusion(微调后)在所有基准测试中均超越 Dream-7B-Instruct,实现 2.23% 的平均性能提升与 11.05 倍速度提升。作者以此对比证明,ReFusion 的架构优势具有鲁棒性,即使在训练资源远少于非开源基线的情况下依然成立。

作者利用 ReFusion 实现了一种非自回归生成方法,结合基于扩散的规划与因果填充,兼顾高性能与高效率。结果表明,ReFusion 在速度与准确率上均超越 LLaDA 与 Dream-7B-Instruct 等 MDM 基线,同时在多项任务上挑战强自回归模型 Qwen3-8B,实现更优性能与 2.33 倍平均速度提升。

作者通过受控对比评估 ReFusion 与微调基线,结果表明,尽管训练数据集更小,ReFusion 在所有基准测试中均优于 Qwen3-8B、LLaDA 与 BD3-LMs。结果表明,ReFusion 实现更高准确率与更快推理速度,平均比 Qwen3-8B 快 1.9 倍,证明其架构设计在去除数据优势后仍能实现卓越性能。

作者利用 ReFusion(一种掩码扩散模型)在多个基准测试中实现最先进的性能与效率。结果表明,ReFusion 在准确率与吞吐量上均超越所有自回归与掩码扩散基线,尤其在编码与推理任务中取得显著提升,证明其能够打破传统速度-质量权衡。

作者利用 ReFusion 实现性能与效率的平衡,在吞吐量与准确率上均超越自回归与掩码扩散模型。结果表明,尽管 ReFusion 激活参数少于部分基线,但在各基准测试中仍实现竞争性或更优性能,同时保持高推理速度。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供