
摘要
扩散型大语言模型(dLLMs)作为文本生成的一种有前景的替代方案,正逐渐受到关注。与自回归(AR)大语言模型相比,dLLMs具备在单次迭代中解码多个标记的潜力。然而,目前现有的开源dLLMs均未能在与同规模AR大语言模型相当的条件下实现更优的推理速度。本文提出一种简单而有效的策略——离散扩散强制(Discrete Diffusion Forcing, D2F),成功打破了这一瓶颈。D2F为dLLMs赋予了两项关键能力:(1)块级自回归生成,以支持键值缓存(KV cache)的利用;(2)在无需等待前序块完成的情况下,即可预测后续标记,从而实现块间并行解码。通过这一机制,原始的dLLMs被重构为一种高效的AR-扩散混合推理范式。D2F可通过基于预训练dLLMs的非对称知识蒸馏过程实现。此外,本文进一步提出一种流水线式并行解码算法,可在推理效率与生成效果之间实现灵活权衡。实验结果表明,D2F驱动的dLLMs在GSM8K基准上的推理速度比LLaMA3和Qwen2.5快超过2.5倍;相较于原始dLLMs(如LLaDA和Dream),推理加速可达50倍以上,同时保持相当的输出质量。相关代码已开源,地址为:https://github.com/zhijie-group/Discrete-Diffusion-Forcing。