Fast-dLLM:通过启用KV缓存和并行解码实现无需训练的扩散LLM加速
Wu, Chengyue ; Zhang, Hao ; Xue, Shuchen ; Liu, Zhijian ; Diao, Shizhe ; Zhu, Ligeng ; Luo, Ping ; Han, Song ; Xie, Enze
发布日期: 6/1/2025

摘要
基于扩散的大规模语言模型(Diffusion LLMs)在并行解码能力的支持下,展示了非自回归文本生成的潜力。然而,由于缺乏键值(KV)缓存机制以及同时解码多个标记时质量下降的问题,开源的Diffusion LLMs的实际推理速度通常落后于自回归模型。为了解决这一差距,我们提出了一种专为双向扩散模型设计的新型块状近似KV缓存机制,该机制能够在性能几乎无损失的情况下实现缓存重用。此外,我们确定了并行解码中生成质量下降的根本原因是条件独立假设导致的标记依赖关系破坏。为此,我们提出了一种基于置信度的并行解码策略,该策略选择性地解码超过置信度阈值的标记,从而减轻依赖关系违反问题并保持生成质量。实验结果表明,在多个大规模语言模型基准测试中,LLaDA和Dream模型通过该方法实现了最高27.6倍的吞吐量提升,且准确率损失极小,这缩小了与自回归模型之间的性能差距,并为Diffusion LLMs的实际部署铺平了道路。