Command Palette
Search for a command to run...
Chengyue Wu Hao Zhang Shuchen Xue Shizhe Diao Yonggan Fu Zhijian Liu Pavlo Molchanov Ping Luo Song Han Enze Xie

摘要
自回归(AR)大语言模型(LLM)在众多自然语言任务中取得了显著性能,但其固有的序列解码机制限制了推理效率。在本工作中,我们提出 Fast-dLLM v2,一种精心设计的块扩散语言模型(dLLM),能够高效地将预训练的自回归模型转化为支持并行文本生成的扩散语言模型,仅需约10亿个token的微调数据。与全注意力扩散LLM(如Dream,需5800亿token)相比,该方法在训练数据量上减少了500倍,同时完全保留了原始模型的性能。我们的方法引入了一种新颖的训练范式,结合块扩散机制与互补注意力掩码,实现了块级双向上下文建模,且不损害自回归训练目标。为进一步加速解码过程,我们设计了一种分层缓存机制:块级缓存用于存储跨块的历史上下文表示,子块缓存则支持在部分解码块内实现高效的并行生成。结合我们的并行解码流水线,Fast-dLLM v2 在不降低生成质量的前提下,相比标准自回归解码实现了最高达2.5倍的加速。在多种基准测试上的大量实验表明,Fast-dLLM v2 在准确性上达到或超越自回归基线模型,同时在扩散语言模型中展现出当前最先进的推理效率,标志着快速且高精度大语言模型实际部署的重要进展。代码与模型将公开发布。