13 天前
超越固定长度:用于扩散大语言模型的可变长度去噪
Jinsong Li, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Jiaqi Wang, Dahua Lin

摘要
扩散型大语言模型(Diffusion Large Language Models, DLLMs)正作为一种强有力的替代方案,挑战当前主流的自回归大语言模型(Autoregressive Large Language Models),展现出高效的并行生成能力以及全局上下文建模的潜力。然而,DLLMs的实际应用受到一个关键架构限制的制约:生成长度必须预先静态设定。这种静态长度分配带来了显著的权衡问题:长度不足会严重削弱复杂任务上的性能,而过长的生成长度则带来巨大的计算开销,有时甚至导致性能下降。尽管推理框架本身具有刚性,但我们观察到,模型自身内部存在与特定任务最优响应长度高度相关的隐含信号。为弥合这一差距,我们利用这些潜在信号,提出了一种无需训练的新型去噪策略——DAEDAL(Dynamic Adaptive Length Expansion for Diffusion Large Language Models),实现了DLLMs的动态自适应长度扩展。DAEDAL采用两阶段机制:1)在去噪过程开始前,DAEDAL从一个较短的初始长度出发,基于序列补全指标,迭代地将其扩展至粗略适配任务需求的长度;2)在去噪过程中,DAEDAL通过插入掩码标记(mask token)动态识别并扩展生成不充分的区域,确保最终输出完整且充分发育。在多种DLLMs上的大量实验表明,DAEDAL在性能上可达到甚至在某些情况下超越精心调优的固定长度基线模型,同时显著提升了计算效率,实现了更高的有效token比率。通过突破静态长度的限制,DAEDAL为DLLMs释放了新的潜力,缩小了其与自回归模型之间的关键差距,为更高效、更强大的文本生成开辟了新路径。