
摘要
扩散型大语言模型(dLLMs)通过迭代去噪过程生成文本,然而现有的解码策略往往忽略中间阶段丰富的预测信息,仅关注最终输出。本文揭示了一个关键现象——时间振荡(temporal oscillation):正确答案常常在中间生成阶段出现,却在后续的去噪步骤中被覆盖或替换。为解决这一问题,我们提出两种互补的方法,利用时间一致性来提升性能:1)时间自一致性投票(Temporal Self-Consistency Voting),一种无需训练、仅在测试阶段使用的解码策略,通过聚合各去噪步骤的预测结果,选择最一致的输出;2)一种后训练方法,称为时间一致性强化(Temporal Consistency Reinforcement),该方法引入时间语义熵(Temporal Semantic Entropy, TSE)作为奖励信号,TSE用于衡量中间预测结果在语义层面的稳定性,从而引导模型生成更稳定、一致的文本。在多个基准测试上的实证结果表明,本文方法具有显著有效性。仅使用负TSE奖励,我们在Countdown数据集上相比现有dLLM实现了平均24.7%的显著提升;结合准确率奖励后,我们在GSM8K上取得2.0%的绝对提升,MATH500上提升4.3%,SVAMP上提升6.6%,Countdown上更是达到25.3%的绝对增益。我们的研究揭示了dLLMs中时间动态性的巨大潜力,并提供了两种简单而有效的工具,以充分挖掘和利用这一特性。