Command Palette
Search for a command to run...
Haoyang Zheng Xinyang Liu Cindy Xiangrui Kong Nan Jiang Zheyuan Hu Weijian Luo Wei Deng Guang Lin

摘要
在人工智能时代,快速且高质量的语言生成一直是人们追求的终极目标。本文提出了一种基于训练的高效生成方法——离散扩散分歧指令模型(Discrete Diffusion Divergence Instruct,简称 DiDi-Instruct)。该方法以预训练的(掩码)离散扩散语言模型(dLLM)为起点,通过知识蒸馏生成一个仅需几步即可完成生成的轻量级学生模型,从而实现极快的推理速度。所得到的 DiDi-Instruct 模型在性能上可与原始 dLLM 教师模型或 GPT-2 基线模型相媲美,甚至更优,同时支持最高达 64 倍的加速。DiDi-Instruct 的理论基础是一种基于积分 KL 散度最小化的新型框架,该框架导出了一个实用的训练算法。我们进一步引入了分组奖励归一化、中间状态匹配机制以及奖励引导的祖先采样器,显著提升了训练的稳定性、模型的覆盖能力以及生成质量。在 OpenWebText 数据集上,DiDi-Instruct 的困惑度从 62.2(8 次非自适应函数评估,NFEs)降至 18.4(128 NFEs),显著优于此前的加速 dLLM 模型及 GPT-2 基线。这些性能提升伴随着极小的熵损失(约为 0.1),且相较于现有 dLLM 知识蒸馏方法,额外训练的时钟时间减少了超过 70%。我们通过广泛的消融实验、模型规模扩展以及离散蛋白质序列生成任务,进一步验证了 DiDi-Instruct 的鲁棒性与有效性。综上所述,DiDi-Instruct 是一种高效且强大的知识蒸馏方法,真正实现了“眨眼之间”完成语言生成的目标。