Command Palette
Search for a command to run...
Jinjie Ni Qian Liu Longxu Dou Chao Du Zili Wang Hang Yan Tianyu Pang Michael Qizhe Shieh

摘要
在严格受控的预训练设置下,我们观察到一个“交叉点”现象:当唯一数据量有限时,扩散语言模型(DLMs)通过训练更多轮次,始终能超越自回归(AR)模型。随着数据量增加或数据质量提升,该交叉点会向后推迟;而模型规模越大,交叉点则越提前出现,且该现象在密集型与稀疏型架构中均持续存在。我们将其性能提升归因于三个相互增强的因素:(1)任意顺序建模能力,(2)通过迭代双向去噪带来的超密集计算,以及(3)内置的蒙特卡洛数据增强机制。在数据受限条件下,输入或参数噪声虽能提升AR模型的表现,但无法弥合与DLM之间的差距。在大规模场景下,一个参数量为17亿的DLM,在100亿个唯一Python代码token上,以约1.5万亿token的计算预算进行训练,其性能已超越在完全匹配设置下训练的AR语言模型。此外,一个参数量为10亿的DLM仅使用10亿个token的训练数据,不依赖任何特殊技巧,仅通过重复标准预训练数据,便在HellaSwag任务上达到超过56%的准确率,在MMLU任务上达到超过33%的准确率。我们还发现,在此范式下,验证集交叉熵的上升并不意味着下游任务性能的下降。