HyperAI

在严格受控的预训练设置下，我们观察到一个“交叉点”现象：当唯一数据量有限时，扩散语言模型（DLMs）通过训练更多轮次，始终能超越自回归（AR）模型。随着数据量增加或数据质量提升，该交叉点会向后推迟；而模型规模越大，交叉点则越提前出现，且该现象在密集型与稀疏型架构中均持续存在。我们将其性能提升归因于三个相互增强的因素：（1）任意顺序建模能力，（2）通过迭代双向去噪带来的超密集计算，以及（3）内置的蒙特卡洛数据增强机制。在数据受限条件下，输入或参数噪声虽能提升AR模型的表现，但无法弥合与DLM之间的差距。在大规模场景下，一个参数量为17亿的DLM，在100亿个唯一Python代码token上，以约1.5万亿token的计算预算进行训练，其性能已超越在完全匹配设置下训练的AR语言模型。此外，一个参数量为10亿的DLM仅使用10亿个token的训练数据，不依赖任何特殊技巧，仅通过重复标准预训练数据，便在HellaSwag任务上达到超过56%的准确率，在MMLU任务上达到超过33%的准确率。我们还发现，在此范式下，验证集交叉熵的上升并不意味着下游任务性能的下降。

扩散语言模型是超数据学习者

Jinjie Ni Qian Liu Longxu Dou Chao Du Zili Wang Hang Yan Tianyu Pang Michael Qizhe Shieh

摘要

用 AI 构建 AI

Hyper Newsletters

Command Palette

扩散语言模型是超数据学习者

Jinjie Ni Qian Liu Longxu Dou Chao Du Zili Wang Hang Yan Tianyu Pang Michael Qizhe Shieh

摘要

用 AI 构建 AI

Hyper Newsletters