Command Palette

Search for a command to run...

19 天前

扩散语言模型是超数据学习者

Jinjie Ni Qian Liu Longxu Dou Chao Du Zili Wang Hang Yan Tianyu Pang Michael Qizhe Shieh

扩散语言模型是超数据学习者

摘要

在严格受控的预训练设置下,我们观察到一个“交叉点”现象:当唯一数据量有限时,扩散语言模型(DLMs)通过训练更多轮次,始终能超越自回归(AR)模型。随着数据量增加或数据质量提升,该交叉点会向后推迟;而模型规模越大,交叉点则越提前出现,且该现象在密集型与稀疏型架构中均持续存在。我们将其性能提升归因于三个相互增强的因素:(1)任意顺序建模能力,(2)通过迭代双向去噪带来的超密集计算,以及(3)内置的蒙特卡洛数据增强机制。在数据受限条件下,输入或参数噪声虽能提升AR模型的表现,但无法弥合与DLM之间的差距。在大规模场景下,一个参数量为17亿的DLM,在100亿个唯一Python代码token上,以约1.5万亿token的计算预算进行训练,其性能已超越在完全匹配设置下训练的AR语言模型。此外,一个参数量为10亿的DLM仅使用10亿个token的训练数据,不依赖任何特殊技巧,仅通过重复标准预训练数据,便在HellaSwag任务上达到超过56%的准确率,在MMLU任务上达到超过33%的准确率。我们还发现,在此范式下,验证集交叉熵的上升并不意味着下游任务性能的下降。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
扩散语言模型是超数据学习者 | 论文 | HyperAI超神经