用网络文档生成合成数据:破解AI训练数据瓶颈的新路径
Datology AI推出名为BeyondWeb的新框架,通过将现有网页文档重构为高信息密度的合成数据,应对AI训练数据日益短缺的挑战。该方法旨在突破当前大模型训练中“数据墙”的瓶颈,提升训练效率与模型性能。 随着大语言模型训练规模突破万亿级token,高质量网络数据愈发稀缺。BeyondWeb通过重组内容结构、增强教育性表达、优化信息密度,生成更适合作为训练数据的文本。实验显示,使用该框架训练的80亿参数模型,在14项标准基准测试中,准确率比Hugging Face的Cosmopedia高出5.1个百分点,比Nvidia的Nemotron-CC高出2.6个百分点。 训练效率方面,BeyondWeb比公开网络数据快7.7倍,比Nemotron Synthetic快2.7倍。在相同token预算下,一个30亿参数模型在BeyondWeb上训练的表现,甚至超过在Cosmopedia上训练的80亿参数模型。 仅用660亿token训练后,BeyondWeb模型准确率可达64%,远超RedPajama的7.7倍和Nemotron-Synth的2.7倍。研究还发现,数据多样性对长期性能提升至关重要,而传统合成方法因风格单一,效果易出现边际递减。此外,当前网络数据中对话式内容不足2.7%,但聊天是大模型的主要应用场景,补充此类数据虽有帮助,但收益很快饱和。 有趣的是,研究发现小型语言模型(如1B至3B参数)在生成高质量合成数据方面表现优异,性能提升在3B后趋于平缓。这表明资源有限的机构也能借助小模型构建强大合成数据集。不同模型家族生成的数据质量相近,说明模型整体性能不能预测其生成合成数据的能力。 BeyondWeb已用于训练ArceeAI的45亿参数AFM模型,Datology AI搭建了可处理万亿级token的自动化流水线。尽管该框架尚未开放免费研究使用,但其潜力已获验证。 此前,微软在Phi-4中使用4000亿token的“教材风格”合成数据,并引入“关键标记”提升学习效果;Nvidia则发布Nemotron-4 340B,其中98%训练数据为合成生成。研究还驳斥了“模型坍塌”理论,证明合理使用合成数据可推动AI进步。OpenAI在GPT-5发布中也确认使用合成数据,由其内部o3模型生成,强调数据质量而非单纯数量,以实现真正学习。微软前Phi项目负责人Sébastien Bubeck指出,合成数据的价值在于精心设计,而非简单填补空白。