1 个月前

合成自举预训练

Zitong Yang Aonan Zhang Hong Liu Tatsunori Hashimoto Emmanuel Candès Chong Wang Ruoming Pang

摘要

我们提出了一种名为“合成自举预训练”（Synthetic Bootstrapped Pretraining, SBP）的语言模型（LM）预训练方法。该方法首先从预训练数据集中学习文档之间的关系模型，随后利用该模型合成大规模的新语料库，用于联合训练。与标准预训练仅关注单个文档内词元之间的因果关联不同，SBP旨在高效建模文档间丰富的、可学习的关联关系，而这些关系可能带来更优的性能表现。我们通过设计一个计算资源匹配的预训练实验设置，从零开始对一个参数量为30亿的模型进行了高达1万亿词元的预训练，验证了SBP的有效性。实验结果表明，SBP在所有测试场景下均显著优于一个强大的重复性基线模型，并实现了接近于“理想上限”（oracle upper bound）性能的相当大比例提升——后者在拥有20倍更多唯一数据的前提下达到最优性能。定性分析显示，所合成的文档并非简单的改写或同义表达：SBP首先从原始材料中抽象出核心概念，然后在此基础上构建全新的叙述内容。除了出色的实证性能外，SBP还具有自然的贝叶斯解释：合成器隐式地学习了相关文档之间共享的潜在概念。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

合成自举预训练

Zitong Yang Aonan Zhang Hong Liu Tatsunori Hashimoto Emmanuel Candès Chong Wang Ruoming Pang

摘要

用 AI 构建 AI

Hyper Newsletters