Command Palette

Search for a command to run...

1 个月前

合成自举预训练

Zitong Yang Aonan Zhang Hong Liu Tatsunori Hashimoto Emmanuel Candès Chong Wang Ruoming Pang

合成自举预训练

摘要

我们提出了一种名为“合成自举预训练”(Synthetic Bootstrapped Pretraining, SBP)的语言模型(LM)预训练方法。该方法首先从预训练数据集中学习文档之间的关系模型,随后利用该模型合成大规模的新语料库,用于联合训练。与标准预训练仅关注单个文档内词元之间的因果关联不同,SBP旨在高效建模文档间丰富的、可学习的关联关系,而这些关系可能带来更优的性能表现。我们通过设计一个计算资源匹配的预训练实验设置,从零开始对一个参数量为30亿的模型进行了高达1万亿词元的预训练,验证了SBP的有效性。实验结果表明,SBP在所有测试场景下均显著优于一个强大的重复性基线模型,并实现了接近于“理想上限”(oracle upper bound)性能的相当大比例提升——后者在拥有20倍更多唯一数据的前提下达到最优性能。定性分析显示,所合成的文档并非简单的改写或同义表达:SBP首先从原始材料中抽象出核心概念,然后在此基础上构建全新的叙述内容。除了出色的实证性能外,SBP还具有自然的贝叶斯解释:合成器隐式地学习了相关文档之间共享的潜在概念。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供