Command Palette
Search for a command to run...
Zitong Yang Aonan Zhang Hong Liu Tatsunori Hashimoto Emmanuel Candès Chong Wang Ruoming Pang

摘要
我们提出了一种名为“合成自举预训练”(Synthetic Bootstrapped Pretraining, SBP)的语言模型(LM)预训练方法。该方法首先从预训练数据集中学习文档之间的关系模型,随后利用该模型合成大规模的新语料库,用于联合训练。与标准预训练仅关注单个文档内词元之间的因果关联不同,SBP旨在高效建模文档间丰富的、可学习的关联关系,而这些关系可能带来更优的性能表现。我们通过设计一个计算资源匹配的预训练实验设置,从零开始对一个参数量为30亿的模型进行了高达1万亿词元的预训练,验证了SBP的有效性。实验结果表明,SBP在所有测试场景下均显著优于一个强大的重复性基线模型,并实现了接近于“理想上限”(oracle upper bound)性能的相当大比例提升——后者在拥有20倍更多唯一数据的前提下达到最优性能。定性分析显示,所合成的文档并非简单的改写或同义表达:SBP首先从原始材料中抽象出核心概念,然后在此基础上构建全新的叙述内容。除了出色的实证性能外,SBP还具有自然的贝叶斯解释:合成器隐式地学习了相关文档之间共享的潜在概念。