1 个月前

引言：寻找用于语言建模的高效Transformer模型

David R. So; Wojciech Mańke; Hanxiao Liu; Zihang Dai; Noam Shazeer; Quoc V. Le

摘要

大型Transformer模型在近期的自然语言处理进展中发挥了核心作用。然而，这些模型的训练和推理成本迅速增长，变得难以承受。本文旨在通过寻找一种更高效的变体来降低Transformer的成本。与以往的方法相比，我们的搜索是在较低层次进行的，针对定义Transformer TensorFlow程序的基本组件。我们发现了一种名为Primer的架构，其在自回归语言建模中的训练成本低于原始Transformer和其他变体。Primer的改进主要归功于两项简单的修改：将ReLU激活函数平方（squaring ReLU activations）以及在自注意力机制中的每个Q、K和V投影之后添加一个深度卷积层（depthwise convolution layer）。实验表明，随着计算规模的增长，Primer相对于Transformer的优势逐渐增加，并且在最优模型尺寸下，性能质量遵循幂律关系。此外，我们还通过实验证明了Primer可以无缝集成到不同的代码库中，显著加速训练过程而无需额外调参。例如，在5亿参数规模下，Primer在C4自回归语言建模任务上对原始T5架构进行了改进，将训练成本降低了4倍。进一步而言，较低的训练成本意味着Primer达到目标单次性能所需的计算资源大大减少。以类似于GPT-3 XL的19亿参数配置为例，Primer仅需三分之一的训练计算量即可实现与Transformer相同的单次性能。为了帮助可重复性研究，我们开源了我们的模型及多个T5对比实验。