1 个月前

引言:寻找用于语言建模的高效Transformer模型

David R. So; Wojciech Mańke; Hanxiao Liu; Zihang Dai; Noam Shazeer; Quoc V. Le
引言:寻找用于语言建模的高效Transformer模型
摘要

大型Transformer模型在近期的自然语言处理进展中发挥了核心作用。然而,这些模型的训练和推理成本迅速增长,变得难以承受。本文旨在通过寻找一种更高效的变体来降低Transformer的成本。与以往的方法相比,我们的搜索是在较低层次进行的,针对定义Transformer TensorFlow程序的基本组件。我们发现了一种名为Primer的架构,其在自回归语言建模中的训练成本低于原始Transformer和其他变体。Primer的改进主要归功于两项简单的修改:将ReLU激活函数平方(squaring ReLU activations)以及在自注意力机制中的每个Q、K和V投影之后添加一个深度卷积层(depthwise convolution layer)。实验表明,随着计算规模的增长,Primer相对于Transformer的优势逐渐增加,并且在最优模型尺寸下,性能质量遵循幂律关系。此外,我们还通过实验证明了Primer可以无缝集成到不同的代码库中,显著加速训练过程而无需额外调参。例如,在5亿参数规模下,Primer在C4自回归语言建模任务上对原始T5架构进行了改进,将训练成本降低了4倍。进一步而言,较低的训练成本意味着Primer达到目标单次性能所需的计算资源大大减少。以类似于GPT-3 XL的19亿参数配置为例,Primer仅需三分之一的训练计算量即可实现与Transformer相同的单次性能。为了帮助可重复性研究,我们开源了我们的模型及多个T5对比实验。