
摘要
我们重新审视了Transformer架构中的设计选择,并提出了一系列方法,以解决其在处理长序列时的固有缺陷。首先,我们提出了一种名为门控注意力单元(gated attention unit)的简单结构,该结构允许在几乎不损失模型质量的前提下,使用性能较弱的单头注意力机制。随后,我们进一步提出一种与该新结构互补的线性近似方法,该方法具有良好的加速器友好性,且在模型性能上表现出极强的竞争力。由此构建的模型被命名为FLASH,在短序列(512)和长序列(8K)两种上下文长度下,其困惑度(perplexity)均达到改进型Transformer的水平。在自回归语言建模任务中,FLASH在Wiki-40B数据集上实现了最高达4.9倍的训练加速,在PG-19数据集上更是达到12.1倍的加速;在C4数据集的掩码语言建模任务中,也实现了4.8倍的训练加速。