9 天前

Transformer 质量的线性时间实现

Weizhe Hua, Zihang Dai, Hanxiao Liu, Quoc V. Le

摘要

我们重新审视了Transformer架构中的设计选择，并提出了一系列方法，以解决其在处理长序列时的固有缺陷。首先，我们提出了一种名为门控注意力单元（gated attention unit）的简单结构，该结构允许在几乎不损失模型质量的前提下，使用性能较弱的单头注意力机制。随后，我们进一步提出一种与该新结构互补的线性近似方法，该方法具有良好的加速器友好性，且在模型性能上表现出极强的竞争力。由此构建的模型被命名为FLASH，在短序列（512）和长序列（8K）两种上下文长度下，其困惑度（perplexity）均达到改进型Transformer的水平。在自回归语言建模任务中，FLASH在Wiki-40B数据集上实现了最高达4.9倍的训练加速，在PG-19数据集上更是达到12.1倍的加速；在C4数据集的掩码语言建模任务中，也实现了4.8倍的训练加速。