HyperAIHyperAI

Command Palette

Search for a command to run...

Transformer 质量的线性时间实现

Weizhe Hua Zihang Dai Hanxiao Liu Quoc V. Le

摘要

我们重新审视了Transformer架构中的设计选择,并提出了一系列方法,以解决其在处理长序列时的固有缺陷。首先,我们提出了一种名为门控注意力单元(gated attention unit)的简单结构,该结构允许在几乎不损失模型质量的前提下,使用性能较弱的单头注意力机制。随后,我们进一步提出一种与该新结构互补的线性近似方法,该方法具有良好的加速器友好性,且在模型性能上表现出极强的竞争力。由此构建的模型被命名为FLASH,在短序列(512)和长序列(8K)两种上下文长度下,其困惑度(perplexity)均达到改进型Transformer的水平。在自回归语言建模任务中,FLASH在Wiki-40B数据集上实现了最高达4.9倍的训练加速,在PG-19数据集上更是达到12.1倍的加速;在C4数据集的掩码语言建模任务中,也实现了4.8倍的训练加速。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供