HyperAIHyperAI

Command Palette

Search for a command to run...

一种无需点积注意力的Transformer

Joshua M. Susskind Ruixiang Zhang Hanlin Goh Chen Huang Nitish Srivastava Walter Talbott Shuangfei Zhai

摘要

我们提出了一种高效的Transformer变体——点积注意力自由Transformer(Dot Product Attention Free Transformer, DAFT),该模型消除了自注意力机制中查询(query)与键(key)之间的点积运算。其核心思想是为查询、键和值的每个维度构建可分解的注意力图谱,这种可分解性使得注意力张量无需显式计算或存储。一个DAFT层的内存复杂度与上下文长度及特征维度均呈线性关系,因而能够有效支持大规模输入和模型。此外,我们还引入了DAFT-conv这一模型变体,该变体在保持全局连接性的同时,充分利用了局部性与空间权重共享的特性。我们在ImageNet-1K图像分类任务,以及CIFAR-10和Enwik8两个自回归建模任务上进行了实验。结果表明,DAFT在所有基准测试中均表现出具有竞争力的性能,同时实现了优异的计算效率。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供