1 个月前

一种无需点积注意力的Transformer

{Joshua M. Susskind, Ruixiang Zhang, Hanlin Goh, Chen Huang, Nitish Srivastava, Walter Talbott, Shuangfei Zhai}

摘要

我们提出了一种高效的Transformer变体——点积注意力自由Transformer（Dot Product Attention Free Transformer, DAFT），该模型消除了自注意力机制中查询（query）与键（key）之间的点积运算。其核心思想是为查询、键和值的每个维度构建可分解的注意力图谱，这种可分解性使得注意力张量无需显式计算或存储。一个DAFT层的内存复杂度与上下文长度及特征维度均呈线性关系，因而能够有效支持大规模输入和模型。此外，我们还引入了DAFT-conv这一模型变体，该变体在保持全局连接性的同时，充分利用了局部性与空间权重共享的特性。我们在ImageNet-1K图像分类任务，以及CIFAR-10和Enwik8两个自回归建模任务上进行了实验。结果表明，DAFT在所有基准测试中均表现出具有竞争力的性能，同时实现了优异的计算效率。