1 个月前
一种无需点积注意力的Transformer
{Joshua M. Susskind, Ruixiang Zhang, Hanlin Goh, Chen Huang, Nitish Srivastava, Walter Talbott, Shuangfei Zhai}

摘要
我们提出了一种高效的Transformer变体——点积注意力自由Transformer(Dot Product Attention Free Transformer, DAFT),该模型消除了自注意力机制中查询(query)与键(key)之间的点积运算。其核心思想是为查询、键和值的每个维度构建可分解的注意力图谱,这种可分解性使得注意力张量无需显式计算或存储。一个DAFT层的内存复杂度与上下文长度及特征维度均呈线性关系,因而能够有效支持大规模输入和模型。此外,我们还引入了DAFT-conv这一模型变体,该变体在保持全局连接性的同时,充分利用了局部性与空间权重共享的特性。我们在ImageNet-1K图像分类任务,以及CIFAR-10和Enwik8两个自回归建模任务上进行了实验。结果表明,DAFT在所有基准测试中均表现出具有竞争力的性能,同时实现了优异的计算效率。