11 天前
用 Performers 重新思考注意力机制
Krzysztof Choromanski, Valerii Likhosherstov, David Dohan, Xingyou Song, Andreea Gane, Tamas Sarlos, Peter Hawkins, Jared Davis, Afroz Mohiuddin, Lukasz Kaiser, David Belanger, Lucy Colwell, Adrian Weller

摘要
我们提出了 Performers,这是一种新型的 Transformer 架构,能够在无需依赖任何先验假设(如稀疏性或低秩性)的前提下,以可证明的精度近似常规的 softmax 全秩注意力 Transformer,同时仅需线性(而非二次)的空间与时间复杂度。为近似 softmax 注意力核函数,Performers 引入了一种新颖的快速注意力方法——正交随机特征快速注意力(Fast Attention Via positive Orthogonal Random features,简称 FAVOR+)。该方法在可扩展核方法领域可能具有独立的研究价值。此外,FAVOR+ 还可用于高效建模超出 softmax 范围的可核化注意力机制。这种强大的表征能力使得我们首次能够在大规模任务上准确比较 softmax 注意力与其他核函数的表现,而这些任务超出了传统 Transformer 的处理能力范围,从而有助于探索最优的注意力核函数。Performers 是一种完全线性的架构,与标准 Transformer 完全兼容,并具备坚实的理论保障:能够无偏或近乎无偏地估计注意力矩阵,实现统一收敛性,并保持较低的估计方差。我们在一系列多样化的任务上对 Performers 进行了测试,涵盖从像素预测、文本建模到蛋白质序列建模等多个领域。实验结果表明,Performers 在性能上与现有的其他高效稀疏与稠密注意力方法相当,充分展示了其所采用的新型注意力学习范式在实际应用中的有效性。