11 天前

用 Performers 重新思考注意力机制

Krzysztof Choromanski, Valerii Likhosherstov, David Dohan, Xingyou Song, Andreea Gane, Tamas Sarlos, Peter Hawkins, Jared Davis, Afroz Mohiuddin, Lukasz Kaiser, David Belanger, Lucy Colwell, Adrian Weller
用 Performers 重新思考注意力机制
摘要

我们提出了 Performers,这是一种新型的 Transformer 架构,能够在无需依赖任何先验假设(如稀疏性或低秩性)的前提下,以可证明的精度近似常规的 softmax 全秩注意力 Transformer,同时仅需线性(而非二次)的空间与时间复杂度。为近似 softmax 注意力核函数,Performers 引入了一种新颖的快速注意力方法——正交随机特征快速注意力(Fast Attention Via positive Orthogonal Random features,简称 FAVOR+)。该方法在可扩展核方法领域可能具有独立的研究价值。此外,FAVOR+ 还可用于高效建模超出 softmax 范围的可核化注意力机制。这种强大的表征能力使得我们首次能够在大规模任务上准确比较 softmax 注意力与其他核函数的表现,而这些任务超出了传统 Transformer 的处理能力范围,从而有助于探索最优的注意力核函数。Performers 是一种完全线性的架构,与标准 Transformer 完全兼容,并具备坚实的理论保障:能够无偏或近乎无偏地估计注意力矩阵,实现统一收敛性,并保持较低的估计方差。我们在一系列多样化的任务上对 Performers 进行了测试,涵盖从像素预测、文本建模到蛋白质序列建模等多个领域。实验结果表明,Performers 在性能上与现有的其他高效稀疏与稠密注意力方法相当,充分展示了其所采用的新型注意力学习范式在实际应用中的有效性。

用 Performers 重新思考注意力机制 | 最新论文 | HyperAI超神经