17 天前
随机特征注意力
Hao Peng, Nikolaos Pappas, Dani Yogatama, Roy Schwartz, Noah A. Smith, Lingpeng Kong

摘要
Transformer 是一类在多种序列建模任务中处于前沿水平的模型。其核心机制是注意力函数,该函数在每个时间步上建模输入元素之间的成对交互关系。尽管注意力机制功能强大,但由于其时间与空间复杂度随序列长度呈二次增长,因此在处理长序列时难以高效扩展。为此,我们提出 RFA(Random Feature Attention),一种具有线性时间与空间复杂度的注意力机制。RFA 采用随机特征方法对 softmax 函数进行近似,从而实现高效计算,并探索其在 Transformer 模型中的应用。RFA 可作为传统 softmax 注意力的即插即用替代方案,并通过可选的门控机制,提供一种简单有效的方式引入“近期偏好”(recency bias)的学习能力。在语言建模与机器翻译任务上的实验表明,RFA 在性能上可达到甚至超越多个强大的 Transformer 基线模型。在机器翻译实验中,RFA 的解码速度是标准 Transformer 的两倍。与现有的高效 Transformer 变体相比,RFA 在三个长文本分类数据集上同时展现出优异的准确率与效率,具有较强的竞争力。分析结果表明,RFA 在处理长序列时的效率优势尤为显著,这预示着其在需要处理大规模输入、追求快速解码速度或低内存占用的任务中将具有重要应用价值。