16 天前

cosFormer:重新思考注意力机制中的Softmax

Zhen Qin, Weixuan Sun, Hui Deng, Dongxu Li, Yunshen Wei, Baohong Lv, Junjie Yan, Lingpeng Kong, Yiran Zhong
cosFormer:重新思考注意力机制中的Softmax
摘要

Transformer 在自然语言处理、计算机视觉和音频处理等领域取得了显著成功。作为其核心组件之一,Softmax 注意力机制能够有效捕捉长距离依赖关系,但其空间和时间复杂度随序列长度呈二次增长,严重限制了模型的可扩展性。为降低计算复杂度,通常采用核方法对 Softmax 算子进行近似。然而,由于近似误差的存在,这类方法在不同任务或语料上的性能表现不稳定,且与原始的 Softmax 注意力相比存在显著性能下降。本文提出了一种线性 Transformer 模型——cosFormer,该模型在因果注意力和交叉注意力场景下均能实现与原始 Transformer 相当甚至更优的准确率。cosFormer 的设计基于 Softmax 注意力的两个关键性质:(i)注意力矩阵的非负性;(ii)一种非线性的重加权机制,能够集中注意力分布。作为其线性替代方案,cosFormer 通过一个线性算子与基于余弦距离的重加权机制,精确保持了上述两个性质。在语言建模与文本理解任务上的大量实验验证了所提方法的有效性。进一步地,我们在长序列任务上进行了评估,在 Long-Range Arena 基准测试中取得了当前最优性能。相关源代码已开源,地址为:https://github.com/OpenNLPLab/cosFormer。

cosFormer:重新思考注意力机制中的Softmax | 最新论文 | HyperAI超神经