11日前
cosFormer: AttentionにおけるSoftmaxの再考
Zhen Qin, Weixuan Sun, Hui Deng, Dongxu Li, Yunshen Wei, Baohong Lv, Junjie Yan, Lingpeng Kong, Yiran Zhong

要約
Transformerは自然言語処理、コンピュータビジョン、音声処理の分野において大きな成功を収めており、その中核をなすソフトマックスアテンションは長距離依存関係の捉え方において優れた性能を発揮する一方で、シーケンス長に二次的に依存する空間的・時間的計算量の増大により、スケーラビリティに課題を抱えている。この問題を克服するため、カーネル法がソフトマックス演算子の近似を通じて計算複雑度を低減する手法として広く用いられている。しかし、近似誤差の存在により、異なるタスクやコーパスにおける性能が不安定であり、従来のソフトマックスアテンションと比較して顕著な性能低下を引き起こす場合がある。本論文では、カジュアルアテンションおよびクロスアテンションの両方において、従来のTransformerと同等あるいはそれ以上の精度を達成できる線形Transformer「cosFormer」を提案する。cosFormerはソフトマックスアテンションの2つの重要な性質に基づいている:i)アテンション行列の非負性、ii)アテンション行列の分布を集中させる非線形な再重み付け機構。これに対し、cosFormerは線形演算子とコサインに基づく距離再重み付け機構を用いて、これらの性質を線形的に再現している。言語モデリングおよびテキスト理解タスクにおける広範な実験により、本手法の有効性が実証された。さらに、長文シーケンスへの適用においても検証を行い、Long-Range Arenaベンチマークにおいて最先端の性能を達成した。ソースコードは以下のURLから公開されている:https://github.com/OpenNLPLab/cosFormer。