11日前
Nyströmformer:自己注意機構の近似のためのNyströmベースのアルゴリズム
Yunyang Xiong, Zhanpeng Zeng, Rudrasis Chakraborty, Mingxing Tan, Glenn Fung, Yin Li, Vikas Singh

要約
Transformerは、自然言語処理の多様なタスクにおいて強力なツールとして登場している。Transformerの優れた性能を支える重要な要素の一つは、各トークンに対する他のトークンの影響や依存関係を符号化する自己注意(self-attention)機構である。この機構は有益ではあるが、入力シーケンス長に対する自己注意の計算量が二次関数的(O(n²))であるため、長大なシーケンスへの適用が制限されてきた。この問題は、研究コミュニティにおいて現在も活発に検討されている。この制約を克服するため、我々はシーケンス長の関数として良好なスケーラビリティを示すNyströmformerを提案する。本研究のアイデアは、標準的な自己注意をO(n)の計算量で近似するため、Nyström法を適応することに基づいている。Nyströmformerのスケーラビリティにより、数千トークンに及ぶ長大なシーケンスへの適用が可能となる。GLUEベンチマークおよびIMDBレビューにおける複数の下流タスクで、標準的なシーケンス長を用いた評価を行った結果、Nyströmformerは標準的な自己注意と同等、あるいは一部のケースではわずかに優れた性能を示した。また、長距離依存性を扱うLong Range Arena(LRA)ベンチマークにおける長シーケンスタスクでは、他の効率的な自己注意手法と比較して、Nyströmformerは優れた性能を発揮した。本研究のコードは、https://github.com/mlpen/Nystromformer にて公開されている。