11日前

パフォーマーを用いたアテンションの再考

Krzysztof Choromanski, Valerii Likhosherstov, David Dohan, Xingyou Song, Andreea Gane, Tamas Sarlos, Peter Hawkins, Jared Davis, Afroz Mohiuddin, Lukasz Kaiser, David Belanger, Lucy Colwell, Adrian Weller

論文の詳細を見る

要約

我々は、正規の（ソフトマックス）フルランク注意力機構を、確率論的に保証された精度で近似可能なTransformerアーキテクチャ「Performers」を提案する。このアーキテクチャは、スパース性や低ランク性といった事前知識に依存せずに、従来の二次時間・空間計算量に比べて線形時間・空間計算量（線形複雑度）で実現可能である。Softmax注意力カーネルを近似するために、本研究では新たな「正の直交ランダム特徴量を用いた高速注意力手法（FAVOR+）」を導入する。FAVOR+は、スケーラブルなカーネル手法の分野においても独立した価値を持つ可能性を有しており、Softmaxに限らず、カーネル化可能な注意力機構の効率的モデル化にも応用可能である。この表現力は、従来のTransformerでは到達不可能な大規模タスクにおいて、Softmaxカーネルと他のカーネルとの精度比較を初めて実現し、最適な注意力カーネルの探索を可能にする上で極めて重要である。Performersは、正規のTransformerと完全に互換性があり、無偏またはほぼ無偏な注意力行列推定、一様収束性、低推定分散といった強力な理論的保証を備えた線形アーキテクチャである。我々は、ピクセル予測からテキストモデル、さらにはタンパク質配列モデリングに至るまで多様なタスクにおいてPerformersの性能を検証した。その結果、他の検討された効率的なスパース・密な注意力手法と比較しても競争力のある結果を示し、Performersが採用する新しい注意力学習パラダイムの有効性を実証した。