17日前

ランダム特徴量アテンション

Hao Peng, Nikolaos Pappas, Dani Yogatama, Roy Schwartz, Noah A. Smith, Lingpeng Kong

要約

Transformerは、さまざまなシーケンスモデリングタスクにおいて最先端のモデルである。その核となるのは、各時刻における入力同士の対間相互作用をモデル化するアテンション関数である。アテンションは強力な機能を持つが、シーケンス長に対して時間的・空間的計算量が二次関数的に増加するため、長文シーケンスへのスケーラビリティに課題がある。本研究では、ランダム特徴量法を用いてソフトマックス関数を近似する線形時間・空間複雑度のアテンション「RFA（Random Feature Attention）」を提案し、Transformerへの応用を検討する。RFAは従来のソフトマックスアテンションの即時置換として利用可能であり、オプションのゲーティング機構により「最近性バイアス（recency bias）」を簡単に学習する手法を提供する。言語モデリングおよび機械翻訳に関する実験では、RFAは強力なTransformerベースラインと同等またはより優れた性能を達成した。機械翻訳の実験では、RFAは従来のTransformerに比べてデコード速度が2倍に向上した。既存の効率化されたTransformerの変種と比較しても、RFAは3つの長文分類データセットにおいて、精度と効率の両面で競争力を持つ。分析の結果、RFAの効率性の向上は特に長文シーケンスにおいて顕著であることが示された。これにより、大規模な入力処理、高速なデコード速度、または低メモリ消費が求められるタスクにおいて、RFAが特に有効であることが示唆される。