17日前

Mega：移動平均を備えたゲート付きアテンション

Xuezhe Ma, Chunting Zhou, Xiang Kong, Junxian He, Liangke Gui, Graham Neubig, Jonathan May, Luke Zettlemoyer

要約

Transformerのアテンション機構における設計選択、特に弱い誘導的バイアス（inductive bias）と二次時間計算量という点が、長さの長いシーケンスのモデル化への応用を制限してきました。本論文では、位置に依存しないアテンション機構に位置に敏感な局所依存性の誘導的バイアスを組み込むために、（指数的）移動平均を用いた、単一ヘッドでゲート制御されたシンプルかつ理論的に根拠を持つアテンション機構「Mega」を提案する。さらに、固定長の複数のチャンクにシーケンスを効率的に分割することで、線形時間および空間計算量を実現しつつ、性能の低下を最小限に抑えるMegaの変種も提案する。長距離アリーナ（Long Range Arena）をはじめとする幅広いシーケンスモデリングベンチマーク、ニューラル機械翻訳、自己回帰的言語モデリング、画像および音声分類における広範な実験結果から、Transformerの変種や最近の状態空間モデルを含む他のシーケンスモデルと比較して、Megaが顕著な性能向上を達成していることが示された。