3ヶ月前

アテンションをRNNとしての利用

Leo Feng, Frederick Tung, Hossein Hajimirsadeghi, Mohamed Osama Ahmed, Yoshua Bengio, Greg Mori
アテンションをRNNとしての利用
要約

Transformerの登場は、シーケンスモデリングにおいて重要な飛躍をもたらした。これにより、GPUの並列処理を効果的に活用できる高パフォーマンスなアーキテクチャが実現された。しかし、Transformerは推論時の計算コストが非常に高いため、特にリソース制約の厳しい環境(例:モバイル端末や組み込みデバイス)においてその応用が制限されている。この問題に対処するため、本研究では以下の4つのステップで新たなアプローチを提示する。まず(1)、注意機構(attention)が「多対一」のRNN出力を効率的に計算できる特殊な再帰型ニューラルネットワーク(RNN)として解釈できることを示す。次に(2)、Transformerを含む代表的な注意機構ベースのモデルが、RNNの変種として捉えられることを示す。しかし、従来のRNN(例:LSTM)とは異なり、これらのモデルは新しいトークンに対する効率的な更新ができないという課題がある。これを解決するために(3)、並列プレフィックススキャン(parallel prefix scan)アルゴリズムに基づき、注意機構の「多対多」RNN出力を効率的に計算する新しい手法を提案する。この新たな注意機構の定式化を基盤として、(4)本研究では、Aarenと名付けた注意機構ベースのモジュールを導入する。Aarenは、(i)Transformerと同様に並列学習が可能であり、かつ(ii)新しいトークンに対して効率的な更新が可能であり、推論時に定数時間・定数メモリで処理が行える(従来のRNNと同様)という特徴を持つ。実証実験では、Aarenが4つの代表的なシーケンス問題設定(強化学習、イベント予測、時系列分類、時系列予測)にまたがる38のデータセットにおいて、Transformerと同等の性能を達成しつつ、時間的・メモリ的効率性に優れていることを示した。