HyperAIHyperAI

Command Palette

Search for a command to run...

Mega:移動平均を備えたゲート付きアテンション

Xuezhe Ma Chunting Zhou Xiang Kong Junxian He Liangke Gui Graham Neubig Jonathan May Luke Zettlemoyer

概要

Transformerのアテンション機構における設計選択、特に弱い誘導的バイアス(inductive bias)と二次時間計算量という点が、長さの長いシーケンスのモデル化への応用を制限してきました。本論文では、位置に依存しないアテンション機構に位置に敏感な局所依存性の誘導的バイアスを組み込むために、(指数的)移動平均を用いた、単一ヘッドでゲート制御されたシンプルかつ理論的に根拠を持つアテンション機構「Mega」を提案する。さらに、固定長の複数のチャンクにシーケンスを効率的に分割することで、線形時間および空間計算量を実現しつつ、性能の低下を最小限に抑えるMegaの変種も提案する。長距離アリーナ(Long Range Arena)をはじめとする幅広いシーケンスモデリングベンチマーク、ニューラル機械翻訳、自己回帰的言語モデリング、画像および音声分類における広範な実験結果から、Transformerの変種や最近の状態空間モデルを含む他のシーケンスモデルと比較して、Megaが顕著な性能向上を達成していることが示された。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています