HyperAIHyperAI

Command Palette

Search for a command to run...

ルーティングTransformerを用いた効率的なコンテンツベースのスパースアテンション

Aurko Roy Mohammad Saffar Ashish Vaswani David Grangier

概要

近年、自己注意(self-attention)はさまざまな系列モデリング問題に広く採用されている。その有効性は認められているが、系列長に伴い計算量およびメモリ使用量が二次関数的に増加するという課題を抱えている。この複雑性を低減するための成功したアプローチは、局所的なスライディングウィンドウに注目するか、コンテンツに依存しない少数の位置に注目する手法に集約されている。本研究では、関心のあるクエリと関係のないコンテンツに計算資源やメモリを割り当てないよう、動的なスパースな注目パターンを学習する手法を提案する。本研究は2つの研究分野に根ざしており、コンテンツに基づくスパース注意のモデリングの柔軟性と、局所的かつ時系列的なスパース注意に基づく効率性の両方を統合している。提案モデルであるルーティングトランスフォーマー(Routing Transformer)は、オンラインk-meansに基づくスパースルーティングモジュールを自己注意に組み込み、系列長がn、隠れ次元がdの場合、従来のO(n2d)O(n^2d)O(n2d)からO(n1.5d)O(n^{1.5}d)O(n1.5d)へと全体の注意計算量を削減する。実験では、Wikitext-103における言語モデリング(困惑度:15.8 vs 18.3)およびImageNet-64における画像生成(3.43 vs 3.44 ビット/次元)において、同等のスパース注意モデルを上回る性能を達成するとともに、自己注意層の数を削減している。さらに、新しく公開されたPG-19データセットにおいても、長さ8192の系列で学習した22層のルーティングトランスフォーマーにより、33.2という新たな最良のテスト困惑度を達成し、新たな最先端性能を樹立した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています