9日前

Transformerの品質を線形時間で実現する

Weizhe Hua, Zihang Dai, Hanxiao Liu, Quoc V. Le

要約

Transformerの設計選択を見直し、長文シーケンス処理における課題に対処する手法を提案する。まず、単一ヘッドアテンションを弱めても品質の低下を最小限に抑えることができる、シンプルなレイヤー「ゲート付きアテンションユニット（gated attention unit）」を提案する。続いて、この新規レイヤーと補完的に機能する線形近似手法を提案する。この手法はアクセラレータに優しく、品質面でも非常に競争力を持つ。その結果得られたモデル、FLASHは、短文（512トークン）および長文（8Kトークン）の両方において、改善されたTransformerと同等の perplexity を達成した。自己回帰型言語モデリングでは、Wiki-40Bで最大4.9倍、PG-19で最大12.1倍の学習速度向上を実現し、マスク付き言語モデリングではC4データセットで4.8倍の速度向上を達成した。