HyperAIHyperAI

Command Palette

Search for a command to run...

Transformerの品質を線形時間で実現する

Weizhe Hua Zihang Dai Hanxiao Liu Quoc V. Le

概要

Transformerの設計選択を見直し、長文シーケンス処理における課題に対処する手法を提案する。まず、単一ヘッドアテンションを弱めても品質の低下を最小限に抑えることができる、シンプルなレイヤー「ゲート付きアテンションユニット(gated attention unit)」を提案する。続いて、この新規レイヤーと補完的に機能する線形近似手法を提案する。この手法はアクセラレータに優しく、品質面でも非常に競争力を持つ。その結果得られたモデル、FLASHは、短文(512トークン)および長文(8Kトークン)の両方において、改善されたTransformerと同等の perplexity を達成した。自己回帰型言語モデリングでは、Wiki-40Bで最大4.9倍、PG-19で最大12.1倍の学習速度向上を実現し、マスク付き言語モデリングではC4データセットで4.8倍の速度向上を達成した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています