2ヶ月前

長序列の生成にスパーストランスフォーマーを使用する

Rewon Child; Scott Gray; Alec Radford; Ilya Sutskever
長序列の生成にスパーストランスフォーマーを使用する
要約

トランスフォーマーは強力なシーケンスモデルですが、シーケンスの長さに比例して時間とメモリが二次的に増加するという問題があります。本論文では、アテンション行列の疎因数分解を導入し、これを$O(n \sqrt{n})$に削減します。さらに、a) より深いネットワークを学習するためのアーキテクチャと初期化の変更、b) メモリ節約のためにアテンション行列の再計算、c) 学習用の高速アテンションカーネルを提案します。これらの変更を施したネットワークをSparse Transformers(疎トランスフォーマー)と呼び、数百層を使用して数万ステップの長いシーケンスをモデル化できることが示されています。同じアーキテクチャを使用して画像、音声、およびテキスト(生バイトから)をモデル化し、Enwik8、CIFAR-10、およびImageNet-64の密度モデリングにおいて新たな最先端の結果を達成しました。無条件サンプルの生成により全体的な一貫性と多様性が確認され、自己注意機構を使用して100万ステップ以上の長いシーケンスを原理的にモデル化することが可能であることを示しています。

長序列の生成にスパーストランスフォーマーを使用する | 最新論文 | HyperAI超神経