HyperAIHyperAI

Command Palette

Search for a command to run...

長序列の生成にスパーストランスフォーマーを使用する

Rewon Child; Scott Gray; Alec Radford; Ilya Sutskever

概要

トランスフォーマーは強力なシーケンスモデルですが、シーケンスの長さに比例して時間とメモリが二次的に増加するという問題があります。本論文では、アテンション行列の疎因数分解を導入し、これをO(nn)O(n \sqrt{n})O(nn)に削減します。さらに、a) より深いネットワークを学習するためのアーキテクチャと初期化の変更、b) メモリ節約のためにアテンション行列の再計算、c) 学習用の高速アテンションカーネルを提案します。これらの変更を施したネットワークをSparse Transformers(疎トランスフォーマー)と呼び、数百層を使用して数万ステップの長いシーケンスをモデル化できることが示されています。同じアーキテクチャを使用して画像、音声、およびテキスト(生バイトから)をモデル化し、Enwik8、CIFAR-10、およびImageNet-64の密度モデリングにおいて新たな最先端の結果を達成しました。無条件サンプルの生成により全体的な一貫性と多様性が確認され、自己注意機構を使用して100万ステップ以上の長いシーケンスを原理的にモデル化することが可能であることを示しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています