6ヶ月前

モデル学習

アプローチ／フレームワーク

Tao Lei

概要

大規模言語モデルのトレーニングは、計算時間とコストの増加によりますます困難になってきている。本研究では、シーケンスモデリングに向けた高速再帰（fast recurrence）とアテンションを統合した高効率なアーキテクチャ「SRU++」を提案する。SRU++は強力なモデル表現能力と優れたトレーニング効率を兼ね備えている。Enwik8、Wiki-103、Billion Wordといった標準的な言語モデリングタスクにおいて、トップパフォーマンスを発揮するTransformerモデルと比較して、3〜10倍のトレーニングコスト削減を実現しながら、より低い文字あたりビット数（bits-per-character）および perplexity を達成した。例えば、8GPUのマシン上で1.6日間のトレーニングで、Enwik8データセットにおいて最先端の結果を達成した。さらに、SRU++は極めて少ないアテンション量で準最先端の性能を実現できることを示した。これらの結果から、少ないアテンション量で高速再帰を効果的に活用するアプローチが、モデルのトレーニングおよび推論速度の高速化にとって有望な方向性であることが示唆される。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

モデル学習

アプローチ／フレームワーク

Tao Lei

概要

大規模言語モデルのトレーニングは、計算時間とコストの増加によりますます困難になってきている。本研究では、シーケンスモデリングに向けた高速再帰（fast recurrence）とアテンションを統合した高効率なアーキテクチャ「SRU++」を提案する。SRU++は強力なモデル表現能力と優れたトレーニング効率を兼ね備えている。Enwik8、Wiki-103、Billion Wordといった標準的な言語モデリングタスクにおいて、トップパフォーマンスを発揮するTransformerモデルと比較して、3〜10倍のトレーニングコスト削減を実現しながら、より低い文字あたりビット数（bits-per-character）および perplexity を達成した。例えば、8GPUのマシン上で1.6日間のトレーニングで、Enwik8データセットにおいて最先端の結果を達成した。さらに、SRU++は極めて少ないアテンション量で準最先端の性能を実現できることを示した。これらの結果から、少ないアテンション量で高速再帰を効果的に活用するアプローチが、モデルのトレーニングおよび推論速度の高速化にとって有望な方向性であることが示唆される。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています