HyperAIHyperAI

Command Palette

Search for a command to run...

文字レベルの言語モデルにおけるより深い自己注意の利用

Rami Al-Rfou Dokook Choe Noah Constant Mandy Guo Llion Jones

概要

LSTMやその他のRNN変種は、文字レベルの言語モデルにおいて優れた性能を示しています。これらのモデルは通常、時間方向に切り詰められたバックプロパゲーションを使用して訓練され、成功の理由は長期的なコンテキストを記憶する能力にあると一般的に考えられています。本論文では、固定コンテキストを持つ深層(64層)トランスフォーマー模型がRNN変種を大幅に上回り、text8で1.13ビット/文字、enwik8で1.06ビット/文字という最新の成果を達成したことを示します。この深さでの良好な結果を得るためには、中間ネットワーク層および中間シーケンス位置での補助損失を追加することが重要であることが確認されました。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています