1ヶ月前

文字レベルの言語モデルにおけるより深い自己注意の利用

Rami Al-Rfou; Dokook Choe; Noah Constant; Mandy Guo; Llion Jones
文字レベルの言語モデルにおけるより深い自己注意の利用
要約

LSTMやその他のRNN変種は、文字レベルの言語モデルにおいて優れた性能を示しています。これらのモデルは通常、時間方向に切り詰められたバックプロパゲーションを使用して訓練され、成功の理由は長期的なコンテキストを記憶する能力にあると一般的に考えられています。本論文では、固定コンテキストを持つ深層(64層)トランスフォーマー模型がRNN変種を大幅に上回り、text8で1.13ビット/文字、enwik8で1.06ビット/文字という最新の成果を達成したことを示します。この深さでの良好な結果を得るためには、中間ネットワーク層および中間シーケンス位置での補助損失を追加することが重要であることが確認されました。