1ヶ月前
Transformer-XL: 固定長コンテキストを超えた注意言語モデル
Zihang Dai; Zhilin Yang; Yiming Yang; Jaime Carbonell; Quoc V. Le; Ruslan Salakhutdinov

要約
トランスフォーマーは長期依存関係を学習する潜在能力を持っていますが、言語モデルの設定では固定長コンテキストに制限されています。本稿では、固定長を超えて学習する依存関係を可能にし、時間的一貫性を乱さない新しいニューラルアーキテクチャであるTransformer-XLを提案します。このアーキテクチャはセグメントレベルの再帰メカニズムと新たな位置エンコーディング方式から構成されています。当手法は長期依存関係の捕捉だけでなく、コンテキスト断片化問題も解決します。その結果、Transformer-XLはRNN(リカレントニューラルネットワーク)よりも80%長い、通常のトランスフォーマーより450%長い依存関係を学習し、短いシーケンスと長いシーケンスの両方でより優れた性能を達成し、評価時には通常のトランスフォーマーより最大1,800倍以上の高速化を実現しました。特に、enwiki8ではbpc(bits per character)/パープレキシティが0.99、text8では1.08、WikiText-103では18.3、One Billion Wordでは21.8、Penn Treebank(ファインチューニングなし)では54.5となり、従来の最先端結果を改善しました。WikiText-103のみで訓練された場合でも、Transformer-XLは数千トークンに及ぶ合理的に一貫性のある新規な文章生成が可能です。当研究におけるコード、事前学習済みモデルおよびハイパーパラメータはTensorFlowとPyTorchで公開されています。