
要約
この研究ノートでは、言語モデルの最先端を最近向上させた2つの手法を組み合わせています:トランスフォーマーと動的評価です。トランスフォーマーは自己注意機構の積層層を使用しており、これにより系列データにおける長距離依存関係を捉えることが可能となっています。動的評価は、最近の系列履歴にモデルを適合させることで、再現する系列パターンに高い確率を割り当てることができます。トランスフォーマー-XLモデルに動的評価を適用することで、enwik8において0.99から0.94ビット/文字へ、text8において1.08から1.04ビット/文字へ、そしてWikiText-103において18.3から16.4のパープレキシティポイントへと、それぞれ最先端の性能を向上させました。