
要約
メモリベースのトランスフォーマーを訓練するには大量のメモリが必要であり、効率が低いという問題があります。本研究では、メモリベースのトランスフォーマーの訓練効率を向上させるために、新しい二段階訓練メカニズムと新しい正則化手法を提案します。これらのモデルは長距離コンテキスト問題にしばしば使用されます。実験では、メモリベースのトランスフォーマーモデルの一つであるTransformer-XLを基準モデルとして採用しました。結果的に得られたモデル、Skip Cross-head TransformerXLは、同数のパラメータで文字レベル言語モデリングタスクにおいて基準モデルを上回り、さらに約20%少ないパラメータで単語レベル言語モデリングタスクでも基準モデルを上回ることが示されました。我々が提案する手法は追加のメモリを必要としません。また、提案した正則化手法がBERTに対して有効であることをGLUEタスクにおけるスコアの標準偏差が約30%減少することからも示しています。