9日前

Shortformer:より短い入力による優れた言語モデリング

Ofir Press, Noah A. Smith, Mike Lewis
Shortformer:より短い入力による優れた言語モデリング
要約

Transformerを用いた言語モデルにおける進展の要因の一つとして、入力長の増加が挙げられる。本研究では、短い入力が必ずしも有害ではない状況を特定し、入力長を短縮する2つの新しい手法を用いて、 perplexity(困惑度)と効率性の向上を達成した。第一に、長さの長いサブシーケンスへの移行前に、初期段階で短いサブシーケンスでモデルを訓練することで、全体の学習時間を短縮するとともに、驚くべきことに困惑度も大幅に改善できることを示した。第二に、Transformerが一度に処理可能な最大長を超えるシーケンスを生成する際、以前に処理されたトークンに条件づけられる再帰的(recurrent)な手法の効率性を向上させる方法を提示した。従来の手法では計算コストの高い相対的位置埋め込み(relative position embeddings)が必要であったが、本研究では単語埋め込みにではなく、クエリ(query)およびキー(key)に絶対的位置埋め込み(absolute position embeddings)を追加するシンプルな代替手法を提案した。この方法は、効率的に優れた結果をもたらす。また、これらの再帰的モデルも短い入力長の恩恵を受けることを示した。これらの技術を組み合わせることで、学習速度が1.65倍に向上し、メモリ使用量が削減され、パラメータを追加せずにWikiText-103データセットにおいて困惑度が大幅に改善された。