プライマー:言語モデルのための効率的なトランスフォーマーの探索

大規模なトランスフォーマーモデルは、最近の自然言語処理における進歩の中心となっています。しかし、これらのモデルの学習と推論コストは急速に増大し、非常に高額になっています。本研究では、より効率的な変種を探索することで、トランスフォーマーのコストを削減することを目指しています。従来のアプローチと比較して、我々の探索はTensorFlowプログラムを定義する原始的な要素に対して、より低いレベルで行われます。我々は、「プライマー(Primer)」と名付けられたアーキテクチャを特定しました。これは自己回帰言語モデリングにおいて、元のトランスフォーマーや他の変種よりも小さな学習コストを持つことが示されています。プライマーの改善は主に2つの単純な修正によりもたらされます:ReLU活性化関数の二乗化と、自己注意機構における各Q、K、V射影後に深度方向畳み込み層を追加することです。実験結果から、プライマーがトランスフォーマーに対して持つ利点は計算スケールが大きくなるにつれて増大し、最適なモデルサイズでの品質に関してべき則に従うことが明らかになりました。また、経験的にもプライマーが異なるコードベースに組み込まれることで大幅な学習加速が可能であり、追加の調整なしで利用できることが確認されました。例えば、5億パラメータサイズの場合、プライマーはC4自己回帰言語モデリングにおいて元のT5アーキテクチャを改善し、学習コストを4分之1に削減します。さらに、削減された学習コストにより、プライマーは目標の一発性能に到達するために必要な計算量が大幅に減少します。例えば、GPT-3 XLと同様の19億パラメータ構成では、プライマーはトランスフォーマーと同じ一発性能を達成するために3分之1の訓練計算量しか必要としません。我々は再現性を助けるためにモデルとT5におけるいくつかの比較をオープンソース化しています。