9日前

注目と高速再帰の融合:計算量を削減した言語モデルの訓練

Tao Lei
注目と高速再帰の融合:計算量を削減した言語モデルの訓練
要約

大規模言語モデルのトレーニングは、計算時間とコストの増加によりますます困難になってきている。本研究では、シーケンスモデリングに向けた高速再帰(fast recurrence)とアテンションを統合した高効率なアーキテクチャ「SRU++」を提案する。SRU++は強力なモデル表現能力と優れたトレーニング効率を兼ね備えている。Enwik8、Wiki-103、Billion Wordといった標準的な言語モデリングタスクにおいて、トップパフォーマンスを発揮するTransformerモデルと比較して、3〜10倍のトレーニングコスト削減を実現しながら、より低い文字あたりビット数(bits-per-character)および perplexity を達成した。例えば、8GPUのマシン上で1.6日間のトレーニングで、Enwik8データセットにおいて最先端の結果を達成した。さらに、SRU++は極めて少ないアテンション量で準最先端の性能を実現できることを示した。これらの結果から、少ないアテンション量で高速再帰を効果的に活用するアプローチが、モデルのトレーニングおよび推論速度の高速化にとって有望な方向性であることが示唆される。