
要約
GPTのような大規模言語モデルの成功は、シーケンスにおける次のトークンを効率的に予測できる能力に起因している。しかし、これらのモデルは予測対象のトークンの複雑さにかかわらず、常に一定の計算負荷を要するため、反復的な精緻化(iterative refinement)の能力を欠いている。本論文では、モデルサイズを増加させることなく、より長い計算時間を要することにより、より優れた性能を達成する新たなループ型ニューラルネットワーク(Loop Neural Network)を提案する。本手法は入力を複数回再評価し、残差接続(residual connections)を用いたモデルの一部を反復的に処理することで、予測を段階的に精緻化する。GPT-2の異なるバージョンと本手法を用いたループモデルを比較した実験により、パラメータ数をほぼ同等に保ちつつ、言語モデリングタスクにおける性能向上を実証した。特に重要なのは、追加の学習データを必要とせずにこれらの性能向上が達成されたことである。