
要約
拡散型大規模言語モデル(dLLMs)は、テキスト生成において自己回帰型(AR)LLMの有力な代替手段として浮上しており、1回の反復処理で複数のトークンを同時にデコードする可能性を有している。しかし、現在公開されているdLLMのいずれも、同程度のサイズを持つAR LLMに対して優れた推論速度を達成できていない。本論文では、単純かつ効果的な戦略「離散拡散強制(Discrete Diffusion Forcing, D2F)」を用いて、この壁を打破する。D2FはdLLMに以下の2つの主要な機能を付与する:(1)ブロック単位での自己回帰生成により、KVキャッシュの利用を可能にする;(2)前段のブロックの処理が完了するまで待たずに、次のトークンを予測することで、ブロック間の並列デコードを実現する。これにより、従来のdLLMは効率的な推論を可能にするAR-拡散ハイブリッドパラダイムに進化する。D2Fは、事前学習済みのdLLMを基に非対称な蒸留プロセスによって実装可能である。さらに、効率性と効果性のトレードオフを可能にするパイプライン型並列デコーディングアルゴリズムを提案する。実証実験の結果、D2Fを適用したdLLMは、GSM8KタスクにおいてLLaMA3およびQwen2.5と比較して、推論速度が2.5倍以上向上した。また、LLaDAやDreamといった従来のdLLMと比較すると、出力品質をほぼ同等に維持しつつ、50倍以上の加速が達成された。本研究のコードは、以下のURLで公開されている:https://github.com/zhijie-group/Discrete-Diffusion-Forcing