清华大学AIRと字節跳動が発表:離散拡散モデル「Seed Diffusion Preview」で1秒間に2146トークンを生成、自回帰モデルを凌駕する高速かつ高精度なコード生成が実現
清华大学智能产业研究院(AIR)と字節跳動のSeedが共同開発した大規模言語モデル「Seed Diffusion Preview」が、推論速度で1秒間に2146トークン以上を達成し、GoogleのGemini Diffusionを上回る性能を実現した。この成果は、自然言語生成における拡散モデル(Diffusion Model)の実用化に向けた画期的な前進であり、将来的に言語モデルの主流技術に進化する可能性を示している。 従来の自己回帰モデル(ARモデル)は逐次生成に依存するため、推論速度が遅く、コストも高い。一方、Seed Diffusion Previewは、離散的な言語データに対応する拡散モデルの枠組みを構築。並列生成による高速推論を実現しつつ、コード生成の主要ベンチマークで同規模の自己回帰モデルと同等以上の精度を達成。特に、コード編集(CanitEditなど)のような構造的・計画的なタスクでは、全体像を把握する能力を活かし、従来モデルを上回る性能を発揮した。 その実現には4つの技術革新が不可欠だった。まず、「2段階コース学習」により、生成過程における局所的誤りを全体的に補正。次に、「構造的事前知識の導入」で変数宣言や依存関係といった言語の因果構造をモデルに内包。さらに、「同一戦略学習(same-policy learning)」によって、生成ステップ数を最小化しつつ品質を維持する訓練戦略を構築。最後に、「ブロック単位の並列採択」と「KVキャッシュの活用」により、システムレベルでの高速化を実現した。 実験結果では、同等規模の自己回帰モデルと比較して、推論速度が5.4倍向上。性能の低下なしに、並列性と効率性を両立した点が大きな意義である。 また、同研究チームは、多モーダル大規模モデルの「真の理解力」を評価するための3D密室脱出環境「EscapeCraft」も開発。GPT-4oを含む最先端モデルでも、門を見つけても迂回し、鍵を拾っても使えない、さらには「沙发をつかむ」など非現実的な行動を繰り返すなど、視覚認識と意思決定の乖離が顕著に現れた。これは「見える=理解する」ではないことを示す、システム的な限界を突きつけた。 Seed Diffusion Previewは、単なる速度向上にとどまらず、複雑な論理的推論や構造化生成への道を開く。今後、この技術はコード生成にとどまらず、科学的推論や戦略的計画など、より高度なAI応用に貢献する可能性を秘めている。