HyperAI

拡散型言語モデル（diffusion language models）は、並列生成が高速であるという可能性を秘めている一方で、自己回帰型（AR）モデルは、言語モデリングの本質と整合する因果構造を持つため、通常、品質の面で優れている。このことから、根本的な問いが浮かび上がる。すなわち、高スループット、高いGPU利用効率、そしてARモデルと同等の品質を両立するシナジーを実現できるだろうか？既存の手法は、この二つの側面を効果的に両立できず、一方では弱いモデルを用いて逐次的な下書き（drafting）を行う「推測的デコード（speculative decoding）」を採用し、下書き効率が低下する傾向にあり、他方では拡散モデルに左から右への（ARに類似した）デコード論理を適用するが、これも品質の劣化を招き、並列処理の恩恵を失ってしまう。本研究では、TiDAR（Thinking in Diffusion, Talking in AR）と呼ばれる、シーケンスレベルのハイブリッドアーキテクチャを提案する。このアーキテクチャは、1回の順伝播（forward pass）において、特別に設計された構造化アテンションマスクを用いて、拡散モデル内でトークンを下書き（Thinking）し、最終出力を自己回帰的にサンプリング（Talking）する。この設計により、GPUの空き計算リソースを有効活用し、下書きと検証の能力の間で強力なバランスを実現する。さらに、TiDARは単体モデルとしての運用に適した設計となっており、サーバー環境での使用に適した低オーバーヘッドを実現している。 1.5Bおよび8B規模の生成タスクおよび尤度タスクにおいて、ARモデル、推測的デコード、拡散モデルの変種と広範に比較評価を行った結果、並列的な下書きとサンプリング、および正確なKVキャッシュのサポートにより、TiDARは推測的デコードを上回るスループットを達成し、DreamやLladaといった拡散モデルと比較して、効率と品質の両面で優位性を示した。特に顕著な点は、ARモデルと同等の品質を達成しつつ、1秒間に4.71～5.91倍のトークン生成速度を実現した点である。TiDARは、ARモデルと同等の品質を維持しつつ、並列性の利点を活かした高速生成を実現する、世界初のアーキテクチャである。

TiDAR：拡散で考える、自己回帰で話す

Jingyu Liu Xin Dong Zhifan Ye Rishabh Mehta Yonggan Fu Vartika Singh Jan Kautz Ce Zhang Pavlo Molchanov

要約

AI で AI を構築

Hyper Newsletters

Command Palette

TiDAR：拡散で考える、自己回帰で話す

Jingyu Liu Xin Dong Zhifan Ye Rishabh Mehta Yonggan Fu Vartika Singh Jan Kautz Ce Zhang Pavlo Molchanov

要約

AI で AI を構築

Hyper Newsletters