Command Palette

Search for a command to run...

13日前

TiDAR:拡散で考える、自己回帰で話す

Jingyu Liu Xin Dong Zhifan Ye Rishabh Mehta Yonggan Fu Vartika Singh Jan Kautz Ce Zhang Pavlo Molchanov

TiDAR:拡散で考える、自己回帰で話す

要約

拡散型言語モデル(diffusion language models)は、並列生成が高速であるという可能性を秘めている一方で、自己回帰型(AR)モデルは、言語モデリングの本質と整合する因果構造を持つため、通常、品質の面で優れている。このことから、根本的な問いが浮かび上がる。すなわち、高スループット、高いGPU利用効率、そしてARモデルと同等の品質を両立するシナジーを実現できるだろうか? 既存の手法は、この二つの側面を効果的に両立できず、一方では弱いモデルを用いて逐次的な下書き(drafting)を行う「推測的デコード(speculative decoding)」を採用し、下書き効率が低下する傾向にあり、他方では拡散モデルに左から右への(ARに類似した)デコード論理を適用するが、これも品質の劣化を招き、並列処理の恩恵を失ってしまう。 本研究では、TiDAR(Thinking in Diffusion, Talking in AR)と呼ばれる、シーケンスレベルのハイブリッドアーキテクチャを提案する。このアーキテクチャは、1回の順伝播(forward pass)において、特別に設計された構造化アテンションマスクを用いて、拡散モデル内でトークンを下書き(Thinking)し、最終出力を自己回帰的にサンプリング(Talking)する。この設計により、GPUの空き計算リソースを有効活用し、下書きと検証の能力の間で強力なバランスを実現する。さらに、TiDARは単体モデルとしての運用に適した設計となっており、サーバー環境での使用に適した低オーバーヘッドを実現している。 1.5Bおよび8B規模の生成タスクおよび尤度タスクにおいて、ARモデル、推測的デコード、拡散モデルの変種と広範に比較評価を行った結果、並列的な下書きとサンプリング、および正確なKVキャッシュのサポートにより、TiDARは推測的デコードを上回るスループットを達成し、DreamやLladaといった拡散モデルと比較して、効率と品質の両面で優位性を示した。特に顕著な点は、ARモデルと同等の品質を達成しつつ、1秒間に4.71~5.91倍のトークン生成速度を実現した点である。TiDARは、ARモデルと同等の品質を維持しつつ、並列性の利点を活かした高速生成を実現する、世界初のアーキテクチャである。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
TiDAR:拡散で考える、自己回帰で話す | 論文 | HyperAI超神経