HyperAI超神経
1ヶ月前

Fast-dLLM: KV キャッシュと並列デコーディングを可能にした拡散LLMのトレーニングフリー加速

Wu, Chengyue ; Zhang, Hao ; Xue, Shuchen ; Liu, Zhijian ; Diao, Shizhe ; Zhu, Ligeng ; Luo, Ping ; Han, Song ; Xie, Enze
Fast-dLLM: KV キャッシュと並列デコーディングを可能にした拡散LLMのトレーニングフリー加速
要約

拡散型大規模言語モデル(Diffusion LLMs)は、並列デコーディング機能を備えた非自己回帰的なテキスト生成において有望な結果を示しています。しかし、オープンソースの拡散型LLMsの実用的な推論速度は、Key-Value(KV)キャッシュの欠如と複数のトークンを同時にデコードする際の品質低下により、自己回帰モデルに比べて遅れがちです。このギャップを埋めるために、双方向拡散モデル向けに新しいブロック単位での近似KVキャッシュメカニズムを導入しました。これにより、性能低下がほとんどない状態でキャッシュの再利用が可能となります。さらに、並列デコーディングにおける生成品質の劣化の根本原因を条件付き独立性仮定によるトークン依存関係の乱れであると特定しました。これを解決するために、信頼度に基づく並列デコーディング戦略を提案します。この戦略は信頼度閾値を超えるトークンを選択的にデコードすることで、依存関係違反を軽減し、生成品質を維持します。LLaDAおよびDreamモデルを使用した複数のLLMベンチマークでの実験結果では、精度低下が最小限に抑えられながら最大\textbf{27.6倍}のスループット向上が示されました。これにより、自己回帰モデルとの性能差が縮まり、拡散型LLMsの実用的な展開への道が開かれました。