ACDiT:自己回帰的条件付きモデリングと拡散トランスフォーマーの補間

近年、包括的なマルチモーダルモデルに対する関心が高まる中で、さまざまなモダリティの統合が求められている。しかし、その統合は、それぞれの分野で異なるアプローチが採用されていることにより、課題を抱えている。特に、連続的な視覚生成においては、全系列の拡散モデル(diffusion-based)アプローチが必須である一方で、この手法はテキスト領域における自己回帰的モデリング(autoregressive modeling)とは本質的に相違する。本研究では、自己回帰的モデリング、すなわち過去の決定論的経験に基づいて将来を予測するというアプローチが、視覚生成モデルの構築および将来の統合的マルチモーダルモデル開発において依然として重要であると主張する。本論文では、自己回帰的モデリングと全パラメータ拡散モデルの間の補間を視覚情報のモデリングに適用することを検討する。中心となるのは、ACDiT(Autoregressive blockwise Conditional Diffusion Transformer)という新規アーキテクチャである。ACDiTでは、拡散プロセスにおけるブロックサイズ(すなわち自己回帰単位のサイズ)を柔軟に調整可能であり、トークン単位の自己回帰と全系列拡散の間を滑らかに補間できる。ACDiTは実装が容易であり、訓練時に単に「スキップ因果注意マスク(Skip-Causal Attention Mask, SCAM)」を生成するだけで実現可能である。推論時には、拡散ノイズ除去と自己回帰デコーディングを交互に繰り返すプロセスを実行でき、KVキャッシュを効果的に活用できる。我々は、画像および動画生成タスクにおいてACDiTの有効性を実証した。さらに、自己回帰的モデリングの利点を活かすことで、ACDiTが拡散目的で学習されたにもかかわらず、視覚理解タスクへのスムーズな適用が可能であることを示した。自己回帰的モデリングと拡散モデルの間のトレードオフに関する分析から、ACDiTが長期視覚生成タスクへの応用可能性を示唆している。これらの特長により、ACDiTは将来の統合的モデルの基盤として極めて有望である。