Command Palette
Search for a command to run...
Ziqi Huang Ning Yu Gordon Chen Haonan Qiu Paul Debevec Ziwei Liu

要約
最近の動画生成モデルは滑らかで視覚的に魅力的な映像を生成できるものの、一連の連続的な結果を伴う複雑な動的挙動を正確に再現する点で困難を抱えている。時間経過に伴う視覚的結果や状態遷移を正確にモデリングすることは、依然として中心的な課題である。一方、大規模な言語モデルおよびマルチモーダルモデル(例:GPT-4o)は、優れた視覚的状態推論能力および将来予測能力を示している。こうした強みを活かすために、本研究では、マルチモーダルモデルから得られる視覚的推論信号を動画生成に組み込む、新たな推論時「視覚的思考の連鎖(chain-of-visual-thought)」フレームワークであるVChainを提案する。具体的には、VChainは、大規模なマルチモーダルモデルを活用して、重要なキーフレームを疎な集合として生成する専用パイプラインを備え、そのキーフレームをもとに、事前に学習された動画生成モデルに対して、これらのキーポイントでのみ疎な推論時チューニングを実施する。本手法はチューニング効率が高く、追加のオーバーヘッドが最小限に抑えられ、密な教師信号を必要としない。複雑で多段階のシナリオにおける広範な実験結果から、VChainが生成動画の品質を顕著に向上させることを示した。