Command Palette
Search for a command to run...
Yuxuan Bian Xin Chen Zenan Li Tiancheng Zhi Shen Sang Linjie Luo Qiang Xu

要約
動画生成における統合的かつ汎用性のある意味的制御は、依然として重要な未解決課題である。従来の手法は、構造に基づく制御から不適切なピクセル単位の事前知識を強制することでアーティファクトを引き起こすか、汎用性に欠ける条件固有の微調整やタスク固有のアーキテクチャに依存している。本研究では、この問題を「コンテキスト内生成」として再定式化する新しいパラダイム、Video-As-Prompt(VAP)を提案する。VAPは参照動画を直接的な意味的プロンプトとして活用し、フリーズされた動画拡散変換器(DiT)を、プラグアンドプレイ可能なトランスフォーマー集合(MoT)エキスパートによって制御する。このアーキテクチャは災害的忘却を回避し、時間的にバイアスされた位置埋め込みにより、誤ったマッピング事前知識を排除することで、堅牢なコンテキスト取得を実現する。本手法の実現と今後の研究を促進するために、100の意味的条件にわたる10万件以上のペア動画を含む、意味的制御動画生成用に最大規模のデータセット「VAP-Data」を構築した。単一の統合モデルとして、VAPはオープンソース手法において新たな最先端性能を達成し、ユーザー評価において38.7%の選好率を記録し、条件固有の商業モデルと同等の性能を発揮した。VAPの優れたゼロショット汎用性および多様な下流アプリケーションへの対応能力は、汎用的かつ制御可能な動画生成への重要な一歩を示している。