Command Palette
Search for a command to run...
Minghong Cai Qiulin Wang Zongli Ye Wenze Liu Quande Liu Weicai Ye Xintao Wang Pengfei Wan Kun Gai Xiangyu Yue

要約
本稿では、任意の空間位置および時刻にユーザーが指定した領域(パッチ)を配置することで、動画を生成する「任意の時空間領域補完(arbitrary spatio-temporal video completion)」というタスクを紹介する。これは、動画をキャンバスに絵を描くように操作するような柔軟なフレームワークであり、従来の制御可能な動画生成タスク——先頭フレームからの画像到動画生成、穴埋め(インペインティング)、動画の延長、補間——を統合的に扱える一貫した枠組みとして自然に再定式化できる。しかし、このビジョンを実現するには、現代の潜在空間動画拡散モデルにおける根本的な課題が存在する。それは、因果的VAE(causal VAE)によって引き起こされる時間的曖昧性である。この問題により、複数のピクセルフレームが一つの潜在表現に圧縮され、フレーム単位の精密な条件付けが構造的に困難となる。本研究では、新しいフレームワーク「VideoCanvas」を提案し、新たなパラメータを一切追加せずに、文脈内条件付け(In-Context Conditioning, ICC)の枠組みをこの細粒度制御タスクに適応する。さらに、空間的制御と時間的制御を分離するハイブリッド条件付け戦略を構築する。空間的な配置はゼロパディングにより処理し、時間的な同期は「時系列RoPE補間(Temporal RoPE Interpolation)」によって実現する。この手法により、各条件に対して潜在系列内の連続的な分数位置を割り当て、VAEによる時間的曖昧性を解消する。これにより、固定されたバックボーン上でもピクセルフレームに意識的な制御が可能となる。この新機能の評価のために、本研究では「VideoCanvasBench」という、任意の時空間領域補完を対象とする初のベンチマークを構築した。このベンチマークは、シーン内忠実性(intra-scene fidelity)とシーン間創造性(inter-scene creativity)の両面をカバーしている。実験の結果、VideoCanvasは既存の条件付けパラダイムを大きく上回り、柔軟かつ統合的な動画生成において新たな最先端(state-of-the-art)を確立した。