13日前
VideoComposer:モーション制御可能性を備えた構成型ビデオ合成
Xiang Wang, Hangjie Yuan, Shiwei Zhang, Dayou Chen, Jiuniu Wang, Yingya Zhang, Yujun Shen, Deli Zhao, Jingren Zhou

要約
視覚コンテンツ生成における制御性(controllability)の追求は、カスタマイズ可能な画像合成分野で顕著な進展をもたらした。しかし、時間的なダイナミクスの多様性およびフレーム間の時間的一貫性の要請という課題から、制御可能な動画合成の実現は依然として困難である。本研究では、構成的生成(compositional generation)の枠組みに基づき、ユーザーがテキスト条件、空間条件、そして何より時間条件を柔軟に組み合わせて動画を構成できる「VideoComposer」を提案する。具体的には、動画データの特性を踏まえ、圧縮動画から得られる運動ベクトル(motion vector)を明示的な制御信号として導入し、時間的ダイナミクスに対するガイドラインを提供する。さらに、順次入力における空間的・時間的関係を効果的に統合するための「空間時間条件エンコーダー(Spatio-Temporal Condition encoder, STC-encoder)」を構築した。このSTC-encoderは、統一的なインターフェースとして機能し、モデルが時間条件をより効果的に活用できるようにすることで、フレーム間の一貫性を高めることができる。広範な実験結果から、VideoComposerはテキスト記述、スケッチシーケンス、参照動画、あるいは単純な手書きの運動など、さまざまな形態の入力条件下で、合成動画内の空間的・時間的パターンを同時に制御可能であることが示された。本研究のコードおよびモデルは、https://videocomposer.github.io にて公開される予定である。