概要

視覚コンテンツ生成における制御性（controllability）の追求は、カスタマイズ可能な画像合成分野で顕著な進展をもたらした。しかし、時間的なダイナミクスの多様性およびフレーム間の時間的一貫性の要請という課題から、制御可能な動画合成の実現は依然として困難である。本研究では、構成的生成（compositional generation）の枠組みに基づき、ユーザーがテキスト条件、空間条件、そして何より時間条件を柔軟に組み合わせて動画を構成できる「VideoComposer」を提案する。具体的には、動画データの特性を踏まえ、圧縮動画から得られる運動ベクトル（motion vector）を明示的な制御信号として導入し、時間的ダイナミクスに対するガイドラインを提供する。さらに、順次入力における空間的・時間的関係を効果的に統合するための「空間時間条件エンコーダー（Spatio-Temporal Condition encoder, STC-encoder）」を構築した。このSTC-encoderは、統一的なインターフェースとして機能し、モデルが時間条件をより効果的に活用できるようにすることで、フレーム間の一貫性を高めることができる。広範な実験結果から、VideoComposerはテキスト記述、スケッチシーケンス、参照動画、あるいは単純な手書きの運動など、さまざまな形態の入力条件下で、合成動画内の空間的・時間的パターンを同時に制御可能であることが示された。本研究のコードおよびモデルは、https://videocomposer.github.io にて公開される予定である。

ソースPDF コードを表示