HyperAIHyperAI

Command Palette

Search for a command to run...

VideoComposer:モーション制御可能性を備えた構成型ビデオ合成

Xiang Wang Hangjie Yuan Shiwei Zhang Dayou Chen Jiuniu Wang Yingya Zhang Yujun Shen Deli Zhao Jingren Zhou

概要

視覚コンテンツ生成における制御性(controllability)の追求は、カスタマイズ可能な画像合成分野で顕著な進展をもたらした。しかし、時間的なダイナミクスの多様性およびフレーム間の時間的一貫性の要請という課題から、制御可能な動画合成の実現は依然として困難である。本研究では、構成的生成(compositional generation)の枠組みに基づき、ユーザーがテキスト条件、空間条件、そして何より時間条件を柔軟に組み合わせて動画を構成できる「VideoComposer」を提案する。具体的には、動画データの特性を踏まえ、圧縮動画から得られる運動ベクトル(motion vector)を明示的な制御信号として導入し、時間的ダイナミクスに対するガイドラインを提供する。さらに、順次入力における空間的・時間的関係を効果的に統合するための「空間時間条件エンコーダー(Spatio-Temporal Condition encoder, STC-encoder)」を構築した。このSTC-encoderは、統一的なインターフェースとして機能し、モデルが時間条件をより効果的に活用できるようにすることで、フレーム間の一貫性を高めることができる。広範な実験結果から、VideoComposerはテキスト記述、スケッチシーケンス、参照動画、あるいは単純な手書きの運動など、さまざまな形態の入力条件下で、合成動画内の空間的・時間的パターンを同時に制御可能であることが示された。本研究のコードおよびモデルは、https://videocomposer.github.io にて公開される予定である。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています