Command Palette

Search for a command to run...

23日前

UniVideo:動画の統合的理解・生成・編集

Cong Wei Quande Liu Zixuan Ye Qiulin Wang Xintao Wang Pengfei Wan Kun Gai Wenhu Chen

UniVideo:動画の統合的理解・生成・編集

要約

統合型マルチモーダルモデルは、マルチモーダルなコンテンツ生成および編集において有望な成果を示しているが、現状では主に画像領域に限定されている。本研究では、統合モデリングを動画領域へ拡張するための汎用的フレームワーク「UniVideo」を提案する。UniVideoは、指示の理解にマルチモーダル大規模言語モデル(MLLM)を用い、動画生成にはマルチモーダルDiT(MMDiT)を組み合わせる二重ストリーム構造を採用している。この設計により、複雑なマルチモーダル指示の正確な解釈が可能となりつつ、視覚的一貫性も維持される。このアーキテクチャを基盤として、UniVideoは単一のマルチモーダル指示パラダイムの下で多様な動画生成および編集タスクを統合し、それらを一括して学習する。広範な実験により、テキスト/画像から動画生成、コンテキスト内動画生成、コンテキスト内動画編集において、UniVideoが既存のタスク特化型最先端モデルと同等あるいはそれを上回ることを実証した。特に、UniVideoの統合設計により、2種類の一般化能力が実現されている。第一に、一つの指示内で複数の機能(例えば、編集とスタイル転送の組み合わせ)を統合することで、タスクの組み合わせが可能となる。第二に、自由形式の動画編集に明示的な訓練を行わなくても、大規模な画像編集データから得た編集能力をこの設定に転移可能であり、例えばキャラクターのグリーンスクリーン化や動画内の素材の変更など、未学習の指示に対しても対応できる。これらの核心機能に加え、UniVideoは視覚プロンプトに基づく動画生成もサポートしており、MLLMが視覚プロンプトを解釈し、合成過程でMMDiTをガイドする。今後の研究を促進するため、本モデルおよびコードを公開する予定である。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
UniVideo:動画の統合的理解・生成・編集 | 論文 | HyperAI超神経