HyperAIHyperAI

Command Palette

Search for a command to run...

テキストから動画生成へのための階層的時空間分解

Zhiwu Qing Shiwei Zhang Jiayu Wang Xiang Wang Yujie Wei Yingya Zhang Changxin Gao Nong Sang

概要

拡散モデルが写実的な画像生成において強力な能力を示している一方で、現実的で多様な動画生成は依然として初期段階にあります。その主な理由の一つは、現在の手法が空間的コンテンツと時間的ダイナミクスを密に結合しているため、テキストから動画を生成する(Text-to-Video, T2V)タスクの複雑性が著しく増加していることにあります。本研究では、空間的要因と時間的要因を構造レベルおよびコンテンツレベルの2つの視点から分離することで性能を向上させる、拡散モデルに基づく新規手法HiGenを提案します。構造レベルでは、統一されたノイズ除去器(denoiser)を用いてT2Vタスクを2段階に分解します。具体的には、空間的推論段階でテキスト情報を用いて空間的に整合性のある事前情報(prior)を生成し、その後の時間的推論段階でその事前情報をもとに時間的に整合性のある運動を生成します。コンテンツレベルでは、入力動画の内容から運動の変化を表現する微細な特徴量と、外見の変化を表現する微細な特徴量の2つの手がかりを抽出します。これらの2つの手がかりは、モデルの学習をガイドすることで、柔軟なコンテンツ変化を可能にするとともに、時間的な安定性を向上させます。この分離型アーキテクチャにより、HiGenはタスクの複雑性を効果的に低減し、意味的正確性と運動の安定性を兼ね備えた現実的な動画を生成することが可能になります。広範な実験により、HiGenが最先端のT2V手法を上回る優れた性能を発揮することが確認されました。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています