8日前

高忠実度長時間動画生成のための潜在動画拡散モデル

Yingqing He, Tianyu Yang, Yong Zhang, Ying Shan, Qifeng Chen
高忠実度長時間動画生成のための潜在動画拡散モデル
要約

近年、AI生成コンテンツに注目が集まっているが、写真レベルのリアルな動画合成は依然として大きな課題である。GANや自己回帰モデルを用いた多くの試みが行われてきたものの、生成動画の視覚的品質および長さはまだ満足のいくものではない。一方、拡散モデル(Diffusion models)は最近、顕著な成果を上げているが、それには膨大な計算リソースが必要となる。こうした課題に対応するため、本研究では低次元の3D潜在空間(3D latent space)を活用した軽量型動画拡散モデルを提案する。これにより、限られた計算リソース下でも、従来のピクセル空間における動画拡散モデルを著しく上回る性能を達成した。さらに、潜在空間上で階層的拡散(hierarchical diffusion)を導入することで、1000フレームを超える長時間の動画生成を実現した。また、長時間動画生成における性能劣化の問題を克服するため、条件付き潜在空間の摂動(conditional latent perturbation)と非条件付きガイド(unconditional guidance)を提案し、動画長の延長に伴う誤差の蓄積を効果的に抑制した。異なるカテゴリの小規模ドメインデータセットを用いた広範な実験の結果、本フレームワークは従来の強力なベースラインと比較して、より現実的で長時間の動画を生成できることを示した。さらに、大規模なテキストから動画への生成タスクへの拡張も行い、本研究の優位性を実証した。本研究のコードおよびモデルは、公開予定である。

高忠実度長時間動画生成のための潜在動画拡散モデル | 最新論文 | HyperAI超神経