8日前
VideoFusion:高品質な動画生成のための分解型拡散モデル
Zhengxiong Luo, Dayou Chen, Yingya Zhang, Yan Huang, Liang Wang, Yujun Shen, Deli Zhao, Jingren Zhou, Tieniu Tan

要約
拡散確率モデル(DPM)は、データポイントに徐々にノイズを加える前向きな拡散プロセスを構築し、その逆方向のノイズ除去プロセスを学習することで新たなサンプルを生成する手法であり、複雑なデータ分布の扱いに有効であることが示されている。近年、画像合成において高い成果を上げているものの、動画生成への応用は高次元のデータ空間という点で依然として困難である。従来の手法は一般的に標準的な拡散プロセスを採用しており、同一動画クリップ内のフレームごとに独立したノイズによって破壊されるため、コンテンツの冗長性や時間的相関性を無視している。本研究では、各フレームのノイズを、すべてのフレームに共有されるベースノイズと、時間軸に沿って変化する残差ノイズに分解する「分解型拡散プロセス」を提案する。ノイズ除去パイプラインでは、このノイズ分解に対応するように共同で学習された2つのネットワークを採用している。さまざまなデータセットにおける実験により、本手法(VideoFusionと命名)がGANベースおよび拡散ベースの代替手法を上回る高品質な動画生成を実現することが確認された。さらに、本研究の分解型定式化は、事前学習済みの画像拡散モデルの活用が可能であり、テキスト条件付き動画生成にも優れたサポートを提供できることを示した。