8日前

長時間動画のフレキシブルな拡散モデリング

William Harvey, Saeid Naderiparizi, Vaden Masrani, Christian Weilbach, Frank Wood
長時間動画のフレキシブルな拡散モデリング
要約

本稿では、ノイズ除去拡散確率モデル(denoising diffusion probabilistic models)に基づく動画モデリングのフレームワークを提示し、多様な現実的な環境下で長時間にわたる動画の補完を実現する。我々は、テスト時に任意の動画フレームのサブセットを、他の任意のサブセットを条件としてサンプリング可能な生成モデルを導入し、その目的に適したアーキテクチャを提案する。このアプローチにより、長時間動画におけるフレームのサンプリング順序に関する多様なスケジュールを効率的に比較・最適化でき、既にサンプリングされたフレームに対する選択的かつ疎な、また長距離の条件付けを実現できる。我々は複数のデータセットにおいて従来手法を上回る動画モデリング性能を実証し、長さ25分を超える時間的に整合性のある動画を生成することに成功した。さらに、CARLA自律走行シミュレータで生成された動画に基づく意味のあるセマンティックメトリクスを用いた新しい動画モデリングデータセットも公開する。

長時間動画のフレキシブルな拡散モデリング | 最新論文 | HyperAI超神経