7日前

MCVD:予測、生成、補間のためのマスク付き条件付き動画ディフュージョン

Vikram Voleti, Alexia Jolicoeur-Martineau, Christopher Pal
MCVD:予測、生成、補間のためのマスク付き条件付き動画ディフュージョン
要約

動画予測は困難なタスクである。現在の最先端(SOTA)生成モデルから得られる動画フレームの品質は依然として低く、訓練データを超える一般化も困難である。さらに、既存の予測フレームワークは、無条件生成や補間といった他の動画関連タスクを同時に処理する能力に欠けることが多い。本研究では、過去および/または未来のフレームを条件として、確率的条件付きスコアベースのノイズ除去拡散モデルを用いて、これらのすべての動画合成タスクを統合的に処理できる汎用フレームワーク「マスク付き条件付き動画拡散モデル(Masked Conditional Video Diffusion, MCVD)」を提案する。本モデルは、過去のフレームをランダムかつ独立にすべてマスクするか、未来のフレームを同様にすべてマスクする方式で学習を行う。この新規的でありながら単純な設定により、一度のモデルで幅広い動画処理タスクを実行可能な単一モデルを構築できる。具体的には:未来/過去の予測(未来/過去のフレームのみをマスクした場合);無条件生成(過去および未来のフレームをすべてマスクした場合);補間(過去および未来のフレームをいずれもマスクしない場合)の3つのタスクを統合的に実現可能である。実験結果から、本アプローチは多様な種類の動画に対して高品質なフレームを生成できることを示した。MCVDモデルは、単純な非再帰的2D畳み込みアーキテクチャから構成され、フレームブロックを条件として、フレームブロックを生成する。任意の長さの動画を、ブロック単位で逐次的に自己回帰的に生成する。本手法は、標準的な動画予測および補間ベンチマークにおいてSOTAの性能を達成しており、モデルの学習に要する計算時間は、最大4つのGPUを用いて1〜12日間で実現可能である。プロジェクトページ:https://mask-cond-video-diffusion.github.io;コード:https://github.com/voletiv/mcvd-pytorch

MCVD:予測、生成、補間のためのマスク付き条件付き動画ディフュージョン | 最新論文 | HyperAI超神経