7日前
動画予測およびインフィルティングにおける拡散モデル
Tobias Höppe, Arash Mehrjou, Stefan Bauer, Didrik Nielsen, Andrea Dittadi

要約
将来の結果を予測したり、シーケンスにおける欠落した情報を推論したりすることは、エージェントが知的な意思決定を行うために不可欠なスキルである。このような能力には、時間的に整合性のある強力な生成能力が求められる。拡散モデル(Diffusion models)は、いくつかの生成タスクにおいて顕著な成果を上げているが、動画分野における応用はまだ十分に検討されていない。本研究では、3D畳み込みを用いて画像拡散モデルを動画に拡張した「Random-Mask Video Diffusion(RaMViD)」を提案する。また、学習中に新たな条件付与(conditioning)手法を導入した。条件付けに用いるマスクを変化させることで、モデルは動画予測、欠損領域の補完(infilling)、およびアップサンプリングを統一的に実行可能となる。本手法のシンプルな条件付けスキームにより、無条件学習で用いられる同一のアーキテクチャをそのまま利用でき、条件付きと無条件の両方の学習を同時に実行することが可能となる。RaMViDは、動画予測のための2つのベンチマークデータセットおよび動画生成のための1つのデータセットで評価され、いずれにおいても最先端の性能を達成した。高解像度動画のサンプルは、https://sites.google.com/view/video-diffusion-prediction にて公開されている。