
要約
近年、拡散モデル(diffusion models)の進展により、テキストから画像を生成する技術は著しく向上している。しかし、テキストから動画を生成することは、画像生成に比べてはるかに困難な課題である。その理由は、動画生成にはより大きなデータセットと高い計算コストが要求されるためである。既存の動画生成手法の多くは、時間軸を考慮する3D U-Netアーキテクチャを用いるか、自己回帰的(autoregressive)な生成方式を採用している。これらの手法は、大規模なデータセットを必要とし、テキストから画像を生成する場合と比べて計算コストが高くなるという制約がある。こうした課題に対処するため、本研究では、アーキテクチャ上に時間次元を設けず、かつ大規模なテキスト-動画ペアデータセットを用いない、シンプルながら効果的な新規な「グリッド拡散モデル(grid diffusion)」を提案する。本手法では、動画をグリッド画像として表現することで、生成するフレーム数にかかわらず固定されたGPUメモリ量で高品質な動画を生成可能である。さらに、動画の次元を画像の次元に低次元化することで、画像ベースの手法を動画に適用できるようになり、たとえば画像操作に基づくテキスト誘導型動画編集(text-guided video manipulation)など、さまざまな応用が可能となる。定量的・定性的な評価において、本手法は既存の手法を上回る性能を示しており、実世界における動画生成に適したモデルであることを実証した。