ダイナミクス感知型 Implicit Generative Adversarial Networks を用いた動画生成

深層学習の時代において、動画の空間時間的複雑性および連続性のため、高品質な長時間動画生成は依然として大きな課題である。従来の先行研究では、動画をRGB値の3次元グリッドとして表現することで動画分布をモデル化しようとする試みがなされてきたが、これにより生成動画のスケールが制限され、連続的な運動ダイナミクスが無視されるという問題があった。本論文では、連続信号をパラメータ化されたニューラルネットワークに符号化する近年注目されている暗黙的ニューラル表現(Implicit Neural Representations, INRs)のアプローチが、この課題を効果的に緩和できることを見出した。INRsを動画に応用することで、本研究では動画生成のための新たな生成的対抗ネットワークである「動的意識型暗黙的生成対抗ネットワーク(Dynamics-aware Implicit Generative Adversarial Network, DIGAN)」を提案する。具体的には、(a) 空間座標と時間座標を異なる方法で操作することで運動ダイナミクスを改善するINRベースの動画生成器、および (b) 全ての長時間フレームシーケンスを観測せずに不自然な運動を効率的に識別する運動識別器の導入を実現した。我々は、さまざまなデータセットにおいてDIGANの優位性を実証し、長時間動画合成、動画外挿、非逐次的(non-autoregressive)動画生成といった興味深い特性も示した。例えば、UCF-101データセットにおいて、DIGANは従来の最先端手法に対してFVDスコアを30.7%向上させ、128×128解像度の128フレームの動画を学習可能であり、従来手法の48フレームよりも80フレーム長く生成可能な点が特徴である。