8 天前
基于动态感知隐式生成对抗网络的视频生成
Sihyun Yu, Jihoon Tack, Sangwoo Mo, Hyunsu Kim, Junho Kim, Jung-Woo Ha, Jinwoo Shin

摘要
在深度学习时代,高质量长视频生成仍面临巨大挑战,主要源于视频在时空维度上的复杂性与连续性。现有方法通常将视频建模为RGB值构成的三维网格(3D grid),这种表示方式限制了生成视频的规模,且难以捕捉连续的动态变化。本文发现,近年来兴起的隐式神经表示(Implicit Neural Representations, INRs)——将连续信号编码为参数化神经网络——能够有效缓解上述问题。基于此,我们提出一种面向视频生成的动力学感知隐式生成对抗网络(Dynamics-aware Implicit Generative Adversarial Network, DIGAN),这是一种全新的生成对抗网络框架。具体而言,DIGAN引入了两项关键创新:(a)一种基于INR的视频生成器,通过差异化地操控空间与时间坐标,显著提升运动动态的建模能力;(b)一种运动判别器,能够在不依赖完整长序列帧的情况下,高效识别出不自然的运动模式。实验结果表明,DIGAN在多个数据集上均展现出显著优势,并具备多项令人瞩目的特性,包括长视频合成、视频外推(extrapolation)以及非自回归式视频生成。例如,在UCF-101数据集上,DIGAN将此前最优方法的FVD(Fréchet Video Distance)分数提升了30.7%;同时,该模型可在分辨率为128×128、包含128帧的视频上进行训练,比此前最优方法支持的48帧长出80帧,显著拓展了生成视频的长度上限。