8 天前

基于动态感知隐式生成对抗网络的视频生成

Sihyun Yu, Jihoon Tack, Sangwoo Mo, Hyunsu Kim, Junho Kim, Jung-Woo Ha, Jinwoo Shin

摘要

在深度学习时代，高质量长视频生成仍面临巨大挑战，主要源于视频在时空维度上的复杂性与连续性。现有方法通常将视频建模为RGB值构成的三维网格（3D grid），这种表示方式限制了生成视频的规模，且难以捕捉连续的动态变化。本文发现，近年来兴起的隐式神经表示（Implicit Neural Representations, INRs）——将连续信号编码为参数化神经网络——能够有效缓解上述问题。基于此，我们提出一种面向视频生成的动力学感知隐式生成对抗网络（Dynamics-aware Implicit Generative Adversarial Network, DIGAN），这是一种全新的生成对抗网络框架。具体而言，DIGAN引入了两项关键创新：（a）一种基于INR的视频生成器，通过差异化地操控空间与时间坐标，显著提升运动动态的建模能力；（b）一种运动判别器，能够在不依赖完整长序列帧的情况下，高效识别出不自然的运动模式。实验结果表明，DIGAN在多个数据集上均展现出显著优势，并具备多项令人瞩目的特性，包括长视频合成、视频外推（extrapolation）以及非自回归式视频生成。例如，在UCF-101数据集上，DIGAN将此前最优方法的FVD（Fréchet Video Distance）分数提升了30.7%；同时，该模型可在分辨率为128×128、包含128帧的视频上进行训练，比此前最优方法支持的48帧长出80帧，显著拓展了生成视频的长度上限。