
摘要
本研究对生成对抗网络(GAN)中用于视频生成的判别器架构进行了分析。我们发现,无约束的视频判别器架构会导致损失曲面具有较高的曲率,从而使得优化过程变得困难。此外,我们还观察到,随着视频判别器最大卷积核尺寸的增加,这种曲率会进一步加剧。基于上述发现,我们提出了一类高效且低维的视频判别器家族,即用于GAN的低维视频判别器(LDVD GANs)。所提出的判别器家族在应用于各类视频GAN模型时,显著提升了模型性能,并在复杂多样的数据集(如UCF-101)上表现出色。特别地,实验表明,该方法可使时序GAN(Temporal-GAN)的性能提升一倍,并在单张GPU上实现当前最优的生成效果。