
摘要
在本文中,我们提出了一种生成模型——时间生成对抗网络(Temporal Generative Adversarial Nets, TGAN),该模型能够学习未标记视频的语义表示,并且具备生成视频的能力。与现有的基于生成对抗网络(Generative Adversarial Nets, GAN)的方法不同,这些方法通常使用一个包含3D反卷积层的单一生成器来生成视频,我们的模型采用了两种不同类型的生成器:时间生成器和图像生成器。时间生成器以单个潜在变量作为输入,输出一组潜在变量,每个潜在变量对应视频中的一个图像帧。图像生成器则将这样的一组潜在变量转换为视频。为了应对在训练具有如此先进网络的GAN时出现的不稳定性问题,我们采用了最近提出的Wasserstein GAN模型,并提出了一种新的方法,以端到端的方式稳定地训练该模型。实验结果证明了我们方法的有效性。