
摘要
我们利用大量未标注的视频数据来学习场景动态模型,以应用于视频识别任务(如动作分类)和视频生成任务(如未来预测)。本文提出了一种具有时空卷积架构的生成对抗网络,该网络能够将场景的前景与背景分离。实验结果表明,该模型在全帧率下可以比简单的基线方法更好地生成长达一秒的微型视频,并且我们展示了其在静态图像未来预测中的实用性。此外,通过实验和可视化分析,该模型内部能够在最少监督的情况下学习到有用的特征以识别动作,这表明场景动态是表示学习的一个有前途的信号。我们认为生成式视频模型将在视频理解和模拟的许多应用中产生重要影响。