
摘要
我们提出了一种用于预测自然视频序列中未来帧的深度神经网络。为了有效处理视频中像素的复杂演变,我们建议将运动和内容这两个生成视频动态的关键组件进行分解。我们的模型基于编码器-解码器卷积神经网络(Encoder-Decoder Convolutional Neural Network)和卷积LSTM(Convolutional LSTM),分别用于捕捉图像的空间布局和相应的时间动态。通过独立建模运动和内容,预测下一帧的任务简化为将提取的内容特征通过识别的运动特征转换为下一帧的内容,从而降低了预测任务的难度。我们的模型可以在多个时间步上端到端地训练,并且能够自然地学习到运动和内容的分离而无需单独训练。我们在KTH、Weizmann动作和UCF-101数据集上评估了所提出的网络架构在人类活动视频中的表现。实验结果表明,与近期的方法相比,我们的方法达到了最先进的性能。据我们所知,这是首个能够端到端训练并实现运动与内容分离以建模时空动态、进行自然视频像素级未来预测的网络架构。