
摘要
时空预测学习虽然长期以来被认为是一种具有前景的自监督特征学习方法,但在未来视频预测之外的应用中却很少展现出其有效性。其根本原因在于,同时学习短期帧间依赖关系与长期高层语义关系极为困难。为此,我们提出了一种新模型——视觉记忆3D长短期记忆网络(Eidetic 3D LSTM, E3D-LSTM),该模型将3D卷积结构嵌入到循环神经网络(RNN)中。通过封装3D卷积模块,RNN的局部感知单元具备了对运动信息的感知能力,从而使得记忆单元能够更有效地存储短期特征。针对长期关系建模,我们设计了一种门控自注意力模块,使当前记忆状态能够与历史记忆记录进行交互。我们将这一记忆演化机制称为“视觉记忆(eidetic)”,因其能够在经历长时间干扰后,仍能有效跨多个时间步召回存储的记忆内容。我们首先在多个广泛使用的未来视频预测数据集上对E3D-LSTM网络进行了评估,结果达到了当前最优的性能水平。随后,我们进一步验证了该模型在早期动作识别任务中的优异表现——仅基于少量视频帧即可准确推断当前正在发生或即将发生的动作。该任务与视频预测高度契合,因为动作意图与行为趋势是实现顶尖性能的关键因素。