摘要
时空预测因其复杂的动态运动与外观变化而极具挑战性。现有方法通常通过在标准ConvLSTM中引入额外的记忆单元,以在预测过程中记忆空间外观特征。然而,这些模型普遍依赖卷积层来捕捉空间依赖关系,而卷积操作具有局部性且效率较低。值得注意的是,长距离空间依赖关系在空间建模任务中至关重要。为同时捕捉全局与局部空间特征,本文将自注意力机制引入ConvLSTM框架。具体而言,提出一种新型自注意力记忆模块(Self-Attention Memory, SAM),用于在时空域中记忆具有长距离依赖性的特征。基于自注意力机制,SAM能够通过计算输入特征与记忆特征在所有位置之间的成对相似性得分,聚合全局信息以生成新的特征表示。此外,该额外记忆单元通过门控机制对聚合特征进行更新,并结合前一时刻记忆的高速公路结构(highway)实现信息的高效传递。因此,SAM能够有效提取具备长程时空依赖性的特征表示。进一步地,我们将SAM模块嵌入标准ConvLSTM中,构建出一种新型的自注意力ConvLSTM(SA-ConvLSTM)模型,用于时空预测任务。在实验中,我们将SA-ConvLSTM应用于MovingMNIST和KTH数据集的视频帧预测任务,以及TexiBJ数据集的交通流预测任务。结果表明,该模型在两个数据集上均取得了当前最优的性能表现,且相比以往最先进方法,参数量更少、运行效率更高,展现出优异的性能与实用性。