
摘要
本研究针对未来帧预测中的长期运动上下文建模问题。为实现精准的未来预测,必须准确识别输入运动(如腿部动作)所归属的长期运动上下文(如行走或奔跑)。在处理长期运动上下文时面临的主要瓶颈包括:(i)如何在输入序列动态信息有限的情况下,自然地预测与之匹配的长期运动上下文;(ii)如何在高维运动(如复杂动作)场景下有效建模和预测长期运动上下文。为解决上述问题,本文提出一种新型的运动上下文感知视频预测方法。针对瓶颈(i),我们引入了一种长期运动上下文记忆机制(LMC-Memory),并结合记忆对齐学习(memory alignment learning)。该学习机制能够将长期运动上下文信息有效存储于记忆模块中,并实现与动态信息受限输入序列之间的精准匹配,从而仅凭有限输入即可准确回忆出相应的长期运动上下文。针对瓶颈(ii),我们进一步提出记忆查询分解(memory query decomposition)策略,通过将局部运动上下文(即低维动态特征)分别存储,并针对输入序列的各个局部区域独立检索最合适的局部上下文信息。该机制显著增强了记忆模块的匹配能力与表达效果。实验结果表明,所提出的方法在长期预测任务中显著优于其他先进的基于RNN的视频预测方法。此外,通过消融实验与记忆特征分析,我们进一步验证了所提网络设计的有效性与合理性。本工作的源代码已公开发布。