9 天前

基于记忆对齐学习的视频预测：召回长期运动上下文

Sangmin Lee, Hak Gu Kim, Dae Hwi Choi, Hyung-Il Kim, Yong Man Ro

摘要

本研究针对未来帧预测中的长期运动上下文建模问题。为实现精准的未来预测，必须准确识别输入运动（如腿部动作）所归属的长期运动上下文（如行走或奔跑）。在处理长期运动上下文时面临的主要瓶颈包括：（i）如何在输入序列动态信息有限的情况下，自然地预测与之匹配的长期运动上下文；（ii）如何在高维运动（如复杂动作）场景下有效建模和预测长期运动上下文。为解决上述问题，本文提出一种新型的运动上下文感知视频预测方法。针对瓶颈（i），我们引入了一种长期运动上下文记忆机制（LMC-Memory），并结合记忆对齐学习（memory alignment learning）。该学习机制能够将长期运动上下文信息有效存储于记忆模块中，并实现与动态信息受限输入序列之间的精准匹配，从而仅凭有限输入即可准确回忆出相应的长期运动上下文。针对瓶颈（ii），我们进一步提出记忆查询分解（memory query decomposition）策略，通过将局部运动上下文（即低维动态特征）分别存储，并针对输入序列的各个局部区域独立检索最合适的局部上下文信息。该机制显著增强了记忆模块的匹配能力与表达效果。实验结果表明，所提出的方法在长期预测任务中显著优于其他先进的基于RNN的视频预测方法。此外，通过消融实验与记忆特征分析，我们进一步验证了所提网络设计的有效性与合理性。本工作的源代码已公开发布。