9 天前

MAU:一种面向视频预测及其他任务的运动感知单元

{Wen Gao, Xiang Xinguang, Yan Ye, Siwei Ma, Shanshe Wang, Xinfeng Zhang, Zheng Chang}
MAU:一种面向视频预测及其他任务的运动感知单元
摘要

准确预测帧间运动信息在视频预测任务中起着关键作用。本文提出一种运动感知单元(Motion-Aware Unit, MAU),通过扩展预测单元的时序感受野,以捕捉可靠的帧间运动信息。MAU由两个模块组成:注意力模块与融合模块。注意力模块旨在基于当前空间状态与历史空间状态之间的相关性,学习一个注意力图。基于该注意力图,历史时序状态被聚合为增强的运动信息(Augmented Motion Information, AMI),从而使预测单元能够从更广的时序感受野中感知更多的动态变化。随后,融合模块进一步将增强的运动信息(AMI)与当前的外观信息(即当前空间状态)融合,生成最终的预测帧。MAU的计算开销较低,且可方便地集成至其他预测模型中。此外,本文在编码器与解码器中引入了一种信息回溯机制,以帮助保留预测结果中的视觉细节。我们在视频预测与早期动作识别两个任务上对MAU进行了评估。实验结果表明,MAU在两项任务上均优于现有的最先进方法。