9 天前
MSPred:基于分层循环网络的多时空尺度视频预测
Angel Villar-Corrales, Ani Karapetyan, Andreas Boltres, Sven Behnke

摘要
自主系统不仅需要理解当前环境,还应能够基于历史状态预测未来的动作,例如根据捕捉到的摄像头画面进行推断。然而,现有模型主要专注于短时程的未来视频帧预测,因此在长期动作规划方面应用受限。为此,我们提出了一种新型视频预测模型——多尺度分层预测(Multi-Scale Hierarchical Prediction, MSPred),该模型能够同时在不同时空尺度上预测多种粒度的未来可能结果。通过结合空间与时间的下采样策略,MSPred能够高效地预测长期时间跨度下的抽象表示(如人体姿态或位置),同时在视频帧预测任务上仍保持具有竞争力的性能。在实验中,我们验证了MSPred在分拣任务(bin-picking)和动作识别数据集上,不仅能准确预测未来视频帧,还能有效生成高层次表征(如关键点或语义信息),且在所有测试场景中均持续优于主流的未来帧预测方法。此外,我们对MSPred中的各个模块及设计选择进行了消融实验,结果表明:融合不同空间与时间粒度的特征能够显著提升模型性能。用于复现本研究实验的代码与模型已开源,详见:https://github.com/AIS-Bonn/MSPred。