13 天前

分阶段接触感知的全局人类运动预测

Luca Scofano, Alessio Sampieri, Elisabeth Schiele, Edoardo De Matteis, Laura Leal-Taixé, Fabio Galasso
分阶段接触感知的全局人类运动预测
摘要

场景感知的全局人体运动预测在虚拟现实、机器人技术以及体育分析等多个领域具有重要意义。该任务需在给定场景上下文的条件下,联合预测人体的轨迹与姿态,构成了一个极具挑战性的研究课题。迄今为止,仅有Mao等人在NeurIPS 2022的工作提出了面向场景感知的全局运动预测方法,其采用级联策略,先预测未来可能的场景接触点,再基于此进行全局运动估计。该方法将后续运动预测建模为端到端的轨迹与姿态生成过程。然而,正如本文通过实证所揭示的,这种端到端范式与任务本身“由粗到精”的本质特性相悖,导致性能受限。为此,本文提出一种新型三阶段框架——STAG(STaged contact-aware global human motion forecasting),用于在三维环境中预测全局人体运动。该框架首先将场景及其与人体的交互关系建模为接触点;其次,在场景约束下预测人体整体的粗粒度运动轨迹;最后,通过匹配合理的细粒度关节运动,对已预测的轨迹进行补全,从而实现更精确的运动生成。在场景感知的GTA-IM数据集上,与当前最优方法相比,STAG在姿态预测和轨迹预测方面分别实现了1.8%和16.2%的总体性能提升。全面的消融实验验证了分阶段建模相较于端到端方法的优越性。此外,本文提出了一种新的时间感知机制——“剩余时间”(time-to-go),用于表征到达场景接触点或目标点所需的时间,显著增强了模型对时序动态的理解能力。值得注意的是,STAG在无需依赖社交线索的情况下,成功推广至无场景信息的数据集CMU-Mocap,并取得了新的最先进性能。相关代码已开源,地址为:https://github.com/L-Scofano/STAG

分阶段接触感知的全局人类运动预测 | 最新论文 | HyperAI超神经