7 天前

WHAM:基于世界感知的高精度3D动作重建人类

Soyong Shin, Juyong Kim, Eni Halilaj, Michael J. Black
WHAM:基于世界感知的高精度3D动作重建人类
摘要

从视频中估计三维人体运动的研究近年来取得了显著进展,但现有方法仍存在若干关键局限。首先,大多数方法在相机坐标系中估计人体姿态。其次,以往在全局坐标系中估计人体运动的工作通常假设地面为平面,导致产生足部滑动等不真实结果。第三,目前精度最高的方法依赖于计算开销巨大的优化流程,因而仅适用于离线应用。最后,令人意外的是,现有的基于视频的方法在精度上反而不如单帧方法。为解决上述问题,我们提出了WHAM(World-grounded Humans with Accurate Motion),一种能够高效且准确地从视频中重建全局坐标系下三维人体运动的方法。WHAM利用动作捕捉数据学习将二维关键点序列提升至三维空间,并融合视频特征,有效整合运动上下文与视觉信息。同时,WHAM结合从SLAM方法中估计得到的相机角速度与人体运动信息,实现对人体全局轨迹的精确估计。此外,我们引入了一种考虑接触状态的轨迹优化方法,使WHAM能够在多样场景中准确捕捉人体运动,例如上下楼梯等复杂动作。在多个真实场景(in-the-wild)基准测试中,WHAM在性能上全面超越现有所有三维人体运动恢复方法。相关代码将向研究社区开放,供学术研究使用,访问地址为:http://wham.is.tue.mpg.de/

WHAM:基于世界感知的高精度3D动作重建人类 | 最新论文 | HyperAI超神经