3 个月前

具身场景感知的人体姿态估计

Zhengyi Luo, Shun Iwase, Ye Yuan, Kris Kitani
具身场景感知的人体姿态估计
摘要

我们提出了一种具身化场景感知的人体姿态估计方法,该方法基于模拟智能体的本体感知(proprioception)与场景感知能力,结合外部第三人称观测,实现对人体三维姿态的估计。与以往方法常依赖多阶段优化、非因果推理及复杂的接触建模来推断人体姿态及其与场景的交互不同,我们的方法为单阶段、因果性建模,并可在模拟环境中恢复全局三维人体姿态。由于二维第三人称观测与相机位姿紧密耦合,我们提出解耦相机位姿,并在全局坐标系中定义多步投影梯度作为具身智能体的运动引导信号。借助物理仿真与预先扫描的场景数据(如三维网格模型),我们在日常环境(如图书馆、办公室、卧室等)中模拟智能体,并为其配备环境传感器,使其能够智能地导航并与场景几何结构进行交互。本方法仅依赖二维关键点信息,且可在由主流人体运动数据库生成的合成数据集上进行训练。为评估性能,我们采用广泛使用的H36M和PROX数据集进行测试,在未使用PROX运动序列进行训练的前提下,仍实现了在具有挑战性的PROX数据集上的高质量姿态估计结果。项目代码与演示视频已公开于项目主页。