
摘要
在本文中,我们致力于解决场景感知的3D人体运动预测问题。该任务的关键挑战在于,通过建模人体与场景之间的交互关系,预测与场景一致的未来人体运动。尽管近期研究已表明,对人-场景交互施加显式约束可有效避免“幽灵运动”(ghost motion)的出现,但现有方法通常仅对部分人体运动施加约束,例如人体整体运动或与场景接触的少数关节,其余部分的运动仍处于无约束状态。为克服这一局限,我们提出通过人体与场景之间的互距离(mutual distance)来建模人-场景交互。这种互距离约束同时作用于人体的局部与全局运动,从而实现对全身运动的联合约束。具体而言,互距离约束由两个部分构成:一是人体网格上每个顶点到场景表面的有符号距离(signed distance),二是场景基点到人体网格的距离。为进一步确保全局场景表征与互距离显式约束之间的一致性,我们引入一种从有符号距离函数(Signed Distance Function, SDF)体素中学习得到的全局场景表示。我们设计了一个包含两个顺序步骤的预测流程:首先预测未来时刻的互距离,随后基于该互距离预测未来的人体运动。在训练过程中,我们显式地鼓励预测姿态与互距离之间的一致性。在现有合成数据集与真实数据集上的大量实验表明,我们的方法在各项指标上均持续优于当前最先进的方法。