2 个月前
通过学习人-场景交互来填充3D场景
Mohamed Hassan; Partha Ghosh; Joachim Tesch; Dimitrios Tzionas; Michael J. Black

摘要
人类生活在三维空间中,并不断与之互动以完成各种任务。这些互动涉及具有语义意义的表面之间的物理接触。我们的目标是学习人类如何与场景互动,并利用这一点使虚拟角色能够进行相同的互动。为此,我们提出了一种新颖的人体-场景交互(HSI)模型,称为POSA(“姿态与邻近关系及接触” Pose with prOximitieS and contActs)。该交互表示方法以身体为中心,这使得它能够推广到新的场景。具体而言,POSA扩展了参数化人体模型SMPL-X,对于每个网格顶点,它编码了(a)与场景表面接触的概率以及(b)相应的语义场景标签。我们通过条件变分自编码器(VAE)学习POSA,并在PROX数据集上进行训练,该数据集包含人们与3D场景互动的SMPL-X网格以及来自PROX-E数据集的相应场景语义信息。我们通过两个应用展示了POSA的价值。首先,我们自动将人的3D扫描放置到场景中。我们使用拟合到扫描的SMPL-X模型作为代理,然后找到其在3D空间中最可能的位置。POSA提供了一种有效的表示方法来搜索与该姿态可能的接触关系相匹配的场景中的“功能区”(affordances)。我们在感知研究中显示,在这项任务上相比现有技术有显著改进。其次,我们证明了POSA所学到的人体-场景交互表示支持单目人体姿态估计,并且这种估计与3D场景一致,从而在现有技术基础上取得了进一步提升。我们的模型和代码已开放用于研究目的,网址为https://posa.is.tue.mpg.de。