2 个月前

从单张图像中感知自然环境下的三维人-物空间布局

Zhang, Jason Y. ; Pepose, Sam ; Joo, Hanbyul ; Ramanan, Deva ; Malik, Jitendra ; Kanazawa, Angjoo
从单张图像中感知自然环境下的三维人-物空间布局
摘要

我们提出了一种方法,该方法可以从单张在非受控环境中拍摄的自然图像中推断出人类和物体的空间布局及其形状,构建一个全局一致的三维场景。值得注意的是,我们的方法无需任何场景级或物体级的三维监督即可运行在数据集上。我们的关键洞察是,将人类和物体联合考虑可以产生“三维常识”约束,这些约束有助于解决模糊性问题。具体而言,我们引入了一种尺度损失(scale loss),该损失从数据中学习物体大小的分布;一种遮挡感知轮廓重投影损失(occlusion-aware silhouette re-projection loss),用于优化物体姿态;以及一种人-物交互损失(human-object interaction loss),以捕捉人类与之互动的物体的空间布局。通过实验证明,我们的约束显著减少了可能的三维空间配置的数量。我们在具有挑战性的自然图像上展示了这种方法的应用,这些图像涉及人类与大型物体(如自行车、摩托车和冲浪板)及手持物体(如笔记本电脑、网球拍和滑板)的互动。我们量化了该方法恢复人-物布局的能力,并概述了该领域仍存在的挑战。项目网页可访问 https://jasonyzhang.com/phosa。