2 个月前

捕捉和推断密集的人体-场景接触

Huang, Chun-Hao P. ; Yi, Hongwei ; Höschle, Markus ; Safroshkin, Matvey ; Alexiadis, Tsvetelina ; Polikovsky, Senya ; Scharstein, Daniel ; Black, Michael J.
捕捉和推断密集的人体-场景接触
摘要

推断人体与场景接触(HSC)是理解人类如何与其周围环境互动的第一步。尽管二维人体-物体交互(HOI)检测和三维人体姿态与形状(HPS)重建已经取得了显著进展,但从单张图像中推理三维人体-场景接触仍然具有挑战性。现有的HSC检测方法通常只考虑少数几种预定义的接触类型,经常将身体和场景简化为少量的基本几何体,并且有时甚至忽略了图像中的证据。为了从单张图像中预测人体-场景接触,我们从数据和算法两个角度解决了上述限制。我们采集了一个名为RICH的新数据集,代表“真实场景、互动、接触和人体”。RICH包含以4K分辨率拍摄的多视角户外/室内视频序列、使用无标记运动捕捉技术获取的真实三维人体模型、三维身体扫描以及高分辨率的三维场景扫描。RICH的一个关键特点是它还包含了身体上的精确顶点级接触标签。利用RICH数据集,我们训练了一个网络,该网络可以从单个RGB图像中预测密集的人体-场景接触。我们的核心见解是,接触区域总是被遮挡的,因此网络需要具备探索整个图像以寻找证据的能力。我们使用变压器来学习这种非局部关系,并提出了一种新的Body-Scene接触变压器(BSTRO)。很少有方法研究三维接触;那些研究的方法要么仅关注脚部,要么将脚部接触作为后处理步骤进行检测,或者在不考虑场景的情况下从身体姿态推断接触。据我们所知,BSTRO是首个直接从单张图像估计三维人体-场景接触的方法。我们展示了BSTRO在性能上显著优于现有技术。代码和数据集可在https://rich.is.tue.mpg.de 获取。

捕捉和推断密集的人体-场景接触 | 最新论文 | HyperAI超神经