2 个月前
人类-物体交互的详细二维-三维联合表示
Li, Yong-Lu ; Liu, Xinpeng ; Lu, Han ; Wang, Shiyi ; Liu, Junqi ; Li, Jiefeng ; Lu, Cewu

摘要
人体-物体交互(Human-Object Interaction, HOI)检测是动作理解的核心。除了人类和物体的外观及位置等二维信息外,三维姿态也因其视角独立性而常被用于HOI学习中。然而,粗糙的三维身体关节仅携带稀疏的身体信息,不足以理解复杂的交互行为。因此,我们需要更详细的三维身体形状来进一步研究。同时,三维中的交互物体在HOI学习中也尚未得到充分研究。鉴于此,我们提出了一种详细的2D-3D联合表示学习方法。首先,我们利用单视图人体捕捉技术获取详细的人体、面部和手部形状。接下来,根据二维的人体-物体空间配置和物体类别先验知识估计三维物体的位置和大小。最后,我们提出了一个联合学习框架和跨模态一致性任务,以学习联合的HOI表示。为了更好地评估模型处理二维模糊性的能力,我们提出了一种新的基准测试集Ambiguous-HOI,该数据集包含大量难以辨识的模糊图像。在大规模HOI基准测试集和Ambiguous-HOI上的广泛实验表明了我们方法的有效性。代码和数据可在https://github.com/DirtyHarryLYL/DJ-RN 获取。