2 个月前

H2O:第一人称交互中的双手操作物体识别

Kwon, Taein ; Tekin, Bugra ; Stuhmer, Jan ; Bogo, Federica ; Pollefeys, Marc
H2O:第一人称交互中的双手操作物体识别
摘要

我们提出了一种基于无标记三维注释的以自我为中心的交互识别综合框架,该框架涉及两只手操作物体的过程。为此,我们提出了一种方法来创建一个统一的以自我为中心的三维交互识别数据集。我们的方法生成了每帧中两只手的三维姿态、被操作物体的六维姿态及其交互标签的注释。我们的数据集称为H2O(2 Hands and Objects),提供了同步多视角RGB-D图像、交互标签、物体类别、左右手的真实三维姿态、六维物体姿态、真实相机姿态、物体网格以及场景点云。据我们所知,这是首个能够研究第一人称动作的数据基准,它利用了两只手操作物体时的姿态,并为以自我为中心的三维交互识别提供了前所未有的详细程度。此外,我们还提出了一种通过从RGB图像中联合估计两只手的三维姿态和被操作物体的六维姿态来预测交互类别的方法。我们的方法通过学习图卷积网络(Graph Convolutional Network)的拓扑结构来建模双手与物体之间的相互依赖性和内部依赖性,从而预测交互行为。实验结果表明,借助该数据集,我们的方法在联合手-物姿估计方面建立了强大的基线,并在第一人称交互识别方面达到了最先进的精度。