2 个月前

V2V-PoseNet：从单个深度图准确估计3D手部和人体姿态的体素到体素预测网络

Gyeongsik Moon; Ju Yong Chang; Kyoung Mu Lee

摘要

目前，大多数基于深度学习的单深度图3D手部和人体姿态估计方法都采用了一种通用框架，该框架通过2D卷积神经网络（CNN）直接从2D深度图回归关键点（如手部或人体关节）的3D坐标。这种方法的第一个弱点在于2D深度图中存在的透视畸变。尽管深度图本质上是3D数据，但许多先前的方法将其视为2D图像，这在从3D空间投影到2D空间时会导致实际物体形状的扭曲。这迫使网络进行透视畸变不变性的估计。传统方法的第二个弱点是直接从2D图像回归3D坐标是一种高度非线性的映射，这给学习过程带来了困难。为克服这些弱点，我们首先将单深度图的3D手部和人体姿态估计问题转化为体素到体素的预测问题，即使用3D体素化网格并估计每个关键点的体素概率。我们设计了一个3D卷积神经网络模型，该模型能够在实时运行的同时提供精确的估计结果。我们的系统在几乎所有公开可用的3D手部和人体姿态估计数据集中均优于以往方法，并在HANDS 2017帧基3D手部姿态估计挑战赛中获得第一名。代码已发布在https://github.com/mks0601/V2V-PoseNet_RELEASE。