
摘要
目前,大多数基于深度学习的单深度图3D手部和人体姿态估计方法都采用了一种通用框架,该框架通过2D卷积神经网络(CNN)直接从2D深度图回归关键点(如手部或人体关节)的3D坐标。这种方法的第一个弱点在于2D深度图中存在的透视畸变。尽管深度图本质上是3D数据,但许多先前的方法将其视为2D图像,这在从3D空间投影到2D空间时会导致实际物体形状的扭曲。这迫使网络进行透视畸变不变性的估计。传统方法的第二个弱点是直接从2D图像回归3D坐标是一种高度非线性的映射,这给学习过程带来了困难。为克服这些弱点,我们首先将单深度图的3D手部和人体姿态估计问题转化为体素到体素的预测问题,即使用3D体素化网格并估计每个关键点的体素概率。我们设计了一个3D卷积神经网络模型,该模型能够在实时运行的同时提供精确的估计结果。我们的系统在几乎所有公开可用的3D手部和人体姿态估计数据集中均优于以往方法,并在HANDS 2017帧基3D手部姿态估计挑战赛中获得第一名。代码已发布在https://github.com/mks0601/V2V-PoseNet_RELEASE。