
摘要
从单个深度图像中估计三维手部姿态是人机交互领域的一个重要且具有挑战性的问题。近年来,设计复杂的深度卷积网络(ConvNet)已被用于解决这一问题,但其相对于传统的基于随机森林的方法的改进并不明显。为了借鉴良好的实践并提升手部姿态估计的性能,我们提出了一种树状区域集成网络(Region Ensemble Network, REN),用于直接回归三维坐标。该方法首先将ConvNet的最后一层卷积输出划分为若干个网格区域。然后,通过在每个区域上分别应用全连接(FC)回归器,并由另一个全连接层整合这些结果,以完成姿态估计。通过采用包括数据增强和平滑$L_1$损失在内的多种训练策略,所提出的REN可以显著提高ConvNet对手部关节定位的性能。实验结果表明,我们的方法在三个公开的手部姿态数据集上达到了最佳性能。此外,我们在指尖检测和人体姿态数据集上也进行了实验,并获得了最先进的精度。