
摘要
估计一个人的头部姿态是一个关键问题,具有广泛的应用,如辅助视线估计、建模注意力、将3D模型拟合到视频中以及执行面部对齐。传统上,头部姿态是通过从目标面部估计一些关键点,并利用平均人类头部模型解决2D到3D的对应问题来计算的。我们认为这种方法存在脆弱性,因为它完全依赖于地标检测性能、外部头部模型和一个临时的拟合步骤。我们提出了一种优雅且鲁棒的方法,通过在300W-LP(一个大规模合成扩展的数据集)上训练一个多损失卷积神经网络,直接从图像强度预测固有的欧拉角(偏航角、俯仰角和滚转角),方法结合了联合分箱姿态分类和回归。我们在常见的野外姿态基准数据集上进行了实证测试,展示了最先进的结果。此外,我们还在通常用于深度姿态估计的数据集上测试了我们的方法,并开始缩小与最先进的深度姿态方法之间的差距。我们开源了训练和测试代码,并发布了预训练模型。