
摘要
近年来,人脸姿态估计(head pose estimation)已成为面部分析领域中的关键问题,并在视线估计、虚拟现实以及驾驶员辅助系统等计算机视觉应用中具有广泛用途。鉴于该问题的重要性,有必要设计一种轻量级模型,在保持高精度的前提下,降低在基于面部分析的应用(如大规模摄像头监控系统、智能摄像头)中部署时的计算开销。本文提出了一种轻量级模型,能够高效解决人脸姿态估计问题。我们的方法包含两个主要步骤:(1)首先在合成数据集300W-LPA上训练多个教师模型,以生成人脸姿态的伪标签(pseudo labels);(2)设计基于ResNet18主干网络的模型架构,并通过知识蒸馏(knowledge distillation)过程,利用上述伪标签的集成结果对所提出的模型进行训练。为评估所提模型的有效性,我们采用AFLW-2000和BIWI两个真实世界的人脸姿态数据集进行测试。实验结果表明,与当前最先进的姿态估计方法相比,本模型在精度上实现了显著提升。此外,在Tesla V100 GPU上进行推理时,该模型可达到约300 FPS的实时处理速度,具备良好的实用性与部署潜力。