
摘要
我们提出了一种基于深度学习的多任务方法,用于图像中头部姿态的估计。本文贡献了一个网络架构与训练策略,充分利用了面部姿态、对齐与可见性之间的强相关性,从而在三个任务上均实现了卓越的性能。所提出的架构采用带有残差块和横向跳跃连接的编码器-解码器卷积神经网络(CNN)。实验表明,将头部姿态估计与基于关键点的面部对齐任务相结合,显著提升了姿态估计的性能。此外,将姿态估计任务置于编码器末端的瓶颈层,而将依赖空间信息的任务(如可见性与对齐)置于解码器末端的最终层,也有助于进一步提升整体性能。在实验中,所提出的模型在面部姿态估计与可见性判断任务上均优于当前最先进的方法。通过引入最后一步的关键点回归,该模型在面部对齐任务上的表现也达到了与当前最先进方法相当的水平。