
摘要
在过去十年中,深度学习在从单目图像预测人类头部姿态方面取得了令人瞩目的成功。然而,对于野外输入(in-the-wild inputs),研究社区主要依赖于单一的半合成训练数据集300W-LP,而缺乏其他选择。本文重点探讨了通过逐步扩展和改进数据集,进一步探索增强和合成策略所能达到的性能。在模型设计方面,提出了一种新的多任务头部/损失设计方法,该方法包括不确定性估计。总体而言,所获得的模型体积小、效率高,适用于完整的六自由度(6 DoF)姿态估计,并且表现出非常有竞争力的精度。
在过去十年中,深度学习在从单目图像预测人类头部姿态方面取得了令人瞩目的成功。然而,对于野外输入(in-the-wild inputs),研究社区主要依赖于单一的半合成训练数据集300W-LP,而缺乏其他选择。本文重点探讨了通过逐步扩展和改进数据集,进一步探索增强和合成策略所能达到的性能。在模型设计方面,提出了一种新的多任务头部/损失设计方法,该方法包括不确定性估计。总体而言,所获得的模型体积小、效率高,适用于完整的六自由度(6 DoF)姿态估计,并且表现出非常有竞争力的精度。