
摘要
在单张图像中进行3D姿态估计的监督方法在标注数据丰富时表现出显著的效果。然而,由于获取真实3D标签的过程既费力又耗时,近期研究的重点已转向半监督和弱监督学习。在拥挤场景中,如何利用少量注释生成有效的监督形式仍然是一个主要挑战。本文提出通过加权可微分三角测量(weighted differentiable triangulation)来施加多视图几何约束,并将其作为无标签情况下的自监督形式。因此,我们训练了一个2D姿态估计器,使其预测结果对应于三角测量的3D姿态的重投影,并在此基础上训练一个辅助网络以生成最终的3D姿态。为了缓解因自身遮挡或来自其他对象的遮挡导致的噪声预测的影响,我们还引入了一种权重机制来补充三角测量。我们在Human3.6M和MPI-INF-3DHP数据集上验证了我们的半监督方法的有效性,并在一个新的包含遮挡现象的多视图多人数据集上进行了测试。