
摘要
我们提出了一种基于束调整的算法,用于从单目视频中恢复准确的3D人体姿态和网格模型。与以往仅在单帧上操作的算法不同,我们证明在整个序列中重建一个人可以提供额外的约束条件,从而解决模糊性问题。这是因为视频通常会提供一个人的多个视角,而整体身体形状不会改变,3D位置的变化也较为缓慢。我们的方法不仅在标准的动作捕捉数据集(如Human 3.6M)上表现出定量改进,而且在具有挑战性的野外数据集(如Kinetics)上也有显著提升。在此基础上,我们构建了一个新的数据集,包含来自Kinetics的超过300万帧YouTube视频,并自动生成了这些视频中的3D姿态和网格模型。通过在这个数据集上重新训练单帧3D姿态估计器,我们在真实世界和动作捕捉数据上的准确性均有所提高,这在3DPW和HumanEVA数据集上的评估结果中得到了验证。