4 个月前

TriPose:基于视频三角测量的弱监督3D人体姿态估计

Mohsen Gholami; Ahmad Rezaei; Helge Rhodin; Rabab Ward; Z. Jane Wang
TriPose:基于视频三角测量的弱监督3D人体姿态估计
摘要

从视频中估计三维人体姿态是一个具有挑战性的问题。缺乏三维人体姿态注释是监督训练和泛化到未见过的数据集的主要障碍。在本研究中,我们通过提出一种弱监督训练方案来解决这一问题,该方案不需要三维注释或校准相机。所提出的方法依赖于时间信息和三角测量。首先,以多个视角的二维姿态作为输入,我们估计相对相机方向,然后通过三角测量生成三维姿态。三角测量仅应用于二维人体关节置信度较高的视角。生成的三维姿态随后用于训练一个递归提升网络(Recurrent Lifting Network, RLN),该网络可以从二维姿态估计三维姿态。我们进一步对估计的三维姿态应用多视角重投影损失,并强制要求从多视角估计的三维姿态具有一致性。因此,我们的方法在实际应用中放宽了约束条件,只需要多视角视频即可进行训练,从而便于在野外环境下的使用。在推理阶段,RLN仅需要单视角视频。所提出的 方法在两个具有挑战性的数据集Human3.6M和MPI-INF-3DHP上优于先前的工作。代码和预训练模型将公开发布。