
摘要
从单个RGB图像进行3D姿态估计的一个主要挑战是获取足够的训练数据。特别是,收集包含无约束图像且标注有精确3D姿态的大规模训练数据是不可行的。因此,我们提出使用两个独立的训练源。第一个训练源由标注了2D姿态的图像组成,第二个训练源则由精确的3D动作捕捉数据构成。为了整合这两个来源的数据,我们提出了一种双源方法,该方法将2D姿态估计与高效、稳健的3D姿态检索相结合。在实验中,我们展示了该方法达到了当前最先进的结果,并且即使在两个来源的骨骼结构存在显著差异的情况下,其性能依然具有竞争力。

从单个RGB图像进行3D姿态估计的一个主要挑战是获取足够的训练数据。特别是,收集包含无约束图像且标注有精确3D姿态的大规模训练数据是不可行的。因此,我们提出使用两个独立的训练源。第一个训练源由标注了2D姿态的图像组成,第二个训练源则由精确的3D动作捕捉数据构成。为了整合这两个来源的数据,我们提出了一种双源方法,该方法将2D姿态估计与高效、稳健的3D姿态检索相结合。在实验中,我们展示了该方法达到了当前最先进的结果,并且即使在两个来源的骨骼结构存在显著差异的情况下,其性能依然具有竞争力。