6 个月前

摘要

现有的自监督三维人体姿态估计方法主要依赖于一致性损失等弱监督信号来引导学习，这不可避免地导致在包含未见姿态的真实场景中性能下降。本文提出一种新颖的自监督方法，通过构建一个自增强的双环学习框架，能够显式生成二维-三维姿态配对数据以增强监督信号。该方法的核心在于引入一个基于强化学习的模仿器（imitator），其与姿态估计器和姿态幻觉生成器（pose hallucinator）联合学习；在训练过程中，这三个组件构成两个相互补充、彼此强化的循环。具体而言，姿态估计器将输入的二维姿态序列转换为低保真度的三维输出，随后由模仿器对其进行优化，以施加物理合理性约束；经过优化的三维姿态被送入幻觉生成器，生成更具多样性的数据；这些新生成的数据再经模仿器进一步强化，并用于重新训练姿态估计器。这种协同进化机制使得我们能够在无需任何真实三维数据的前提下，仅依赖自生成的运动数据来训练姿态估计器。在多个基准数据集上的大量实验表明，本方法取得了令人鼓舞的结果，显著超越现有自监督方法，在某些情况下甚至达到全监督方法的性能水平。值得注意的是，在自监督跨数据集评估设置下，本方法在MPI-INF-3DHP数据集上取得了89.1%的3D PCK得分，相较于此前最优的自监督方法提升了8.6%。代码已开源，地址为：https://github.com/Garfield-kh/PoseTriplet

源 PDF