
摘要
当前最先进的单摄像头动作捕捉解决方案主要依赖于优化方法:它们通过优化3D人体模型的参数,使其在视频中的重投影与测量结果(如人物分割、光流、关键点检测等)相匹配。优化模型容易陷入局部最小值,这一直是限制其性能的瓶颈,迫使在捕捉时使用干净的绿幕背景、手动初始化或切换到多摄像头输入资源。在这项工作中,我们提出了一种基于学习的单摄像头动作捕捉模型。该模型不是直接优化网格和骨骼参数,而是优化神经网络权重,以预测给定单目RGB视频中的人体3D形状和骨骼配置。我们的模型在一个端到端框架中使用了合成数据的强监督和可微渲染的自我监督相结合的方法进行训练,具体包括:(a) 骨骼关键点,(b) 密集3D网格运动,以及 (c) 人物-背景分割。实验证明,我们的模型结合了有监督学习和测试时优化两者的优点:有监督学习在正确的参数范围内初始化模型,确保在测试时获得良好的姿态和表面初始化效果,而无需人工干预。通过反向传播进行自我监督的可微渲染允许(无监督)模型适应测试数据,并提供比预训练固定模型更紧密的拟合度。我们展示了所提出的模型随着经验积累而不断改进,并在先前优化方法失败的情况下收敛到低误差解。