
摘要
本文探讨了从RGB图像中进行单目3D人体形状和姿态估计的问题。尽管在姿态预测精度方面取得了显著进展,但现有最先进方法往往预测出不准确的人体形状。我们认为,这主要是由于野外训练数据的稀缺性,这些数据缺乏多样性和精确的人体形状标签。因此,我们提出了STRAPS(用于真实准确姿态和形状的合成训练)系统,该系统利用代理表示(如轮廓和2D关节)作为输入,通过使用合成训练数据(在训练过程中实时生成,基于SMPL统计身体模型)来克服数据稀缺问题。为了弥合合成训练输入与测试时由关键点检测和分割CNN预测的噪声实际输入之间的差距,我们在训练过程中采用了数据增强和损坏技术。为了评估我们的方法,我们整理并提供了一个具有挑战性的单目人体形状估计评估数据集——Sports Shape and Pose 3D(SSP-3D)。该数据集包含穿着紧身衣物的运动员的RGB图像,涵盖多种人体形状,并通过多帧优化获得了相应的伪地面真值SMPL形状和姿态参数。实验结果表明,STRAPS在SSP-3D数据集上的形状预测精度优于其他最先进方法,同时在以姿态为中心的数据集和指标上仍保持与最先进方法的竞争水平。