2 个月前

从单张彩色图像中学习估计三维人体姿态和形状

Georgios Pavlakos; Luyang Zhu; Xiaowei Zhou; Kostas Daniilidis
从单张彩色图像中学习估计三维人体姿态和形状
摘要

这项研究解决了从单张彩色图像估计人体全身3D姿态和形状的问题。在这一任务中,基于迭代优化的方法通常占据主导地位,而卷积神经网络(ConvNets)则因缺乏训练数据和低分辨率的3D预测而表现不佳。我们的工作旨在弥合这一差距,并提出了一种高效且直接的基于卷积神经网络的预测方法。我们方法的核心在于在端到端框架中融入了一个参数化的统计身体形状模型(SMPL)。这使得我们可以获得非常详细的3D网格结果,同时只需要估计少量参数,从而有利于直接的网络预测。有趣的是,我们证明了这些参数仅通过2D关键点和掩码即可可靠地预测。这些通常是通用2D人体分析卷积神经网络的典型输出,因此可以减轻对大量具有3D形状真实标签的图像用于训练的需求。与此同时,通过保持可微性,在训练过程中我们根据估计的参数生成3D网格,并使用每个顶点的3D损失显式地优化表面。最后,采用一个可微渲染器将3D网格投影到图像上,这进一步通过优化投影与2D注释(即2D关键点或掩码)的一致性来改进网络。所提出的这种方法在这项任务上超越了以往的基线方法,并为从单张彩色图像直接预测3D形状提供了一个有吸引力的解决方案。