2 个月前
捕捉每个关节的运动:基于独立标记的3D人体姿态和形状估计
Yang, Sen ; Heng, Wen ; Liu, Gang ; Luo, Guozhong ; Yang, Wankou ; Yu, Gang

摘要
本文提出了一种从单目视频中估计三维人体姿态和形状的新方法。该任务需要直接从单目图像或视频中恢复像素对齐的三维人体姿态和体型,由于其固有的模糊性,这一任务极具挑战性。为了提高精度,现有的方法高度依赖于初始化的平均姿态和形状作为先验估计,并通过迭代误差反馈的方式进行参数回归。此外,基于视频的方法通过对图像级特征的整体变化建模来在时间上增强单帧特征,但未能捕捉关节级别的旋转运动,也无法保证局部的时间一致性。为了解决这些问题,我们提出了一种基于Transformer且具有独立标记设计的新模型。首先,我们引入了三种与图像特征无关的标记:\textit{关节旋转标记、形状标记和相机标记}。通过与图像特征在Transformer层中的逐步交互,这些标记能够从大规模数据中学习到人类三维关节旋转、身体形状和位置信息的先验知识,并根据给定的图像更新以估计SMPL参数。其次,得益于所提出的基于标记的表示方法,我们进一步使用了一个时间模型来专注于捕捉每个关节的旋转时间信息,这在实验上有助于防止局部部位出现较大的抖动。尽管概念上较为简单,但所提出的方法在3DPW和Human3.6M数据集上取得了优异的表现。使用ResNet-50和Transformer架构时,在具有挑战性的3DPW数据集上的PA-MPJPE指标达到了42.0毫米的误差,大幅优于当前最先进的方法。代码将在以下地址公开发布:https://github.com/yangsenius/INT_HMR_Model