
摘要
尽管近年来在从单目RGB图像中恢复人体姿态和形状方面取得了显著进展,但从视频中获得高精度和时间连贯性的人体三维运动仍然具有挑战性。现有的基于视频的方法倾向于从全局图像特征中重建人体运动,这些特征缺乏详细的表示能力,限制了重建的准确性。本文提出了一种时序感知精炼网络(Temporal-Aware Refining Network, TAR),以同步探索时序感知的全局和局部图像特征,实现精确的姿态和形状恢复。首先,引入了一个全局变换器编码器,用于从静态特征序列中获取时序全局特征。其次,一个双向ConvGRU网络以高分辨率特征图序列作为输入,输出保持高分辨率并捕捉人体局部运动的时序局部特征图。最后,通过利用全局和局部时序信息,递归精炼模块迭代更新估计的SMPL参数,从而实现准确且平滑的结果。大量实验表明,我们的TAR在流行的基准测试集上(如3DPW、MPI-INF-3DHP和Human3.6M)获得了比现有最先进方法更准确的结果。