2 个月前
基于自注意力机制的视频中3D人体姿态与形状估计
Chen, Yun-Chun ; Piccirilli, Marco ; Piramuthu, Robinson ; Yang, Ming-Hsuan

摘要
我们研究了从视频中估计三维人体姿态和形状的任务。尽管现有的基于帧的方法已经取得了显著进展,但这些方法通常独立应用于每一幅图像,因此经常导致预测结果不一致。在本工作中,我们提出了一种基于视频的学习算法,用于三维人体姿态和形状的估计。我们的方法的关键见解有两点。首先,为了解决时间预测不一致的问题,我们利用了视频中的时间信息,并提出了一种自注意力模块(self-attention module),该模块同时考虑了帧间的短程和长程依赖关系,从而实现了时间上连贯的估计结果。其次,我们通过一个预测模块(forecasting module)对人类运动进行建模,使得相邻帧之间的过渡更加平滑。我们在3DPW、MPI-INF-3DHP和Human3.6M数据集上评估了我们的方法。大量的实验结果表明,我们的算法在性能上优于现有最先进的方法。