13 天前
基于动态人体关节亲和力的视频三维姿态估计
Junhao Zhang, Yali Wang, Zhipeng Zhou, Tianyu Luan, Zhe Wang, Yu Qiao

摘要
图卷积网络(Graph Convolution Network, GCN)在视频中3D人体姿态估计任务中已取得成功应用。然而,传统GCN通常基于固定的人体关节关联结构(即基于人体骨骼的拓扑关系),这种固定结构限制了网络对视频中复杂时空姿态变化的适应能力。为缓解这一问题,本文提出一种新型动态图网络(Dynamical Graph Network, DG-Net),能够动态识别人体关节间的关联关系,并通过自适应学习视频中的时空关节关系来实现3D姿态估计。与传统图卷积不同,我们引入了动态空间/时间图卷积(Dynamical Spatial/Temporal Graph Convolution, DSG/DTG),根据视频中各关节之间的空间距离或时间运动相似性,为每个视频样本动态构建空间与时间维度上的关节关联图。由此,网络可有效识别在空间上更接近或运动模式一致的关节,从而在将2D姿态提升至3D姿态的过程中,有效缓解深度模糊性与运动不确定性问题。我们在三个主流基准数据集(Human3.6M、HumanEva-I 和 MPI-INF-3DHP)上进行了大量实验,结果表明,DG-Net在仅使用较少输入帧和更小模型规模的情况下,性能优于多项近期先进方法(SOTA),验证了其高效性与优越性。