6 个月前

摘要

图卷积网络（Graph Convolution Network, GCN）在视频中3D人体姿态估计任务中已取得成功应用。然而，传统GCN通常基于固定的人体关节关联结构（即基于人体骨骼的拓扑关系），这种固定结构限制了网络对视频中复杂时空姿态变化的适应能力。为缓解这一问题，本文提出一种新型动态图网络（Dynamical Graph Network, DG-Net），能够动态识别人体关节间的关联关系，并通过自适应学习视频中的时空关节关系来实现3D姿态估计。与传统图卷积不同，我们引入了动态空间/时间图卷积（Dynamical Spatial/Temporal Graph Convolution, DSG/DTG），根据视频中各关节之间的空间距离或时间运动相似性，为每个视频样本动态构建空间与时间维度上的关节关联图。由此，网络可有效识别在空间上更接近或运动模式一致的关节，从而在将2D姿态提升至3D姿态的过程中，有效缓解深度模糊性与运动不确定性问题。我们在三个主流基准数据集（Human3.6M、HumanEva-I 和 MPI-INF-3DHP）上进行了大量实验，结果表明，DG-Net在仅使用较少输入帧和更小模型规模的情况下，性能优于多项近期先进方法（SOTA），验证了其高效性与优越性。

源 PDF