8 个月前

摘要

多人3D姿态估计是一项具有挑战性的任务，因为存在遮挡和深度模糊问题，尤其是在人群场景中。为了解决这些问题，现有的大多数方法通过增强特征表示（例如使用图神经网络）或添加结构约束来建模身体上下文线索。然而，这些方法由于其单根节点公式化而不够鲁棒，即从预定义的图中的根节点解码3D姿态。在本文中，我们提出了一种名为GR-M3D的方法，该方法通过动态图推理（Dynamic Graph Reasoning, DGR）来建模多人3D姿态估计。在GR-M3D中，解码图是预测生成的而不是预先定义的。具体而言，首先生成多个数据图，并通过尺度和深度感知精炼模块（Scale and Depth Aware Refinement, SDAR）对其进行增强。然后从这些数据图中估计出每个人的多个根关键点和密集解码路径。基于此，通过分配路径权重给解码路径来构建动态解码图，而路径权重则是从那些增强的数据图中推断出来的。这一过程被称为动态图推理（DGR）。最后，根据每个检测到的人的动态解码图解码出3D姿态。GR-M3D能够根据输入数据隐式地调整解码图的结构，通过采用软路径权重使解码图对不同输入个体具有最佳适应性，并且比先前的方法更能处理遮挡和深度模糊问题。实验结果表明，所提出的自底向上方法甚至优于自顶向下的方法，并在三个3D姿态数据集上取得了最先进的结果。

源 PDF