
多人3D姿态估计是一项具有挑战性的任务,因为存在遮挡和深度模糊问题,尤其是在人群场景中。为了解决这些问题,现有的大多数方法通过增强特征表示使用图神经网络或添加结构约束来建模身体上下文线索。然而,这些方法由于其单根节点公式化(single-root formulation)而不够稳健,即从预定义的图的根节点解码3D姿态。本論文では、GR-M3Dを提案します。これは、動的なグラフ推論(Dynamic Graph Reasoning: DGR)を使用して、多人3D姿勢推定(Multi-person 3D Pose Estimation)を行う手法です。GR-M3Dのデコーディンググラフは予め定義されるのではなく、予測されます。具体的には、まず複数のデータマップを生成し、スケールと深度に敏感なリファインメントモジュール(Scale and Depth Aware Refinement module: SDAR)でそれらを強化します。次に、これらのデータマップから各人物の複数のルートキーポイントと密集したデコーディングパスを推定します。これに基づいて、デコーディングパスにパスウェイトを割り当てることで動的なデコーディンググラフが構築され、パスウェイトは強化されたデータマップから推論されます。このプロセスは動的グラフ推論(Dynamic Graph Reasoning: DGR)と呼ばれます。最後に、検出された各人物に対して動的なデコーディンググラフに基づいて3D姿勢が解碼されます。GR-M3Dは、入力データに応じてソフトパスウェイトを使用してデコーディンググラフの構造を暗黙的に調整することができ、これによりデコーディンググラフが異なる入力人物に対して最適に適応し、以前の方法よりも遮蔽と深度の曖昧さに対処できるようになります。我々は実験的に示していますが、提案されたボトムアップアプローチはトップダウン方法を上回り、3つの3D姿勢データセットで最先端の結果を達成しています。