
本論文は、単一の画像から3次元の人間の姿勢と形状を推定する問題に取り組んでいます。従来の手法では、人間の体のパラメトリックモデルであるSMPL(Skinned Multi-Person Linear model)を使用し、画像証拠と一致するメッシュを生成するためのモデルパラメータを回帰しようと試みています。しかし、このパラメータ回帰は非常に困難な課題であり、モデルベースのアプローチは非パラメトリックソリューションに比べて姿勢推定において劣る結果となっています。当研究では、モデルのパラメータ空間への強い依存を緩和することを提案します。SMPLテンプレートメッシュのトポロジーは維持しつつ、モデルパラメータを予測する代わりに、直接メッシュ頂点の3次元位置を回帰します。これは一般的なネットワークにとって重いタスクですが、我々が得た重要な洞察は、Graph-CNN(グラフ畳み込みニューラルネットワーク)を使用することで回帰が大幅に容易になることです。このアーキテクチャにより、ネットワーク内にテンプレートメッシュ構造を明示的にエンコードし、メッシュが提供する空間局所性を利用することができます。画像に基づく特徴量はメッシュ頂点に接続され、Graph-CNNがこれらの特徴量をメッシュ構造上で処理します。各頂点の回帰目標はその3次元位置です。完全な3次元幾何学形状を復元した後、特定のモデルパラメータ化が必要な場合でも、頂点位置から信頼性高く推定することができます。異なる種類の特徴量をメッシュ頂点に接続することで、提案するグラフベースのメッシュ回帰の柔軟性と効果性を示しています。すべての場合で、モデルパラメータ回帰に依存する同等の基準手法よりも優れた結果を得ており、またモデルベースの人間姿勢推定アプローチの中で最先端の成果も達成しています。