
要約
本論文は、単一のRGB画像から複数の3D人物を回帰する問題に焦点を当てています。既存の手法は、主に多段階パイプラインに従っており、まず人物をバウンディングボックスで検出し、その後独立してその3D身体メッシュを回帰します。これに対して、我々は「ROMP(Regress all meshes in a One-stage fashion for Multiple 3D People)」と呼ばれる手法を提案します。この手法は概念的に単純であり、バウンディングボックスを使用せず、エンドツーエンドで画素ごとの表現を学習することができます。我々の方法では、Body CenterヒートマップとMesh Parameterマップを同時に予測し、これらが画素レベルで3D身体メッシュを共同で説明することが可能です。身体中心ガイド付きサンプリングプロセスを通じて、画像内のすべての人物の身体メッシュパラメータは容易にMesh Parameterマップから抽出できます。このような細かい表現を持つことで、我々の一貫したフレームワークは複雑な多段階プロセスから解放され、遮蔽に対してもより堅牢になります。最新の手法と比較して、ROMPは困難な多人物ベンチマークである3DPWやCMU Panopticにおいて優れた性能を達成しています。混雑した/遮蔽されたデータセットでの実験結果は、さまざまな種類の遮蔽下でも堅牢性が確認されています。公開されたコードは、単眼多人物3Dメッシュ回帰の最初のリアルタイム実装となっています。