2ヶ月前

HDNet: 複数人物のカメラ空間定位における人間深度推定

Lin, Jiahao ; Lee, Gim Hee
HDNet: 複数人物のカメラ空間定位における人間深度推定
要約

現在の多人数3D姿勢推定に関する研究は主に、根関節に対する3D関節位置の推定に焦点を当てており、各姿勢の絶対位置には注目が向けられていない。本論文では、カメラ座標空間における絶対的な根関節位置の局所化を目的としたエンドツーエンドフレームワークであるヒューマン深度推定ネットワーク(Human Depth Estimation Network: HDNet)を提案する。我々のHDNetはまず、関節のヒートマップを使用して2Dヒューマン姿勢を推定する。これらの推定されたヒートマップは、ターゲット人物に対応する画像領域から特徴量をプーリングするために注意マスクとして機能する。骨格ベースのグラフニューラルネットワーク(Graph Neural Network: GNN)が利用され、関節間での特徴量伝播を行う。目標深度回帰をビンインデックス推定問題として定式化し、分類出力からソフトアーグマックス操作によって変換できるようにしている。我々はHuman3.6MとMuPoTS-3Dという2つのベンチマークデータセットを使用して、根関節局所化および根相対3D姿勢推定タスクでHDNetを評価した。実験結果は、複数の評価指標において一貫して従来の最先端手法を超えることを示している。我々のソースコードは以下のURLで公開されている:https://github.com/jiahaoLjh/HumanDepth.