Command Palette
Search for a command to run...
単眼画像からの多人数3D人体ポーズ推定
単眼画像からの多人数3D人体ポーズ推定
Rishabh Dabral Nitesh B Gundavarapu Rahul Mitra Abhishek Sharma Ganesh Ramakrishnan Arjun Jain
概要
単一画像からの多人数3次元人体ポーズ推定は、特に屋外環境(in-the-wild)において3次元ラベル付きデータの不足により、困難な課題である。本研究では、マスクRCNNをベースとしつつ、ホアーガラス(Hourglass)アーキテクチャの利点を活かしたHG-RCNNを提案する。本手法は2段階アプローチを採用しており、まず各領域(Region of Interest: RoI)において2次元キーポイントを推定し、その後、推定されたキーポイントを3次元空間に再構築する。最後に、弱透視投影(weak-perspective projection)の仮定に基づき、焦点距離と根部の並進量を共同最適化することで、推定された3次元ポーズをカメラ座標系に配置する。この結果、複数人の3次元人体ポーズデータセットを一切必要としない、シンプルかつモジュール性の高いネットワークを実現した。単純な構成にもかかわらず、MuPoTS-3Dデータセットにおいて最先端の性能を達成するとともに、カメラ座標系における3次元ポーズの推定も正確に実現している。