
要約
複数人の3次元姿勢推定を、少数のキャリブレーション済みカメラビューから行う手法を提案する。本手法のアーキテクチャは、最近提案されたアンプロジェクション層(unprojection layer)を活用し、2次元姿勢推定のバックボーンから得られる特徴マップを統合して、3次元シーンの包括的な表現を構築する。この中間表現は、完全畳み込み型ボリュームネットワークおよびデコードステージによってさらに精緻化され、ボクセル単位以下の精度で3次元スケルトンを抽出する。本手法は、CMU Panopticデータセットにおいて少数の未観測ビューを用いて最先端のMPJPE(Mean Per Joint Position Error)を達成し、さらには単一の入力ビューでも競争力ある結果を獲得している。また、公開されているShelfデータセットを用いてモデルの転移学習能力を評価したところ、良好な性能指標が得られた。提案手法は本質的に効率的である:純粋なボトムアップアプローチであるため、シーン内の人物数に依存せずに計算負荷が一定である。さらに、2次元部分の計算負荷は入力ビュー数に線形に増加するものの、全体のアーキテクチャはボリュームネットワークと比べて数オーダー高速な非常に軽量な2次元バックボーンを採用でき、結果として高速な推論が可能となる。本システムは1枚の1080Ti GPU上で最大10台のカメラビューを処理しながら6 FPSで動作可能である。