3ヶ月前

身体化されたシーン認識型人体ポーズ推定

Zhengyi Luo, Shun Iwase, Ye Yuan, Kris Kitani
身体化されたシーン認識型人体ポーズ推定
要約

本研究では、シミュレートされたエージェントの本体知覚(proprioception)およびシーン認識能力に加え、外部の第三者視点観測に基づいて3次元人体ポーズを推定する「体現型シーン認識型人体ポーズ推定」を提案する。従来の手法が、人体ポーズおよび人間とシーンの相互作用を推定するために多段階最適化や非因果的推論、複雑な接触モデリングに依存するのに対し、本手法は単段階かつ因果的であり、シミュレーション環境内でグローバルな3次元人体ポーズを復元可能である。2次元の第三者視点観測はカメラポーズと密接に結びついているため、本研究ではカメラポーズを分離し、グローバル座標系において定義された多段階投影勾配を、体現型エージェントの移動指標として用いる。物理シミュレーションと事前にスキャンされたシーン(例:3次元メッシュ)を活用して、図書館、オフィス、寝室など日常的な環境でエージェントをシミュレートし、環境センサを搭載することで、シーンの幾何構造に対して知的にナビゲートおよび相互作用できるようにしている。本手法は2次元キーポイントのみを入力として用い、人間運動データベースから得られる合成データセット上で学習可能である。評価には代表的なH36MおよびPROXデータセットを用い、PROXの運動シーケンスを一切学習に使用せずに、困難なPROXデータセット上で高精度なポーズ推定を達成した。コードおよび動画はプロジェクトページにて公開されている。