
要約
単一画像からの3次元姿勢推定は、深度の曖昧さのために困難な問題となっています。従来の手法の一つは、外部の2次元姿勢検出器を使用して得られた2次元関節を3次元空間に昇華させる方法です。しかし、この種のアプローチは3次元姿勢推定にとって重要な手がかりとなる画像のコンテキスト情報を無視しています。一方で、他の手法は単眼画像から直接関節を予測しますが、2.5次元出力表現 (P^{2.5D} = (u,v,z^{r})) を採用しており、ここで (u) と (v) は画像空間に属し、(z^{r}) は根関節相対3次元空間に属します。したがって、実際の深度情報(例:カメラからの根関節の深度)を通常利用して2.5次元出力を3次元空間に変換する必要があり、これは実用性を制限しています。本研究では、コンテキスト情報を活用しつつ、3次元空間での直接的な出力を生成する新しいエンドツーエンドフレームワークを提案します。具体的には、2次元画像空間から3次元空間への姿勢昇華タスクを複数の連続的なサブタスクに分解します。1) 2次元空間における運動学的骨格と個々の関節の推定、2) 根関節相対深度の推定、そして3) 3次元空間への昇華です。これらの各サブタスクでは、直接的な教師あり学習とコンテキスト画像特徴を利用することで学習過程をガイドします。広範な実験結果により、提案されたフレームワークが二つの広く使用されている3次元ヒューマンポーズデータセット(Human3.6M, MuPoTS-3D)において最先端の性能を達成していることが示されました。