17日前
LCR-Net:人体ポーズのためのローカライゼーション・クラス分類・回帰
{Gregory Rogez, Cordelia Schmid, Philippe Weinzaepfel}

要約
自然画像における2次元(2D)および3次元(3D)人体ポーズ推定を統合的に実現するエンドツーエンド型アーキテクチャを提案する。本手法の鍵となるのは、1枚の画像に対して多数のポーズ候補を生成・スコアリングすることであり、これにより複数人の2Dおよび3Dポーズを同時に推定することが可能となる。したがって、本手法では初期化にあたって人体の近似的な位置推定を必要としない。提案するアーキテクチャであるLCR-Netは、以下の3つの主要な構成要素からなる:1)画像内の異なる位置に潜在的なポーズを提案するポーズ候補生成器;2)異なるポーズ候補をスコアリングする分類器;3)2Dおよび3Dの両方でポーズ候補を精緻化する回帰器。これら3段階の処理は畳み込み特徴層を共有しており、一括して学習される。最終的なポーズ推定は、隣接するポーズ仮説を統合することで得られるが、これは従来の非最大抑制(non-maximum suppression)アルゴリズムよりも優れた性能を示すことが実証されている。本手法は、制御された環境下での3Dポーズ推定ベンチマークであるHuman3.6Mにおいて、従来の最先端技術を顕著に上回る結果を達成した。さらに、MPII 2Dポーズベンチマークの単人および多人数のサブセットにおいても、実画像に対する有望な結果を示している。