2ヶ月前

単眼カメラを用いた野生環境下での3次元人間姿勢推定の改善:CNN監督の向上

Dushyant Mehta; Helge Rhodin; Dan Casas; Pascal Fua; Oleksandr Sotnychenko; Weipeng Xu; Christian Theobalt
単眼カメラを用いた野生環境下での3次元人間姿勢推定の改善:CNN監督の向上
要約

私たちは、単一のRGB画像から3次元人体姿勢を推定するCNN(畳み込みニューラルネットワーク)ベースの手法を提案します。この手法は、公開されている3次元姿勢データが極めて限定的であるため、そのデータのみで訓練されたモデルの一般化能力が限られているという問題に対処します。既存の3次元姿勢データと2次元姿勢データのみを使用し、学習された特徴量の転移を通じて確立されたベンチマークでの最先端の性能を示すとともに、野生環境下的シーンにも一般化できることが確認されました。さらに、実際の人間の単眼画像から3次元人体姿勢を推定する新しい訓練セットを導入します。このセットはマルチカメラ無マーカー動作捕捉システムによって地面真実(ground truth)が取得されており、既存のコーパスに比べて姿勢、人間の外見、衣装、遮蔽(occlusion)、視点における多様性がより豊富です。これにより拡張範囲が広がります。また、屋外と屋内シーンをカバーする新しいベンチマークも提供し、私たちの3次元姿勢データセットが既存のアノテーションデータよりも野生環境下的で優れた性能を示すことを実証しました。2次元姿勢データからの転移学習との組み合わせにより、さらなる性能向上が達成されています。総じて、表現の転移学習とアルゴリズムおよびデータへの貢献を組み合わせることが、一般的な3次元人体姿勢推定において重要であると主張します。