2ヶ月前
シーン認識を用いたエゴセントリック3Dヒューマンポーズ推定
Wang, Jian ; Liu, Lingjie ; Xu, Weipeng ; Sarkar, Kripasindhu ; Luvizon, Diogo ; Theobalt, Christian

要約
単一の頭部装着型魚眼カメラを用いたエゴセントリック3次元人間姿勢推定は、仮想現実と拡張現実における多数の応用により、最近注目を集めています。既存の手法は、人間の身体が大きく隠蔽されている場合やシーンと密接に相互作用しているような困難な姿勢において依然として苦戦しています。この問題に対処するため、我々はシーン制約を用いてエゴセントリック姿勢の予測をガイドするシーン認識型エゴセントリック姿勢推定手法を提案します。これにより、広視野角のエゴセントリック魚眼カメラからシーン深度マップを予測し、人間の身体の隠蔽を軽減する深度補完ネットワークを提案します。さらに、2次元画像特徴量と推定されたシーン深度マップをボクセル空間に射影し、V2Vネットワークを使用して3次元姿勢を回帰するシーン認識型姿勢推定ネットワークを提案します。ボクセルベースの特徴表現は2次元画像特徴量とシーン幾何学との直接的な幾何学的関連性を提供し、推定されたシーン幾何学に基づいて予測された姿勢を制約することを容易にします。上記ネットワークの訓練を可能にするために、合成データセットEgoGTAおよびEgoPWに基づく野生環境データセットEgoPW-Sceneも生成しました。新しい評価シーケンスでの実験結果は、予測された3次元エゴセントリック姿勢が人間とシーンとの相互作用に関して正確かつ物理的に妥当であることを示しており、定量的にも定性的にも最先端の手法を超える性能を持つことが確認されました。