3ヶ月前

マルチビュー・マッチング(MVM):アクション固定型人物映像を用いたマルチペルソナ3Dポーズ推定学習の促進

Yeji Shen, C.-C. Jay Kuo
マルチビュー・マッチング(MVM):アクション固定型人物映像を用いたマルチペルソナ3Dポーズ推定学習の促進
要約

単一画像からの多人数3次元ポーズ推定という困難な課題に取り組むために、本研究ではマルチビュー・マッチング(MVM)手法を提案する。MVM手法は、マネキンを模した動作停止状態の人物を含む大規模な動画データセット「Mannequinデータセット」から、信頼性の高い3次元人体ポーズを生成する。MVMによって自動的に生成された3次元ラベルを備えた大量のリアルワールド動画データを活用することで、単一画像を入力として受け取り、多人数3次元ポーズ推定を行うニューラルネットワークの学習が可能となる。MVMの核となる技術は、幾何学的制約が強い静止シーンの複数視点から得られた2次元ポーズを効果的に整合化することにある。本手法の目的は、複数フレームで推定された2次元ポーズの相互一貫性を最大化することであり、幾何学的制約と外観の類似性の両方を同時に考慮する。MVM手法が提供する3次元ラベルの有効性を検証するために、3DPWおよびMSCOCOデータセット上で実験を実施した結果、提案手法が最先端の性能を達成することを示した。