
最近のコンピュータビジョンとロボティクスの応用により、3次元の人間姿勢の復元はますます重要となり、多くの関心を集めています。実際、単眼画像内の多様な外観、視点、遮蔽(occlusions)、および本質的な幾何学的曖昧性(geometric ambiguities)のために、このタスクを完了することは非常に困難です。既存の方法の多くは、対応する2次元の人間姿勢認識特徴量や2次元姿勢予測に基づいて3次元人間姿勢を直接回帰するための複雑な事前知識/制約(elaborate priors/constraints)に焦点を当てています。しかし、訓練用の3次元姿勢データが不足しており、2次元空間と3次元空間との間にドメインギャップがあるため、これらの方法はすべての実践的なシナリオ(例:屋外シーン)に対して限られた拡張性しか持たないという問題があります。この課題に対処するために、本論文では豊富な画像から人間姿勢のすべての内在構造を学習するための単純かつ効果的な自己監督型補正メカニズムを提案します。具体的には、提案されたメカニズムは2つの双方向学習タスク、「2D-to-3D 姿勢変換」と「3D-to-2D 姿勢射影」を含んでおり、「無料」(free)な自己監督の一形態として3次元と2次元の人間姿勢間の橋渡しを行います。2D-to-3D 姿勢変換は、系列依存的な時空間文脈のもとでポーズ表現を2次元領域から3次元領域へ変換することにより中間的な3次元姿勢を逐次的に回帰することを目指します。一方、「3D-to-2D 姿勢射影」は、3次元姿勢の2次元射影と推定された2次元姿勢との幾何学的一貫性を維持することで中間的な3次元姿勢を洗練化することに貢献します。さらに、我々は自己監督型補正メカニズムを使用して3次元人間姿勢マシンを開発しました。これは2次元空間関係、予測の一貫性(temporal smoothness)、および3次元幾何学的知識を統合します。広範な評価結果は、比較対象となる競合手法に対して当フレームワークが優れた性能と効率を持つことを示しています。