非監督3次元人間ポーズ推定のための運動学構造保存表現

単眼画像からの3次元人間姿勢推定は、人間中心のアプリケーションにおける重要なステップとして注目を集めています。しかし、大規模なスタジオ内データセットを使用して監督下で開発された人間姿勢推定モデルの汎化性能には疑問が残っています。これらのモデルは、未知の野外環境でのパフォーマンスがしばしば不十分であるためです。弱教師ありモデルがこの欠点を解決するために提案されていますが、その性能は2次元姿勢や多視点画像ペアなどの関連タスクに対するペア教師ありデータの可用性に依存しています。対照的に、私たちは新たな運動学構造保存型非教師あり3次元姿勢推定フレームワークを提案します。このフレームワークは、任意のペアまたは非ペア弱教師ありデータに制約されません。私たちの姿勢推定フレームワークは、固定された正規スケールにおける骨長比を含む骨格関節接続情報などの基本的な事前知識に依存します。提案されたモデルでは、前方運動学(forward-kinematics)、カメラ射影(camera-projection)、空間マップ変換(spatial-map transformation)という3つの連続的な微分可能な変換を用います。この設計は、効果的な姿勢分解を刺激する適切なボトルネックとして機能するとともに、明示的な潜在埋め込みから姿勢へのマッパーを訓練することなく解釈可能な潜在姿勢表現を生成します。さらに、不安定な敵対的設定を排除することで、デコーダーを再利用してエネルギーベースの損失関数を形式化しています。これにより、実験室環境を超えて野外ビデオから学習することが可能になります。包括的な実験結果は、Human3.6MおよびMPI-INF-3DHPデータセットにおいて当社の最先端の非教師ありおよび弱教師あり姿勢推定性能を示しています。未知の環境における質的評価結果もまた、当社モデルの優れた汎化能力を確立しています。