
要約
私たちは、Non-Rigid Structure from Motion (NRSfM) から知識を抽出することで、3次元姿勢推定器の学習を提案します。当手法は2次元ランドマーク注釈のみを使用します。3次元データ、マルチビュー/時間的映像、またはオブジェクト固有の事前情報は必要ありません。これにより、教師あり方法における主要な懸念の一つであるデータボトルネックが緩和されます。NRSfM を教師として使用する際の課題は、2次元投影に強い曖昧性がある場合、しばしば深度再構成が不十分になることです。これらの誤った深度を直接ハードターゲットとして使用すると、生徒モデルに悪影響を与える可能性があります。そこで、私たちはNRSfMで使用されるコスト関数と深度予測を結びつける新しい損失関数を提案します。これにより、生徒モデルの姿勢推定器は画像特徴と関連付けながら深度誤差を減らす自由度が得られます。H3.6M データセットでの検証結果によると、私たちが学習した3次元姿勢推定ネットワークは NRSfM 方法よりも正確な再構成を達成しています。また、大幅に少ない教師情報しか使用していないにもかかわらず、他の弱教師あり方法よりも優れた性能を示しています。