
要約
単眼RGB画像からの3次元ヒューマンポーズ推定は、近年大きな注目を集めています。しかし、最近のモデルは、3次元ポーズの真値データや対象ドメインの既知のポーズ事前知識に依存した教師あり学習を必要としています。3次元ポーズデータは通常、モーションキャプチャ装置を使用して収集されるため、その適用範囲が大幅に制限されます。本論文では、真値の3次元ポーズデータがない場合でも3次元ヒューマンポーズを推定するためのヒューリスティックな弱教師あり3次元ヒューマンポーズ(HW-HuP)ソリューションを提案します。HW-HuPは、3次元ヒューマンポーズデータセットから部分的なポーズ事前知識を学習し、対象ドメインからの容易にアクセス可能な観測値を使用して、最適化と回帰のサイクルで3次元ヒューマンポーズと形状を推定します。訓練時には深度データを使用して弱教師あり学習を行いますが、推論時には使用しません。我々は、3次元ポーズデータがほとんど得られない2つの実用的な設定(ベッド上のヒューマンポーズと野生環境での乳児のポーズ)において、HW-HuPが最先端モデルよりも有意に性能を向上させることを示しています。さらに、このようなモデルが3次元ポーズデータで訓練されている即使っても、HW-HuPは公開ベンチマーク上で最先端モデルと同等の性能を維持することを示しています。