3ヶ月前
PoseNet3D:知識蒸留を用いた時間的に一貫した3D人体ポーズ学習
Shashank Tripathi, Siddhant Ranade, Ambrish Tyagi, Amit Agrawal

要約
2次元関節から3次元人体ポーズを復元することは、非常に制約のない問題である。本研究では、2次元関節を入力として、3次元スケルトンおよびSMPLボディモデルパラメータを出力する新たなニューラルネットワークフレームワーク、PoseNet3Dを提案する。学習アプローチを学生-教師フレームワークに定式化することで、訓練中にペアド/非ペアドの3次元データ、モーションキャプチャシーケンス、深度画像、マルチビュー画像といった3次元データを一切使用せずに済む。まず、2次元ポーズのみを用いて3次元スケルトンを出力する教師ネットワークを訓練する。その後、この教師ネットワークが学習した知識を、SMPL表現による3次元ポーズを予測する学生ネットワークに抽出・伝達する。最後に、時間的整合性、自己整合性、敵対的損失を用いて、教師ネットワークと学生ネットワークをエンドツーエンドで共同微調整することで、各ネットワークの精度を向上させる。Human3.6Mデータセットにおける3次元人体ポーズ推定の実験結果から、従来の非教師あり手法と比較して、3次元関節予測誤差を18%低減できることを示した。また、屋外データセットにおける定性的評価では、復元された3次元ポーズおよびメッシュが自然で現実的であり、連続フレーム間で滑らかに変化していることが確認された。