2ヶ月前

弱教師付きジェネレーティブネットワークによる複数の3次元ヒューマンポーズ仮説

Chen Li; Gim Hee Lee
弱教師付きジェネレーティブネットワークによる複数の3次元ヒューマンポーズ仮説
要約

単一画像からの3次元人間姿勢推定は、欠落する深度の固有の曖昧さにより逆問題となります。これまでのいくつかの研究では、この逆問題を解決するために複数の仮説を生成していました。しかし、これらの手法は強教師ありであり、2次元から3次元への対応関係の真値が必要となりますが、これが得るのが難しいことがあります。本論文では、逆問題を解決し、真値の2次元から3次元への対応関係を必要としない弱教師あり深層生成ネットワークを提案します。これにより、ネットワークは提案分布をモデル化し、未知の多峰性目標事後分布を近似するために使用されます。近似は提案分布と目標分布間のKLダイバージェンスを最小化することで達成され、これは2次元再投影誤差と事前損失項に帰着され、これらは弱教師ありで監督することができます。さらに、平均シフトアルゴリズムを使用してサンプルの条件付きモードを求めることで最尤解を決定します。我々はHuman3.6M, MPII, MPI-INF-3DHPという3つのベンチマークデータセット上で方法を評価しました。実験結果は、我々のアプローチが複数の妥当な仮説を生成できることを示しており、既存の弱教師ありアプローチと比較して最先端の結果を得ています。ソースコードはプロジェクトウェブサイトで公開されています。注:「KLダイバージェンス」(Kullback-Leibler divergence)、「2次元再投影誤差」(2D reprojection error)、「事前損失項」(prior loss term)、「平均シフトアルゴリズム」(mean-shift algorithm)などの専門用語については一般的な日本語訳を使用しています。