
要約
本論文は、単一画像からの3次元人間姿勢推定の問題を取り扱っています。長らく、人間の骨格は再投影誤差を満たすことでパラメータ化され、観測データに適合されてきましたが、最近では研究者らが直接ニューラルネットワークを使用して観測から3次元姿勢を推論する手法が主流となっています。しかし、これらのアプローチの多くは再投影制約を満たす必要があるという事実を見落としており、過学習に対して敏感であるという問題があります。我々は2次元と3次元の対応関係を無視することで過学習の問題に対処します。これにより訓練データの単純な記憶を効果的に避けることができ、弱教師あり学習が可能になります。提案される再投影ネットワーク(RepNet)の一部は、敵対的訓練アプローチを使用して2次元姿勢分布から3次元姿勢分布へのマッピングを学習します。ネットワークの別の部分ではカメラ位置を推定します。これにより、推定された3次元姿勢を2次元に再投影するネットワーク層を定義でき、再投影損失関数が得られます。我々の実験結果は、RepNetが未知のデータに対して良好に汎化し、未知のデータに対する既存の最先端手法よりも優れた性能を示していることを示しています。さらに、我々の実装は標準的なデスクトップPC上でリアルタイムで動作します。