
要約
多人の姿勢推定は、人間の行動理解において重要な技術です。本論文では、入力画像と入力姿勢の組から洗練された姿勢を推定する人間の姿勢洗練ネットワークを提案します。従来の方法では、主にエンドツーエンドで学習可能な多段階アーキテクチャを通じて姿勢の洗練が行われていました。しかし、これらの方法は姿勢推定モデルに大きく依存しており、慎重なモデル設計が必要でした。これに対して、我々はモデル非依存型の姿勢洗練手法を提案します。最近の研究によると、最先端の2D人間姿勢推定手法には類似した誤差分布があります。この誤差統計情報を事前情報として使用し、合成された姿勢を生成し、その合成された姿勢を使用してモデルを学習させます。テスト段階では、他の任意の手法による姿勢推定結果を提案手法に入力することができます。さらに、提案モデルは他の手法に関するコードや知識を必要としないため、後処理ステップで簡単に使用できます。我々は提案手法が従来の多段階洗練モデルよりも優れた性能を達成し、一般的に使用されるベンチマークにおいて様々な最先端の姿勢推定手法の一貫した性能向上を示しています。コードは以下のURLから入手可能です(https://github.com/mks0601/PoseFix_RELEASE)。