
要約
本論文では、単一の静止画から人間の姿勢を推定する問題を取り扱います。我々は、各画像位置が畳み込みニューラルネットワークを使用して各キーポイントの位置に投票する新しい手法を提案します。この投票方式により、疎なキーポイント位置に依存することなく、画像全体の情報を活用することができます。密な多目標投票を使用することで、良好なキーポイント予測だけでなく、コンセンサス投票を基にして画像依存の結合キーポイント確率を計算することも可能になります。これは、従来の多くの手法が相対的なキーポイント位置から結合確率を学習し、画像に独立している点と異なります。最後に、キーポイントの投票と結合確率を組み合わせて最適な姿勢構成を特定します。MPII Human Pose および Leeds Sports Pose データセットでの競争力のある性能を示しています。