
要約
本論文では、静止画から人間の姿勢を推定するためのエンドツーエンドで学習可能な回帰アプローチを提案します。提案されたソフト・アルグマックス関数(Soft-argmax)を使用して、特徴マップを直接関節座標に変換し、完全に微分可能なフレームワークを構築しました。当手法は、人工的な真値生成の追加ステップなしでヒートマップ表現を間接的に学習することが可能です。その結果、コンテキスト情報が姿勢予測にシームレスに組み込むことができます。我々は、非常に挑戦的な2つのデータセットであるリーズ・スポーツ・ポーズ(Leeds Sports Poses: LSP)とMPII人間姿勢データセットにおいて当手法を評価し、既存のすべての回帰手法の中で最良の性能を達成し、最先端の検出ベースアプローチと同等の結果を得ました。