
要約
画像および動画における多人数の姿勢推定は、多くの応用を持つ重要な課題であり、依然として難易度が高いです。畳み込みニューラルネットワークの発展により、ヒューマンポーズ推定において大幅な改善が見られましたが、最先端のモデルでもすべての体節点を正確に局在化できない難しいケースが多数存在します。これにより、これらの難問に対処し、既存の方法に容易に適用できる追加の精緻化ステップが必要となることが示されます。本研究では、画像と与えられた姿勢推定値を入力とし、入出力空間について共同で推論を行うことで直接精緻化された姿勢を予測するポーズ精緻化ネットワーク(PoseRefiner)を提案します。ネットワークが誤った体節点予測を精緻化するためには、訓練時に「難しい」ヒューマンポーズケースをモデル化した新しいデータ拡張スキームを採用しています。我々はMPII単一および多人数ポーズ推定、PoseTrackポーズ推定、PoseTrackポーズ追跡などの4つの大規模な姿勢推定ベンチマークでアプローチを評価し、最先端技術に対して系統的な改善が得られることを報告します。