4ヶ月前

多スケール構造認識ネットワークを用いた人間の姿勢推定

Lipeng Ke; Ming-Ching Chang; Honggang Qi; Siwei Lyu
多スケール構造認識ネットワークを用いた人間の姿勢推定
要約

我々は、人間の姿勢推定のために堅牢な多スケール構造認識型ニューラルネットワークを開発しました。この手法は、最近の深層学習に基づくコンボリューション-デコンボリューションアワーグラスモデルを以下の4つの重要な改良により向上させています。(1) 多スケール監督を導入し、異なるスケールの特徴マップを組み合わせることで、身体キーポイントの対応付けにおける文脈的な特徴学習を強化します。(2) 最終段階に多スケール回帰ネットワークを設け、全体的に多スケール特徴の構造的対応付けを最適化します。(3) 中間監督と回帰において使用される構造認識型損失関数により、キーポイントとその近傍点の対応付けが改善され、より高次の対応付け構成が推論されます。(4) キーポイントマスキング訓練スキームを採用し、隣接するマッチングを通じて隠蔽されたキーポイントの位置特定能力を効果的に微調整します。本手法は、スケール変動、隠蔽(occlusions)、複雑な多人数シナリオなどの課題に直面している最先端の姿勢推定手法に対して有効に機能し、それらの問題点を克服することができます。多スケール監督は回帰ネットワークと緊密に統合されており、(i) 多スケール特徴のアンサンブルを使用してキーポイントを位置特定し、(ii) 複数のキーポイントとスケール間での構造的一貫性を最大化することにより全体的な姿勢構成を推論します。キーポイントマスキング訓練はこれらの利点を強化し、難易度の高い隠蔽サンプルに対する学習に焦点を当てます。本手法はMPIIチャレンジリーダーボードにおいて最先端的手法の中で最高位に立ちました。