3ヶ月前

高パフォーマンスな人間キーポイント検出へ向けて

Jing Zhang, Zhe Chen, Dacheng Tao
高パフォーマンスな人間キーポイント検出へ向けて
要約

単一画像からの人間キーポイント検出は、隠蔽、ぼけ、照明の変動、スケールのばらつきといった要因により、非常に困難な課題である。本論文では、効率的なネットワーク構造の設計、有効な学習戦略の提案、有用な後処理技術の活用の3つの観点からこの問題に取り組む。まず、コンテキスト情報が人体の構造推論および見えないキーポイントの推定において重要な役割を果たすことを発見した。これを受けて、空間的およびチャネル的コンテキスト情報を効率的に統合し、段階的に精緻化する「カスケード型コンテキストミキサー(CCM)」を提案する。次に、CCMの表現能力を最大限に引き出すために、豊富なラベルなしデータを活用したハードネガティブ人間検出マイニング戦略とジョイントトレーニング戦略を構築した。これにより、CCMは多様なポーズから判別性の高い特徴を学習可能となる。さらに、キーポイント予測の精度を向上させるために、複数のサブピクセル精細化技術を後処理として導入する。MS COCOキーポイント検出ベンチマークにおける広範な実験により、提案手法が代表的な最先端(SOTA)手法を上回る優位性を示した。単一モデルでも、2018年COCOキーポイント検出チャレンジの優勝モデルと同等の性能を達成した。最終的なアンサンブルモデルは、このベンチマークにおいて新たなSOTAを樹立した。