
要約
近年、深層畳み込みニューラルネットワークの導入により、ヒューマンポーズ推定は著しい進歩を遂げています。その多様な応用が、最近数年間で大きな関心を集めています。しかし、実際の多くの応用では、ヒューマンクラウドのポーズ推定が必要であり、これは依然としてあまり扱われていない問題です。本研究では、密集した群衆に伴う課題(遮蔽、互いに近接する人々、人々の部分的な可視性など)に焦点を当てて、ヒューマンクラウドのポーズ推定を最適化する方法を探ります。これらの課題に対処するために、ポーズ検出アプローチの3つの側面を評価します:i) 遮蔽に対する堅牢性を向上させるデータ拡張手法 ii) 遮蔽された身体部位の明示的な検出 iii) 合成生成データセットの利用。混雑した状況での精度向上のために最初に採用される手法は、COCO(Common Objects in Context)オブジェクト認識データセットから人物と物体の切り抜きを使用して訓練時に遮蔽を生成することです。さらに、実世界の群衆応用における利用可能性について評価するために、合成生成データセットJTA(Joint Track Auto)が使用されます。JTAが低ポーズ多様性と密度が低い群衆から発生する転送ギャップを克服するために、拡張データセットが作成され、実世界応用への利用を容易にする目的で使用されています。また、JTAに付属する遮蔽フラグを利用して、遮蔽された部位と可視部位を2つの異なるブランチで明確に区別するモデルを学習させます。提案されたベースライン手法への追加要素の組み合わせは全体的な精度を4.7% AP向上させることに寄与し、これにより該当データセット上で現行最先端アプローチと同等の結果を得ることが可能となりました。