多人物姿勢推定のためのカスケードピラミッドネットワーク

多人姿勢推定の分野は最近大きく進歩しました。特に畳み込みニューラルネットワーク(Convolutional Neural Network)の発展により、多くの改善が見られました。しかし、まだ多くの課題が存在しています。例えば、被覆されたキーポイント、見えないキーポイント、複雑な背景などは十分に解決されていません。本論文では、これらの「難しい」キーポイントの問題を緩和することを目指した新しいネットワーク構造であるカスケードピラミッドネットワーク(Cascaded Pyramid Network: CPN)を提案します。具体的には、当アルゴリズムは2つの段階から構成されています:GlobalNetとRefineNetです。GlobalNetは特徴ピラミッドネットワークであり、「簡単」なキーポイント(目や手など)の位置を成功裏に特定できますが、被覆されたまたは見えないキーポイントを正確に認識することは困難です。一方、RefineNetはGlobalNetからのすべてのレベルの特徴表現を統合し、オンラインハードキーポイントマイニング損失を使用することで、「難しい」キーポイントを明示的に処理しようと試みます。一般的に、多人姿勢推定の問題に対処するためにトップダウンパイプラインが採用されます。まず検出器に基づいて人間のバウンディングボックスのセットを生成し、その後各バウンディングボックス内のキーポイント位置推定のために当CPNを使用します。提案されたアルゴリズムに基づき、COCOキーポイントベンチマークにおいて最先端の結果を達成しました。COCO test-devデータセットでの平均精度は73.0で、COCO test-challengeデータセットでは72.1となりました。これはCOCO 2016キーポイントチャレンジにおける60.5と比較して相対的に19%向上しています。コード (https://github.com/chenyilun95/tf-cpn.git) および検出結果は公開されており、さらなる研究のために利用可能です。