
要約
我々は、多人数ポーズ推定という課題に対して、精度と効率の良いトレードオフを実現する、シンプルかつ信頼性の高いボトムアップアプローチを提案する。与えられた画像に対して、ホウガラスネットワーク(Hourglass Network)を用いて、異なる人物に属するすべてのキーポイントを区別せずに推定するとともに、同一人物に属する隣接するキーポイントを結ぶガイドオフセット(guiding offsets)も推定する。その後、予測されたガイドオフセットを活用して、貪欲法(greedy)により候補キーポイントを複数の人体ポーズにグループ化する(存在する場合)。このプロセスを「貪欲なオフセット誘導型キーポイントグループ化(Greedy Offset-guided Keypoint Grouping, GOG)」と呼ぶ。さらに、多人数キーポイント座標の符号化・復号化手法について再検討し、精度に影響を与えるいくつかの重要な事実を明らかにした。実験により、導入した各構成要素が顕著な性能向上をもたらすことが確認された。公平な条件下で、本手法は挑戦的なCOCOデータセットにおいて、最先端の手法と同等の性能を達成している。ソースコードおよび事前学習済みモデルは、オンライン上で公開されている。