7日前
野生環境における全身人体ポーズ推定
Sheng Jin, Lumin Xu, Jin Xu, Can Wang, Wentao Liu, Chen Qian, Wanli Ouyang, Ping Luo

要約
本稿では、顔、手、体、足を含む人体全体にわたる密集したランドマークを局所化することを目的とする2次元人体全体ポーズ推定の課題に取り組む。既存のデータセットには人体全体のアノテーションが存在しないため、従来の手法は顔、手、体それぞれのデータセットで独立して学習された複数の深層モデルを組み合わせる必要があり、データセットバイアスやモデルの複雑さといった課題に直面していた。この空白を埋めるために、本研究ではCOCOデータセットに人体全体のアノテーションを追加したCOCO-WholeBodyを提案する。知られている限り、これは顔(68点)、手(42点)、体および足(23点)を含む合計133点の密集したランドマークについて手動でアノテーションが付与された、初めてのベンチマークである。同一人物の異なる身体部位におけるスケール変動に対処するため、人体全体の階層構造を考慮した単一ネットワークモデルであるZoomNetを設計した。実験結果から、提案するCOCO-WholeBodyデータセット上で、ZoomNetは既存手法を顕著に上回る性能を達成している。広範な実験により、COCO-WholeBodyは人体全体ポーズ推定のための深層モデルのスクラッチ学習に利用できるだけでなく、顔ランドマーク検出や手のキーポイント推定など、多様なタスクにおける強力な事前学習データセットとしても有効であることが示された。本データセットは、https://github.com/jin-s13/COCO-WholeBody にて公開されている。