7日前

マルチインスタンスポーズネットワーク:トップダウン型ポーズ推定の再考

Rawal Khirodkar, Visesh Chari, Amit Agrawal, Ambrish Tyagi
マルチインスタンスポーズネットワーク:トップダウン型ポーズ推定の再考
要約

トップダウン型の人体ポーズ推定手法における重要な前提は、入力となるバウンディングボックス内に1人の人物(インスタンス)のみが存在することを想定している点である。この仮定は、被覆(オクルージョン)が頻発する混雑したシーンではしばしば失敗を招く。本研究では、この根本的な仮定の制約を克服するための新しいアプローチを提案する。我々が提案する「マルチインスタンスポーズネットワーク(MIPNet)」は、指定されたバウンディングボックス内に複数の2次元ポーズインスタンスを同時に予測することが可能である。さらに、各インスタンスに対してチャネルごとの特徴応答を適応的に調整する「マルチインスタンスモジュレーションブロック(MIMB)」を導入し、パラメータ効率性を確保した。本手法の有効性は、COCO、CrowdPose、OCHumanの各データセットにおける評価を通じて実証された。特に、CrowdPoseデータセットにおいて70.0 AP、OCHumanテストセットにおいて42.5 APを達成し、それぞれ従来手法に対して2.4 AP、6.5 APの顕著な向上を実現した。また、推論時に真値のバウンディングボックスを用いた場合、HRNetと比較してCOCOで0.7 AP、CrowdPoseで0.9 AP、OCHumanの検証セットで9.1 APの向上を達成した。興味深いことに、信頼度の高い少数のバウンディングボックスを用いた場合、HRNetはOCHumanデータセットにおいて5 APの性能低下を示したのに対し、MIPNetは同様の入力に対してわずか1 APの低下にとどまり、相対的に安定した性能を維持した。

マルチインスタンスポーズネットワーク:トップダウン型ポーズ推定の再考 | 最新論文 | HyperAI超神経