17日前

コンテキスト付きインスタンスデカップリングを用いたロバストな多人数ポーズ推定

{Shiliang Zhang, Dongkai Wang}
コンテキスト付きインスタンスデカップリングを用いたロバストな多人数ポーズ推定
要約

混雑したシーンでは、人物の識別やポーズキーポイントの位置特定が困難となる。本論文では、複数人物のポーズ推定に向けた新しいパイプラインとして、コンテキストインスタンスデカップリング(Contextual Instance Decoupling, CID)を提案する。従来の人物バウンディングボックスに依存して人物を空間的に区別する手法とは異なり、CIDは画像内の人物を複数のインスタンスに敏感な特徴マップに分離する。各特徴マップは、特定の人物に対するキーポイント推定に用いられる。バウンディングボックス検出に比べ、CIDは微分可能であり、検出エラーに対してより頑健である。人物を異なる特徴マップにデカップリングすることで、他の人物による干渉を効果的に排除し、バウンディングボックスのサイズを超えたスケールでのコンテキスト情報の探索が可能となる。実験の結果、CIDは混雑したシーンにおけるポーズ推定ベンチマークにおいて、精度と効率の両面で既存のパイプラインを上回ることが示された。例えば、CrowdPoseデータセットにおいて71.3%のAPを達成し、最近の単段階型手法DEKRよりも5.6%、下位優先型のCenterAttentionよりも3.7%、上位優先型のJC-SPPEよりも5.3%優れた性能を発揮した。この優位性は、広く用いられるCOCOベンチマークにおいても維持されている。