2ヶ月前

PoSeg: ポーズ認識型精緻化ネットワークによるヒューマンインスタンスセグメンテーション

{Qian He, Desen Zhou}

要約

人間インスタンスセグメンテーションは、人間中心のシーン理解における核心的な課題であり、外見や形状におけるクラス内変動が大きく、また被覆パターンが複雑であるため、視覚システムにとって特有の挑戦をもたらす。本論文では、新たなポーズ認識型人間インスタンスセグメンテーション手法を提案する。従来のポーズ認識手法は、まず下向き（bottom-up）にポーズを予測し、その後その予測結果を基にインスタンスセグメンテーションを推定するのに対し、本手法は上向き（top-down）と下向きの両方の手がかりを統合する。具体的には、検出結果を人間候補領域として用い、各候補領域に対して人間のポーズとインスタンスセグメンテーションを同時に推定する。さらに、反復的にインスタンスセグメンテーションを精緻化するためのモジュール型再帰的深層ネットワークを構築した。本手法の精緻化モジュールは、ポーズ情報の二つのレベルでの利用を実現している：粗い形状事前知識としての利用と、局所的な部位に注目する注目機構（local part attention）としての利用。提案手法は、複数人を含む公開ベンチマークであるOCHumanデータセットおよびCOCOPersonsデータセットにおいて評価された。その結果、OCHumanデータセットにおいては既存の最先端手法を3.0 mAP向上させ、COCOPersonsデータセットでは6.4 mAPの向上を達成し、本手法の有効性を実証した。