要約
人間インスタンスセグメンテーションは、人間中心のシーン理解における核心的な課題であり、外見や形状におけるクラス内変動が大きく、また被覆パターンが複雑であるため、視覚システムにとって特有の挑戦をもたらす。本論文では、新たなポーズ認識型人間インスタンスセグメンテーション手法を提案する。従来のポーズ認識手法は、まず下向き(bottom-up)にポーズを予測し、その後その予測結果を基にインスタンスセグメンテーションを推定するのに対し、本手法は上向き(top-down)と下向きの両方の手がかりを統合する。具体的には、検出結果を人間候補領域として用い、各候補領域に対して人間のポーズとインスタンスセグメンテーションを同時に推定する。さらに、反復的にインスタンスセグメンテーションを精緻化するためのモジュール型再帰的深層ネットワークを構築した。本手法の精緻化モジュールは、ポーズ情報の二つのレベルでの利用を実現している:粗い形状事前知識としての利用と、局所的な部位に注目する注目機構(local part attention)としての利用。提案手法は、複数人を含む公開ベンチマークであるOCHumanデータセットおよびCOCOPersonsデータセットにおいて評価された。その結果、OCHumanデータセットにおいては既存の最先端手法を3.0 mAP向上させ、COCOPersonsデータセットでは6.4 mAPの向上を達成し、本手法の有効性を実証した。