
要約
歩行者の検出において、オクルージョン(遮蔽)は極めて困難な課題である。本論文では、遮蔽された歩行者の検出を「可視領域の検出」と「全身ボックスの推定」という明示的な段階に分解するシンプルかつ効果的な手法、V2F-Netを提案する。V2F-Netは、2つのサブネットワークから構成される:可視領域検出ネットワーク(Visible region Detection Network; VDN)と全身推定ネットワーク(Full body Estimation Network; FEN)。VDNは可視領域の位置を推定し、FENは得られた可視領域のボックスをもとに全身のボックスを推定する。さらに、全身推定の精度をさらに向上させるために、新たな「埋め込みベースの部位意識モジュール(Embedding-based Part-aware Module; EPM)」を提案する。このモジュールは各部位の可視性を監視することで、ネットワークが部位に特化した重要な特徴を抽出するよう促進する。2つの困難なデータセット上で実験を行い、V2F-Netの有効性を実証した。CrowdHumanデータセットではFPNベースラインと比較して5.85%のAP向上を達成し、CityPersonsデータセットではMR-2において2.24%の改善を示した。さらに、1段階検出器および2段階検出器の両方で一貫した性能向上が得られたことから、本手法の汎用性が確認された。