17日前

PS-RCNN:主対象抑制を用いた群衆内における二次的ヒューマンインスタンス検出

Zheng Ge, Zequn Jie, Xin Huang, Rong Xu, Osamu Yoshie
PS-RCNN:主対象抑制を用いた群衆内における二次的ヒューマンインスタンス検出
要約

混雑したシーンにおける人間の体の検出は、極めて困難な課題である。この問題の背後には主に以下の2つの要因がある。1)重度に隠蔽された対象の視覚的特徴が弱いため、正確な検出に必要な十分な情報を提供できないこと。2)重度に隠蔽された対象は、非最大値抑制(Non-Maximum Suppression: NMS)によって容易に抑制されてしまうこと。これらの課題に対処するため、本研究では2段階検出器の変種としてPS-RCNNを提案する。PS-RCNNはまず、R-CNNモジュール(P-RCNNと呼称)を用いて、軽度または完全に隠蔽されていない物体を検出する。その後、検出された物体に対して人間の形状を模したマスクを適用することで、それらの検出結果を抑制する。これにより、重度に隠蔽された人間の特徴が際立つようにする。続いて、PS-RCNNは、重度に隠蔽された人間の検出に特化した別のR-CNNモジュール(S-RCNNと呼称)を用いて、P-RCNNによって見逃された残りの物体を検出する。最終的な検出結果は、この2つのR-CNNモジュールの出力のアンサンブルによって得られる。さらに、重度に隠蔽された人間の可視部分における細粒度特徴をできる限り保持するため、高解像度RoIアライメント(High Resolution RoI Align: HRRA)モジュールを導入した。提案手法のPS-RCNNは、基準モデルと比較して、CrowdHumanデータセット上で再現率(recall)と平均精度(AP)をそれぞれ4.49%、2.92%向上させ、WiderPersonデータセットにおいても同様の改善が得られた。