WiderPerson:屋外環境における密集歩行者検出のための多様なデータセット

歩行者検出は、既存のベンチマークデータセットの提供により著しい進展を遂げてきた。しかし、現実世界における要件と現在の歩行者検出ベンチマークとの間に、多様性と密度のギャップが依然として存在している。具体的には、1) 既存の大部分のデータセットは、通常の交通状況を走行する車両から撮影されたものであり、多様性が不足している傾向がある。2) 高度に被覆された歩行者が多数存在する群衆シーンは依然として十分に表現されておらず、結果としてデータ密度が低い。このギャップを縮小し、今後の歩行者検出研究を促進するために、我々は野外における高密度歩行者検出を目的として、WiderPersonと名付けられた大規模かつ多様なデータセットを提案する。本データセットは、交通状況に限定されない広範なシナリオにおいて、5種類のアノテーションを含む。全体で13,382枚の画像、399,786個のアノテーション(1枚あたり平均29.87個)を有しており、さまざまな被覆状態を伴う高密度の歩行者を含んでいる。したがって、提案するデータセットに含まれる歩行者は、シナリオの変動および被覆の多様性が極めて大きいため、野外環境における歩行者検出器の評価に適した極めて困難なタスクである。本研究では、新たな歩行者検出ベンチマークのベースラインとして、改良型Faster R-CNNおよび標準的なRetinaNetを導入した。また、Caltech-USAやCityPersonsといった既存のデータセット上で複数の実験を実施し、提案データセットの一般化能力を分析した結果、特徴量の追加やハイパーパラメータの最適化といった「おまけ機能」を用いずに、既存データセットにおいて最先端の性能を達成した。最後に、一般的な誤検出ケースを分析したところ、歩行者検出器の分類能力の向上が、誤検出率および見逃し率の低減に不可欠であることが明らかになった。本データセットは、http://www.cbsr.ia.ac.cn/users/sfzhang/WiderPerson にて公開されている。