
要約
最近、Convnets(深層畳み込みニューラルネットワーク)は歩行者検出において著しい進歩をもたらしましたが、適切なアーキテクチャや学習データに関する未解決の問題がまだ存在しています。本研究ではCNNの設計を見直し、主要な改良点を指摘することで、単純なFaster R-CNNでもCaltechデータセット上で最先端の結果を得られるようにしています。より多くの優れたデータからさらなる改善を達成するため、Cityscapesデータセットに基づく新しい人物注釈セットであるCityPersonsを導入しました。CityPersonsの多様性により、初めて複数のベンチマークで良好に汎化する単一のCNNモデルを訓練することが可能になりました。さらに、CityPersonsでの追加学習により、特に困難なケース(重度の被遮蔽と小規模オブジェクト)において大幅に改善され、位置特定の品質も向上したFaster R-CNNを使用してCaltechデータセット上で最上位の結果を得ることができました。