
초록
최근 컨볼루션 신경망(ConvNets)은 보행자 검출 분야에서 상당한 진전을 이루었지만, 적절한 아키텍처와 학습 데이터에 대한 문제점들은 여전히 남아 있습니다. 본 연구에서는 CNN 설계를 재검토하고, 평범한 Faster R-CNN이 Caltech 데이터셋에서 최고 수준의 결과를 얻을 수 있도록 하는 주요 개선점을 지적합니다.더 나은 성능을 위해 더 많은 그리고 더 좋은 데이터를 활용하기 위해, 우리는 Cityscapes 데이터셋 위에 새로운 사람 주석 집합인 CityPersons를 소개합니다. CityPersons의 다양성 덕분에 처음으로 하나의 CNN 모델로 여러 벤치마크에서 잘 일반화되는 모델을 훈련시킬 수 있었습니다. 또한, CityPersons로 추가 학습을 수행함으로써 Caltech 데이터셋에서 Faster R-CNN을 사용하여 최상의 결과를 얻었으며, 특히 어려운 사례(심각한 가림 현상과 작은 크기)에서 더욱 향상되었으며, 위치 결정 품질도 높아졌습니다.