WiderPerson: 자연 환경에서 밀집 보행자 탐지용 다양성 있는 데이터셋

보행자 탐지 기술은 기존의 기준 데이터셋이 제공되면서 큰 발전을 이뤘다. 그러나 현실 세계의 요구사항과 현재의 보행자 탐지 기준 데이터셋 사이에는 다양성과 밀도 측면에서 여전히 격차가 존재한다. 첫째, 기존 대부분의 데이터셋은 일반적인 교통 상황을 담고 있는 차량에서 촬영된 것으로, 다양성이 부족한 경향이 있다. 둘째, 높은 오버랩(차폐)이 발생하는 대규모 인파 상황이 여전히 부족하게 반영되어 있어, 데이터의 밀도가 낮다. 이러한 격차를 줄이고 향후 보행자 탐지 연구를 촉진하기 위해, 자연 환경에서의 밀집 보행자 탐지를 위한 대규모이고 다양한 데이터셋인 WiderPerson을 제안한다. 이 데이터셋은 교통 상황에 국한되지 않고 다양한 장면에서 총 5종류의 레이블을 포함하고 있으며, 전체적으로 13,382장의 이미지와 399,786개의 레이블을 보유하고 있다. 즉, 평균 이미지당 29.87개의 레이블을 포함하며, 다양한 형태의 오버랩이 존재하는 밀집 보행자 시나리오를 포함하고 있다. 따라서 제안된 데이터셋의 보행자는 장면의 다양성과 오버랩의 극단적인 변화로 인해 매우 도전적인 특성을 지니고 있으며, 실제 환경에서의 보행자 탐지기 성능 평가에 적합하다. 새로운 보행자 탐지 기준 데이터셋의 기준 모델로 개선된 Faster R-CNN과 기존의 RetinaNet을 제안한다. 기존의 Caltech-USA 및 CityPersons 데이터셋을 대상으로 여러 실험을 수행하여 제안된 데이터셋의 일반화 능력을 분석한 결과, 별도의 기술적 보조 없이도 기존 데이터셋에서 최신 기술 수준의 성능을 달성하였다. 마지막으로, 일반적인 오류 사례를 분석한 결과, 보행자 탐지기의 분류 능력 향상이 거짓 경보 및 탐지 누락률을 감소시키기 위해 필수적임을 확인하였다. 제안된 데이터셋은 http://www.cbsr.ia.ac.cn/users/sfzhang/WiderPerson 에서 공개된다.