비대칭 국소화 피팅을 통한 효율적인 단계별 보행자 검출기 학습

비록 Faster R-CNN 기반의 두 단계 검출기들은 보행자 검출 정확도에서 큰 향상을 경험했지만, 실용적 응용에는 여전히 느리다. 이를 해결하기 위한 한 가지 방법은 이 작업 흐름을 단일 단계 검출기로 단순화하는 것이다. 그러나 현재의 단일 단계 검출기(예: SSD)는 일반적인 보행자 검출 벤치마크에서 경쟁력 있는 정확도를 보이지 못하고 있다. 본 논문은 SSD의 속도를 유지하면서도 Faster R-CNN의 정확도를 확보하는 성공적인 보행자 검출기를 목표로 한다. 구체적으로, 구조적으로 간단하지만 효과적인 모듈인 비대칭적 위치 적합(Asymptotic Localization Fitting, ALF)을 제안한다. 이 모듈은 SSD의 기본 앵커 박스를 단계적으로 개선하여 검출 결과를 향상시키기 위해 일련의 예측 모듈을 스택한다. 그 결과, 학습 과정에서 후속 예측 모듈은 더 많은 양의 고품질 양성 샘플을 활용할 수 있으며, IoU 임계값을 점진적으로 높여가며 더 어려운 음성 샘플을 탐색할 수 있다. 이러한 기반 위에, 효율적인 단일 단계 보행자 검출 아키텍처(ALFNet)를 설계하였으며, 세계적으로 가장 큰 보행자 검출 벤치마크 중 두 곳인 CityPersons와 Caltech에서 최신 기술 수준의 성능을 달성하여 정확도와 속도 면에서 매우 매력적인 보행자 검출기로 입증되었다. 코드는 다음 주소에서 제공된다: \href{https://github.com/VideoObjectSearch/ALFNet}{https://github.com/VideoObjectSearch/ALFNet}.