
초록
다중 스펙트럼 보행자 검출은 비디오 감시 및 자율 주행과 같은 24시간 운영이 필요한 많은 응용 분야에서 중요한 역할을 하기 때문에 연구 커뮤니티의 관심이 점점 더 높아지고 있습니다. 특히 조명이 부족한 환경에서는 더욱 그렇습니다. 우리는 KAIST 데이터셋에 대한 인간 기준선을 생성하고, 현재 최고의 검출기와 인간의 성능 사이에 여전히 큰 차이가 있음을 밝혔습니다. 이 차이를 줄이기 위해, 우리는 다중 스펙트럼 제안 네트워크와 후속 다중 스펙트럼 분류 네트워크로 구성된 네트워크 융합 아키텍처를 제안합니다. 다중 스펙트럼 제안 네트워크는 보행자 제안을 생성하고, 후속 다중 스펙트럼 분류 네트워크는 어려운 부정 예제들로부터 보행자 인스턴스를 구분합니다. 통합된 네트워크는 보행자 검출과 의미 세그멘테이션 작업을 공동으로 최적화하여 학습됩니다. 최종 검출 결과는 다양한 모달리티와 두 단계에서 얻은 출력들을 통합하여 얻어집니다. 이 접근 방식은 KAIST 데이터셋에서 기존 최신 방법론보다 크게 우수한 성능을 보이며, 동시에 빠른 처리 속도를 유지합니다. 또한, 우리는 KAIST 데이터셋의 훈련 주석들의 정제된 버전을 제공하며, 다양한 주석 오류가 미치는 영향을 조사하였습니다. 앞으로의 연구는 이러한 정제된 버전으로부터 혜택을 받을 수 있을 것입니다. 이 버전은 주석 오류의 간섭을 제거함으로써 문제 해결에 도움이 됩니다.