11일 전

다중 뷰 보행자 탐지를 위한 스택형 호모지어니티 변환

{Junsong Yuan, Yuan Li, Qian Zhang, Ming Yang, Jialian Wu, Liangchen Song}
다중 뷰 보행자 탐지를 위한 스택형 호모지어니티 변환
초록

다중 시점 보행자 탐지는 여러 카메라 시점에서부터 벌거벗은 시점(Bird's Eye View, BEV)의 점유 지도를 예측하는 것을 목표로 한다. 이 작업은 두 가지 주요 과제에 직면한다. 첫째, 다양한 시점에서 BEV 지도로의 3차원 대응 관계를 어떻게 설정할 것인지이고, 둘째, 여러 시점 간의 점유 정보를 어떻게 통합할 것인지이다. 본 논문에서는 3차원 세계 좌표계에서 투영을 여러 호모그래피(homography)의 스택을 통해 근사하는 데 착안하여, 새로운 Stacked HOmography Transformations (SHOT) 방법을 제안한다. 먼저, 다양한 높이 수준의 지면 평면으로 시점을 투영하기 위한 변환 스택을 구축한다. 그 후, 네트워크가 변환 스택의 각 요소에 대한 가능성(likelihood)을 예측하도록 하는 소프트 선택 모듈을 설계한다. 또한, SHOT을 구성하는 방식과 3차원 세계 좌표계 내 투영을 얼마나 잘 근사하는지에 대한 체계적인 이론적 분석을 제시한다. 실험 결과, SHOT이 개별 시점에서 BEV 지도로의 정확한 대응 관계를 추정할 수 있음을 입증하였으며, 이로 인해 기존 표준 평가 벤치마크에서 최신 기술 수준(SOTA) 성능을 달성하였다.