
초록
다중 카메라 뷰를 활용한 감지는 혼잡한 장면에서 발생하는 가림 현상의 영향을 완화시킵니다. 다중 뷰 시스템에서는 가림으로 인해 생기는 모호성을 처리할 때 두 가지 중요한 질문에 답해야 합니다. 첫째, 여러 뷰에서 얻은 힌트를 어떻게 집계할 것인가입니다. 둘째, 가림으로 인해 오염된 신뢰성 낮은 2D 및 3D 공간 정보를 어떻게 집계할 것인가입니다. 이러한 질문들을 해결하기 위해 우리는 새로운 다중 뷰 감지 시스템인 MVDet를 제안합니다. 기존 방법들은 이미지 평면에서 앵커 박스 특징을 결합하여 다중 뷰 집계를 수행하지만, 이는 부정확한 앵커 박스의 형태와 크기로 인해 성능이 제한될 수 있습니다. 반면에, 우리는 앵커 없는 접근 방식을 취하여 피처 맵을 지면 평면(새총망치뷰)으로 투영하여 다중 뷰 정보를 집계합니다. 잔여 공간 모호성을 해결하기 위해 지면 평면 피처 맵에 큰 커널 합성곱을 적용하고 감지 피크로부터 위치를 추론합니다. 우리의 전체 모델은 엔드투엔드로 학습 가능하며 표준 Wildtrack 데이터셋에서 88.2%의 MODA 성능을 달성하여 최신 기술보다 14.1% 우수한 결과를 보여주었습니다. 또한 우리는 새로운 합성 데이터셋인 MultiviewX에서 MVDet의 상세 분석을 제공하며, 이 데이터셋은 가림 수준을 조절할 수 있게 해줍니다. 코드와 MultiviewX 데이터셋은 https://github.com/hou-yz/MVDet에서 이용 가능합니다.