SpaRC: 희소 레이더-카메라 융합을 이용한 3D 객체 검출

이 연구에서는 3D 인식을 위해 다중 시점 이미지 의미론과 레이다 및 카메라 포인트 특성을 통합하는 새로운 희소 융합 트랜스포머인 SpaRC를 제시합니다. 레이다와 카메라 모달의 융합은 자율 주행 시스템에서 효율적인 인식 패러다임으로 부상하고 있습니다. 기존 접근 방식은 깊이 추정을 위해 밀도 높은 조감도(Bird's Eye View, BEV) 기반 아키텍처를 사용하지만, 현대의 쿼리 기반 트랜스포머는 객체 중심적 방법론을 통해 카메라만을 이용한 감지에서 우수한 성능을 보입니다. 그러나 이러한 쿼리 기반 접근 방식은 암시적인 깊이 모델링으로 인해 거짓 양성 검출과 위치 정밀도에 한계가 있습니다. 우리는 이 문제들을 다음과 같은 세 가지 핵심 기여를 통해 해결하였습니다: (1) 크로스-모달 특성 정렬을 위한 희소 프루스트럼 융합(Sparse Frustum Fusion, SFF), (2) 정확한 객체 위치 결정을 위한 범위 적응형 레이다 집적(Range-Adaptive Radar Aggregation, RAR), (3) 중점을 두어 쿼리를 집적하는 로컬 자기 주의(Local Self-Attention, LSA). 기존 방법들이 계산적으로 비용이 많이 드는 BEV 그리드 렌더링을 필요로 하는 것과 달리, SpaRC는 직접 인코딩된 포인트 특성을 처리하여 효율성과 정확성이 크게 향상되었습니다. nuScenes 및 TruckScenes 벤치마크에서 실증 평가 결과, SpaRC는 기존의 밀도 높은 BEV 기반 및 희소 쿼리 기반 감지기보다 현저히 우수한 성능을 보였습니다. 우리의 방법은 67.1 NDS와 63.1 AMOTA라는 최신 성능 지표를 달성하였습니다. 코드와 사전 학습된 모델들은 https://github.com/phi-wol/sparc에서 확인할 수 있습니다.