SparseBEV: 다중 카메라 영상에서의 고성능 희소 3D 객체 탐지

지난 몇 년간 BEV(Bird's Eye View) 공간에서 카메라 기반 3D 객체 탐지에 대한 관심이 크게 증가하고 있다. 기존의 밀도 높은(detector) 접근 방식은 일반적으로 먼저 밀집된 BEV 특징을 생성한 후, 그 특징을 기반으로 BEV 공간에서 객체 탐지를 수행하는 이단계 파이프라인을 따르며, 이는 복잡한 시점 변환과 높은 계산 비용을 초래한다. 반면, 희소(sparse) 탐지기는 밀집된 BEV 특징 생성을 명시적으로 수행하지 않고 쿼리 기반의 패러다임을 따르지만, 밀집 탐지기 대비 성능이 떨어지는 문제가 있다. 본 논문에서는 이러한 성능 격차를 해소하는 핵심은 BEV 공간과 이미지 공간에서 모두 탐지기가 적응 가능해야 한다는 점을 발견하였다. 이를 달성하기 위해, 밀집 탐지기들을 능가하는 완전히 희소한 3D 객체 탐지기인 SparseBEV를 제안한다. SparseBEV는 다음과 같은 세 가지 핵심 설계를 포함한다: (1) BEV 공간에서 적응형 수용영역을 갖는 스케일 적응형 자기 주의력(self-attention), (2) 쿼리에 따라 안내되는 적응형 시공간 샘플링을 통한 샘플링 위치 생성, (3) 쿼리로부터 동적 가중치를 도출하여 샘플링된 특징을 복원하는 적응형 혼합(adaptive mixing). nuScenes 데이터셋의 테스트 분할에서 SparseBEV는 최신 기술 수준의 67.5 NDS 성능을 달성하였으며, 검증 분할에서는 55.8 NDS의 성능을 기록하면서도 실시간 추론 속도인 23.5 FPS를 유지하였다. 코드는 https://github.com/MCG-NJU/SparseBEV 에서 공개되어 있다.