RCBEVDet++: 고정밀 레이더-카메라 융합 3D 인식 네트워크

주변 환경 인식은 자율 주행에서 기본적인 과제입니다. 높은 정확도의 인식 결과를 얻기 위해 현대의 자율 주행 시스템은 일반적으로 다중 모드 센서를 사용하여 포괄적인 환경 데이터를 수집합니다. 이 중 레이더-카메라 다중 모드 인식 시스템은 우수한 감지 능력과 비용 효율성으로 특히 선호됩니다. 그러나 레이더와 카메라 센서 간의 상당한 모드 차이는 정보 융합에 어려움을 초래합니다. 이러한 문제를 해결하기 위해 본 논문에서는 RCBEVDet, 레이더-카메라 융합 3D 객체 검출 프레임워크를 제시합니다. 구체적으로, RCBEVDet는 기존의 카메라 기반 3D 객체 검출기에서 개발되었으며, 특별히 설계된 레이더 특징 추출기인 RadarBEVNet과 Cross-Attention Multi-layer Fusion (CAMF) 모듈을 추가로 포함하고 있습니다.첫째, RadarBEVNet은 듀얼 스트림 레이더 백본과 RCS(Radar Cross Section) 인식 BEV 인코더를 사용하여 희소한 레이더 포인트를 밀집된 조감도(Bird's-Eye-View, BEV) 특징으로 인코딩합니다. 둘째, CAMF 모듈은 변형 가능한 주목 메커니즘을 활용하여 레이더와 카메라의 BEV 특징을 맞춥니다. 또한 채널 및 공간 융합 계층을 통해 이들을 융합합니다.RCBEVDet의 성능을 더욱 강화하기 위해, 우리는 RCBEVDet++을 소개합니다. RCBEVDet++은 CAMF를 희소 융합으로 발전시키고, 쿼리 기반 다중 시점 카메라 인식 모델을 지원하며, 더 넓은 범위의 인식 과제에 적응할 수 있도록 설계되었습니다. nuScenes 데이터셋에서 수행된 광범위한 실험 결과, 우리의 방법론은 기존의 카메라 기반 3D 인식 모델과 원활하게 통합되며 다양한 인식 과제에서 성능을 향상시키는 것으로 나타났습니다. 또한 우리의 방법론은 3D 객체 검출, BEV 의미 분할, 3D 다중 객체 추적 등의 과제에서 최신의 레이더-카메라 융합 결과를 달성하였습니다.특히 이미지 백본으로 ViT-L(Vision Transformer Large)을 사용할 경우, RCBEVDet++은 테스트 시간 증강이나 모델 앙상블 없이 72.73 NDS(NuScenes Detection Score)와 67.34 mAP(Mean Average Precision)를 달성하였습니다.