RCFusion: 3차 객체 탐지를 위한 Bird’s-Eye View 특징을 활용한 4차원 레이더와 카메라의 융합
카메라와 밀리미터파(MMW) 레이더의 융합은 정확하고 견고한 자율주행 시스템을 구현하기 위해 필수적이다. 레이더 기술의 발전에 따라 차세대 고해상도 자동차용 레이더인 4차원(4-D) 레이더가 등장하였다. 기존 레이더가 제공하던 타겟의 거리, 방위각, 도플러 속도 측정 외에 4-D 레이더는 고도 측정 기능을 추가하여 더 밀도 높은 ‘포인트 클라우드’를 생성할 수 있다. 본 연구에서는 카메라와 4-D 레이더의 융합을 위한 신경망인 RCFusion을 제안한다. 이 모델은 통합된 Birds-Eye View(BEV) 공간 내에서 다중 모달 특징을 융합하여 3차원 물체 탐지 작업을 수행한다. 카메라 스트림에서는 이미지 백본과 특징 피라미드 네트워크(FPN)를 통해 다중 스케일 특징맵을 추출한 후, 정사영 특징 변환(Orthographic Feature Transform, OFT)을 통해 정사영 특징맵으로 변환한다. 이후 설계된 공유 주의 메커니즘 인코더를 통해 강화되고 세밀한 이미지 BEV 특징을 얻는다. 한편, 4-D 레이더 스트림에서는 새로 설계된 레이더 PillarNet을 통해 레이더 특징을 효율적으로 인코딩하고, 레이더 가상 이미지(pseudo-image)를 생성한다. 이 가상 이미지는 포인트 클라우드 백본에 입력되어 레이더 BEV 특징을 생성한다. 융합 단계에서는 두 모달의 BEV 특징을 효과적으로 융합하기 위해 상호작용 주의 모듈(Interactive Attention Module, IAM)을 제안한다. 마지막으로, 일반화된 탐지 헤드는 객체 클래스와 위치를 예측한다. 제안된 RCFusion은 TJ4DRadSet 및 View-of-Delft(VoD) 데이터셋에서 검증되었으며, 실험 결과와 분석을 통해 카메라와 4-D 레이더 특징을 효과적으로 융합하여 견고한 탐지 성능을 달성함을 확인하였다.