11일 전

MVFusion: 의미 정렬된 레이더와 카메라 융합을 통한 다중 시점 3D 객체 탐지

Zizhang Wu, Guilian Chen, Yuanzhu Gan, Lei Wang, Jian Pu
MVFusion: 의미 정렬된 레이더와 카메라 융합을 통한 다중 시점 3D 객체 탐지
초록

다중 시점 레이더-카메라 융합 3차원 객체 탐지는 악천후 조건에서도 자율주행에 더 긴 탐지 거리와更有 ích한 특징을 제공한다. 현재의 레이더-카메라 융합 기법은 레이더 정보와 카메라 데이터를 융합하기 위한 다양한 설계를 제안하고 있으나, 이러한 융합 방법들은 일반적으로 다중 모달 특징 간에 단순한 연결(concatenation) 연산을 사용하며, 레이더 특징과의 의미론적 정렬을 간과하고 모달 간 충분한 상관관계를 고려하지 않는다. 본 논문에서는 의미론적 정렬된 레이더 특징을 도출하고, 다중 모달 간 정보 상호작용을 강화하기 위해 새로운 다중 시점 레이더-카메라 융합 기법인 MVFusion을 제안한다. 이를 위해 이미지에 의해 안내되는 레이더 특징을 생성하기 위해 의미론적 정렬 레이더 인코더(Semantic-Aligned Radar Encoder, SARE)를 도입하여 레이더 특징에 의미론적 정렬을 통합한다. 또한, 레이더 특징과 이미지 특징을 융합하여 전역적인 관점에서 두 모달 간의 상관관계를 강화하기 위해 레이더 유도형 융합 트랜스포머(Radar-Guided Fusion Transformer, RGFT)를 제안한다. RGFT는 교차 주의 메커니즘(cross-attention mechanism)을 활용하여 모달 간의 강력한 상호작용을 가능하게 한다. 광범위한 실험 결과를 통해 MVFusion이 nuScenes 데이터셋에서 최신 기술 수준의 성능(51.7% NDS, 45.3% mAP)을 달성함을 확인하였다. 논문 게재 후 코드 및 학습된 모델을 공개할 예정이다.

MVFusion: 의미 정렬된 레이더와 카메라 융합을 통한 다중 시점 3D 객체 탐지 | 최신 연구 논문 | HyperAI초신경