11일 전

CRAFT: 시공간적 맥락 융합 트랜스포머를 이용한 카메라-레이더 3D 객체 탐지

Youngseok Kim, Sanmin Kim, Jun Won Choi, Dongsuk Kum

초록

카메라 및 레이더 센서는 LiDAR에 비해 비용, 신뢰성, 유지보수 측면에서 큰 장점을 가지고 있다. 기존의 융합 기법들은 일반적으로 단일 모달리티의 출력을 결과 수준에서 융합하는 방식, 즉 후기 융합 전략을 사용한다. 이 방법은 사전에 개발된 단일 센서 탐지 알고리즘을 활용할 수 있다는 장점이 있지만, 센서 간의 보완적 특성을 충분히 활용하지 못하므로 카메라-레이더 융합의 거대한 잠재력에도 불구하고 성능 제한이 존재한다. 본 연구에서는 카메라와 레이더의 공간적 및 맥락적 특성을 효과적으로 활용할 수 있는 새로운 프로포절 수준의 조기 융합 방법을 제안한다. 제안하는 융합 프레임워크는 먼저 극좌표계에서 이미지 프로포절과 레이더 포인트를 연결함으로써 좌표계 및 공간적 특성 간의 불일치를 효율적으로 처리한다. 이 단계를 기반으로, 연속적인 크로스 어텐션 기반의 특징 융합 레이어가 카메라와 레이더 간에 적응형으로 공간-맥락 정보를 교환함으로써 강력하고 주의 집중적인 융합을 가능하게 한다. 제안하는 카메라-레이더 융합 기법은 nuScenes 테스트 세트에서 최신 기술 수준의 mAP 41.1%, NDS 52.3%를 달성하였으며, 카메라 단일 모달 기반 베이스라인에 비해 각각 8.7점, 10.8점 높은 성능을 기록했으며, LiDAR 기반 방법과도 경쟁 가능한 성능을 보였다.