15일 전

TransFusion: Transformer를 활용한 3D 객체 탐지를 위한 강건한 LiDAR-카메라 융합

Xuyang Bai, Zeyu Hu, Xinge Zhu, Qingqiu Huang, Yilun Chen, Hongbo Fu, Chiew-Lan Tai
TransFusion: Transformer를 활용한 3D 객체 탐지를 위한 강건한 LiDAR-카메라 융합
초록

LiDAR와 카메라는 자율주행에서 3차원 객체 탐지에 있어 중요한 센서들이다. 이 분야에서 센서 융합 기술의 인기가 높아지고 있지만, 저품질 이미지 조건(예: 나쁜 조명, 센서의 비정렬 등)에 대한 강건성은 여전히 탐구되지 않은 영역이다. 기존의 융합 방법들은 이러한 조건에 쉽게 영향을 받는다. 주로 보정 행렬에 의해 정의되는 LiDAR 포인트와 이미지 픽셀 간의 고정된 대응 관계가 그 원인이다. 본 연구에서는 저품질 이미지 조건을 효과적으로 처리하기 위해 소프트-어소시에이션(soft-association) 메커니즘을 도입한 강건한 LiDAR-카메라 융합 기법인 TransFusion을 제안한다. 구체적으로, TransFusion은 트랜스포머 디코더 기반의 컨볼루션 백본과 탐지 헤드로 구성된다. 디코더의 첫 번째 레이어는 희소한 객체 쿼리 세트를 사용하여 LiDAR 포인트 클라우드로부터 초기 바운딩 박스를 예측하고, 두 번째 디코더 레이어는 공간적 및 맥락적 관계를 활용하여 객체 쿼리를 유용한 이미지 특징과 적응적으로 융합한다. 트랜스포머의 어텐션 메커니즘은 모델이 이미지에서 어떤 정보를, 어디서 가져와야 할지를 적응적으로 결정할 수 있게 하여 강건하고 효과적인 융합 전략을 가능하게 한다. 또한, 포인트 클라우드에서 탐지하기 어려운 객체를 처리하기 위해 이미지 유도형 쿼리 초기화 전략을 추가로 설계하였다. TransFusion은 대규모 데이터셋에서 최신 기술 수준의 성능을 달성하였으며, 품질 저하된 이미지와 보정 오류에 대한 강건성을 입증하기 위해 광범위한 실험을 수행하였다. 더불어 제안된 방법을 3차원 추적 작업으로 확장하여 nuScenes 추적 리더보드에서 1위를 달성함으로써, 본 방법의 효과성과 일반화 능력을 입증하였다.

TransFusion: Transformer를 활용한 3D 객체 탐지를 위한 강건한 LiDAR-카메라 융합 | 최신 연구 논문 | HyperAI초신경