2달 전

3D Dual-Fusion: Dual-Domain Dual-Query 카메라-리다르 융합을 이용한 3D 객체 검출

Yecheol Kim; Konyul Park; Minwook Kim; Dongsuk Kum; Jun Won Choi

초록

카메라와 LiDAR 센서의 데이터를 융합하는 것은 견고한 3D 객체 검출을 달성하기 위한 필수적인 기술입니다. 카메라-LiDAR 융합에서 주요 도전 과제 중 하나는 두 센서 간의 좌표와 데이터 분포 측면에서 큰 영역 차이를 완화하는 것입니다. 본 논문에서는 카메라와 LiDAR 데이터의 특징 표현 간의 차이를 완화하도록 설계된 새로운 카메라-LiDAR 융합 아키텍처인 3D Dual-Fusion을 제안합니다. 제안된 방법은 카메라 뷰와 3D 복셀 뷰 영역의 특징을 융합하고 변형 주의 메커니즘(deformable attention)을 통해 이들의 상호작용을 모델링합니다. 우리는 트랜스포머 융합 인코더를 재설계하여 두 영역에서 정보를 집적합니다. 주요 변경 사항은 다음과 같습니다: 1) 두 영역의 특징을 상호적으로 융합하기 위한 듀얼 쿼리 기반 변형 주의 메커니즘(dual query-based deformable attention)과 2) 듀얼 쿼리 디코딩 전에 복셀 영역 쿼리를 인코딩하기 위한 3D 로컬 자기 주의 메커니즘(3D local self-attention)입니다. 실험 평가 결과, 제안된 카메라-LiDAR 융합 아키텍처는 KITTI 및 nuScenes 데이터셋에서 경쟁력 있는 성능을 보였으며, 일부 3D 객체 검출 벤치마크 범주에서는 최신 기술(state-of-the-art) 수준의 성능을 달성했습니다.