2달 전

MonoDTR: 단일 카메라 기반 깊이 인식 트랜스포머를 이용한 3D 객체 검출

Huang, Kuan-Chih ; Wu, Tsung-Han ; Su, Hung-Ting ; Hsu, Winston H.
MonoDTR: 단일 카메라 기반 깊이 인식 트랜스포머를 이용한 3D 객체 검출
초록

단일 카메라 3D 객체 검출은 자율 주행 분야에서 중요한 과제이지만 여전히 도전적인 문제입니다. 기존의 일부 방법들은 상용화된 깊이 추정기에서 얻은 깊이 정보를 활용하여 3D 검출을 지원하지만, 부정확한 깊이 사전 정보로 인해 추가적인 계산 부담과 제한된 성능 향상을 겪고 있습니다. 이를 해결하기 위해, 우리는 단일 카메라 3D 객체 검출을 위한 새로운 엔드투엔드 깊이 인식 트랜스포머 네트워크인 MonoDTR을 제안합니다. 이 모델은 주로 두 가지 구성 요소로 이루어져 있습니다: (1) 보조 감독 없이 추가 계산을 요구하지 않고 암시적으로 깊이 인식 특성을 학습하는 Depth-Aware Feature Enhancement (DFE) 모듈, 그리고 (2) 전역적으로 문맥과 깊이 인식 특성을 통합하는 Depth-Aware Transformer (DTR) 모듈입니다. 또한, 기존의 픽셀 단위 위치 인코딩과는 달리, 우리는 트랜스포머에 깊이 위치 힌트를 주입하기 위한 새로운 depth positional encoding (DPE)을 소개합니다. 우리가 제안한 깊이 인식 모듈들은 이미지만 사용하는 기존 단일 카메라 3D 객체 검출기에 쉽게 적용될 수 있으며 성능 향상에 기여할 수 있습니다. KITTI 데이터셋을 이용한 광범위한 실험 결과, 우리의 접근법은 이전의 최신 단일 카메라 기반 방법들을 능가하며 실시간 검출을 달성함을 입증하였습니다. 코드는 https://github.com/kuanchihhuang/MonoDTR 에서 제공됩니다.

MonoDTR: 단일 카메라 기반 깊이 인식 트랜스포머를 이용한 3D 객체 검출 | 최신 연구 논문 | HyperAI초신경