11일 전
BEVDepth: 다중 시점 3D 객체 탐지를 위한 신뢰성 있는 깊이 정보 획득
Yinhao Li, Zheng Ge, Guanyi Yu, Jinrong Yang, Zengran Wang, Yukang Shi, Jianjian Sun, Zeming Li

초록
본 연구에서는 카메라 기반 Bird's-Eye-View (BEV) 3D 객체 탐지에 적합한 신뢰할 수 있는 깊이 추정 기능을 갖춘 새로운 3D 객체 탐지기인 BEVDepth를 제안한다. 본 연구의 핵심 아이디어는 최근의 접근 방식에서 깊이 추정이 카메라 기반 3D 탐지에 필수적인 요소임을 고려할 때, 그 성능이 예상보다 부족하다는 관찰에 기반한다. 이를 해결하기 위해 BEVDepth는 명시적인 깊이 감독을 활용한다. 또한 깊이 예측 능력을 향상시키기 위해 카메라 인식형 깊이 추정 모듈을 도입하였다. 더불어, 정확하지 않은 특징 역투영( feature unprojection)으로 인해 발생하는 부작용을 완화하기 위해 새로운 깊이 정제 모듈( Depth Refinement Module)을 설계하였다. 맞춤형 효율적 복셀 풀링( Efficient Voxel Pooling)과 다중 프레임 기반 메커니즘을 활용함으로써, BEVDepth는 도전적인 nuScenes 테스트 세트에서 기존 최고 성능을 넘어선 60.9%의 NDS 점수를 달성하면서도 높은 효율성을 유지하였다. 이는 카메라 기반 모델이 처음으로 NDS 점수 60%를 돌파한 사례이다.