11일 전
단안 3차원 객체 탐지를 위한 사영 모델링을 통한 기하학적 안내 깊이 학습
Yinmin Zhang, Xinzhu Ma, Shuai Yi, Jun Hou, Zhihui Wang, Wanli Ouyang, Dan Xu

초록
자율 주행의 핵심 과제인 3차원 객체 탐지(3D object detection)는 최근 몇 년간 큰 진전을 이뤘다. 그러나 깊이 추정 성능이 만족스럽지 못한 문제로 인해 단안(단일 카메라) 기반의 3D 객체 탐지는 여전히 도전적인 과제로 남아 있다. 기존의 대부분의 단안 방법들은 장면의 깊이를 직접 회귀(regress)하는 방식을 취하지만, 깊이와 다양한 기하학적 요소(예: 경계 상자 크기, 3D 객체의 치수, 객체의 자세 등) 간의 중요한 관계를 간과하고 있다. 본 논문에서는 프로젝티브(투영) 모델링을 활용한 기하학적 지도를 받는 깊이 추정 기법을 제안하여 단안 기반 3D 객체 탐지의 성능을 향상시키고자 한다. 구체적으로, 단안 3D 객체 탐지 네트워크 내에서 2D 및 3D 깊이 예측을 투영 모델링하는 원칙적인 기하학 공식을 설계하였다. 또한, 제안된 공식을 구현하고 통합함으로써 기하학적 인식을 갖춘 딥 표현 학습을 가능하게 하여, 2D와 3D 간의 효과적인 상호작용을 통해 깊이 추정 성능을 향상시켰다. 더불어, 2D 라벨링과 투영된 경계 상자 간의 심각한 정렬 오차 문제를 해결함으로써, 제안된 기하학적 공식에 기반한 강력한 베이스라인을 제시하였다. KITTI 데이터셋에서의 실험 결과, 추가 데이터 없이도 최신 단안 기반 방법의 검증 성능을 중간(moderate) 설정 기준으로 2.80% 향상시켰다. 본 연구의 모델 및 코드는 https://github.com/YinminZhang/MonoGeo 에 공개될 예정이다.