11일 전
단안 3D 객체 탐지에 Pseudo-Lidar가 필요한가?
Dennis Park, Rares Ambrus, Vitor Guizilini, Jie Li, Adrien Gaidon

초록
최근 단일 이미지에서의 3D 객체 탐지 기술은 단안 심도 추정을 활용하여 3D 포인트 클라우드를 생성함으로써 카메라를 가상 라이다 센서로 전환하는 방식을 채택하고 있다. 이러한 이중 단계 탐지기들은 중간 단계의 심도 추정 네트워크의 정확도에 크게 의존하며, 대규모 자기지도 학습을 통해 수동 레이블 없이도 이를 개선할 수 있다. 그러나 이들 방법은 종종 엔드 투 엔드 방식보다 과적합(overfitting)에 더 취약하며, 구조가 더 복잡하고, 라이다 기반 탐지기와의 성능 차이가 여전히 크다. 본 연구에서는 가상 라이다 방법의 장점을 누릴 수 있지만 그 제약을 갖지 않는, 엔드 투 엔드 및 단일 단계의 단안 3D 객체 탐지기인 DD3D를 제안한다. 제안하는 아키텍처는 심도 추정과 3D 탐지 간의 효과적인 정보 전달을 위해 설계되었으며, 레이블이 없는 사전 훈련 데이터의 양에 따라 확장 가능하다. 제안된 방법은 두 가지 도전적인 벤치마크에서 최고 성능을 달성하였으며, KITTI-3D 벤치마크에서 차량과 보행자에 대해 각각 16.34%, 9.28%의 AP를 기록하였고, NuScenes에서는 41.5%의 mAP를 달성하였다.