11일 전
BEVStereo: 동적 시간 스테레오를 통한 다중 시점 3D 객체 탐지에서 깊이 추정 향상
Yinhao Li, Han Bao, Zheng Ge, Jinrong Yang, Jianjian Sun, Zeming Li

초록
심도 인식의 본질적 모호성에 의해 제한되는 현대 카메라 기반 3D 객체 탐지 방법은 성능의 한계에 봉착하고 있다. 직관적으로, 시간적 다중 시점 스테레오(Temporal Multi-View Stereo, MVS) 기술을 활용하는 것이 이 모호성을 극복하는 자연스러운 접근법이다. 그러나 기존의 MVS 기법은 3D 객체 탐지 환경에 적용될 때 두 가지 측면에서 한계를 지닌다. 첫째, 모든 시점 간의 유사도 측정에 있어 매우 높은 계산 비용이 발생한다. 둘째, 객체가 자주 이동하는 실외 환경에서는 처리가 어렵다. 이를 해결하기 위해, 우리는 매칭 후보의 스케일을 동적으로 선택할 수 있는 효과적인 시간적 스테레오 방법을 제안한다. 이로 인해 계산 부담을 크게 줄일 수 있다. 더 나아가, 보다 유용한 후보를 반복적으로 업데이트할 수 있는 알고리즘을 설계하여 이동하는 후보에 적응 가능한 구조를 구현하였다. 본 연구에서 제안하는 방법을 다중 시점 3D 탐지기로 구현한 결과, BEVStereo라는 모델을 도입하였다. BEVStereo는 nuScenes 데이터셋의 카메라 전용 트랙에서 새로운 최고 성능을 기록하였으며, mAP 52.5%, NDS 61.0%의 성과를 달성하였다. 또한, 광범위한 실험을 통해 기존의 MVS 기법들보다 복잡한 실외 환경에서도 더 우수한 성능을 발휘함을 확인할 수 있었다. 관련 코드는 https://github.com/Megvii-BaseDetection/BEVStereo 에 공개되어 있다.