13일 전

MonoRUn: 재구성과 불확실성 전파를 통한 단일 카메라 3D 객체 탐지

Hansheng Chen, Yuyao Huang, Wei Tian, Zhong Gao, Lu Xiong
MonoRUn: 재구성과 불확실성 전파를 통한 단일 카메라 3D 객체 탐지
초록

3D 공간 내 객체의 위치 추정은 단일 카메라 기반 3D 객체 탐지에서 도전적인 과제이다. 최근 6DoF 자세 추정 기술의 발전은 이미지와 객체 3D 모델 간의 밀도 높은 2D-3D 대응 맵을 예측한 후, Perspective-n-Point(PnP) 알고리즘을 활용해 객체 자세를 추정함으로써 높은 정밀도의 위치 추정을 달성할 수 있음을 보여주었다. 그러나 이러한 방법들은 객체 기하학적 구조의 진정한 레이블(ground truth)을 학습에 사용해야 하는데, 이는 실제 실외 환경에서는 얻기 어렵다는 한계가 있다. 이 문제를 해결하기 위해, 우리는 단순한 3D 경계 상자(annotation)만으로도 밀도 높은 대응 관계와 기하 구조를 자율 지도(self-supervised) 방식으로 학습할 수 있는 새로운 탐지 프레임워크인 MonoRUn을 제안한다. 픽셀 기반의 3D 객체 좌표를 회귀하기 위해, 불확실성 인식 기능을 갖춘 영역별 재구성 네트워크를 사용한다. 자율 지도 학습을 위해 예측된 3D 좌표를 다시 이미지 평면으로 투영한다. 이를 통해 불확실성 가중 재투영 오차를 최소화하기 위해 강건한 KL 손실(robust KL loss)을 제안한다. 테스트 단계에서는 네트워크의 불확실성을 하류 모듈 전반에 걸쳐 전파함으로써 활용한다. 구체적으로, 불확실성 기반의 PnP 알고리즘을 활용해 객체 자세와 그 공분산(covariance)을 추정한다. 광범위한 실험을 통해 제안하는 방법이 KITTI 벤치마크에서 현재 최고 수준의 기법들을 초월함을 입증하였다.

MonoRUn: 재구성과 불확실성 전파를 통한 단일 카메라 3D 객체 탐지 | 최신 연구 논문 | HyperAI초신경