단일 카메라 기반 3D 객체 검출을 위한 기하학적 불확실성 투영 네트워크

단일 카메라 3D 객체 검출에서 기하학적 투영은 강력한 깊이 추정 방법입니다. 이 방법은 높이에 따라 깊이를 추정하여 딥 모델에 수학적 사전 정보를 도입합니다. 그러나 투영 과정은 추정된 높이의 오류가 출력 깊이에서 크게 확대되어 반영되는 오류 확대 문제를 초래하기도 합니다. 이러한 특성은 제어할 수 없는 깊이 추론을 초래하며 학습 효율성을 저하시킵니다. 본 논문에서는 추론 및 학습 단계에서 오류 확대 문제를 해결하기 위해 기하학적 불확실성 투영 네트워크(Geometry Uncertainty Projection Network, GUP Net)를 제안합니다. 구체적으로, GUP 모듈을 제안하여 추론된 깊이의 기하학적 가이드 불확실성을 얻는데, 이는 각각의 깊이에 대해 높은 신뢰도를 제공할 뿐만 아니라 깊이 학습에도 이점을 줍니다. 또한, 학습 단계에서는 오류 확대로 인한 불안정성을 줄이기 위해 계층적 작업 학습 전략(Hierarchical Task Learning)을 제안합니다. 이 학습 알고리즘은 제안된 지표를 통해 각 작업의 학습 상황을 모니터링하고, 그 사전 작업 상황에 따라 다른 작업에 적절한 손실 가중치(loss weight)를 자동으로 할당합니다. 이를 바탕으로 각 작업은 자신의 사전 작업들이 잘 학습되었을 때만 시작되므로, 학습 과정의 안정성과 효율성이 크게 향상됩니다. 광범위한 실험 결과는 제안된 방법의 유효성을 입증합니다. 전체 모델은 기존 방법보다 더 신뢰할 수 있는 객체 깊이를 추론하며, KITTI 벤치마크에서 자동차와 보행자 카테고리의 AP40 성능 지표에서 최신 이미지 기반 단일 카메라 3D 검출기보다 각각 3.74%와 4.7% 개선되었습니다.