MonoDGP: 단일 카메라 3D 객체 검출을 위한 분리된 쿼리와 기하학적 오류 사전 정보 활용

단일 카메라 3D 객체 검출 방법에서 관점 투영은 널리 활용되어 왔습니다. 이는 2D 바운딩 박스와 3D 객체 차원에서 기하학적 사전 정보를 도입하여 깊이 추정의 불확실성을 줄이는 역할을 합니다. 그러나 객체의 시각적 표면에서 발생하는 깊이 오류로 인해, 바운딩 박스의 높이는 종종 실제 투영 중심 높이를 정확히 표현하지 못하며, 이는 기하학적 깊이의 효과성을 저하시킵니다. 투영 높이를 직접 예측하는 것은 불가피하게 2D 사전 정보의 손실을 초래하며, 복잡한 분기 구조를 가진 다중 깊이 예측은 기하학적 깊이를 충분히 활용하지 못합니다. 본 논문에서는 이러한 문제점을 해결하기 위해 관점 불변 기하학적 오류를 사용하여 투영 공식을 수정하는 Transformer 기반 단일 카메라 3D 객체 검출 방법인 MonoDGP를 제시합니다. 또한, 우리는 체계적으로 기하학적 오류의 메커니즘과 효율성을 논하고 설명하는데, 이는 다중 깊이 예측의 간단하면서도 효과적인 대안으로 작용합니다. 더불어, MonoDGP는 깊이 안내 디코더와 분리를 하고 시각적 특징에만 의존하는 2D 디코더를 구축하여, 3D 검출의 방해 없이 2D 사전 정보를 제공하고 객체 쿼리를 초기화합니다. Transformer 디코더의 입력 토큰을 더욱 최적화하고 미세 조정하기 위해, 우리는 강화된 특징과 세그먼트 임베딩을 생성하는 영역 분할 헤드(RSH)도 소개합니다. 우리의 단일 카메라 방법은 추가 데이터 없이 KITTI 벤치마크에서 최고 수준의 성능을 보여주며, 코드는 https://github.com/PuFanqi23/MonoDGP에서 확인할 수 있습니다.