2달 전
단일 카메라를 이용한 차량 자세 추정을 위한 중간 표현 탐구
Shichao Li; Zengqiang Yan; Hongyang Li; Kwang-Ting Cheng

초록
우리는 단일 RGB 이미지에서 차량의 자세를 SO(3)로 복원하기 위한 새로운 학습 기반 프레임워크를 제시합니다. 이전 연구들이 로컬 외관을 관측 각도로 매핑하는 것과 달리, 우리는 의미 있는 중간 기하학적 표현(Intermediate Geometrical Representations, IGRs)을 추출하여 자기 중심적인 차량 방향을 추정하는 점진적인 접근법을 탐구합니다. 이 접근법은 지각된 강도를 IGRs로 변환하는 깊은 모델을 특징으로 하며, 이러한 IGRs는 카메라 좌표계에서 객체 방향을 인코딩하는 3D 표현으로 매핑됩니다. 핵심 문제는 어떤 IGRs를 사용할 것인지와 어떻게 이를 더 효과적으로 학습할 것인지입니다. 전자의 질문에 대해 우리는 원시 3D 주석에서 쉽게 유래되는 보간 큐브(interpolated cuboid)를 기반으로 IGRs를 설계함으로써 답을 제시합니다. 후자의 질문은 우리에게 새로운 투영 불변량(projective invariant) 기반 손실 함수를 통해 기하학적 지식을 통합하도록 동기를 부여합니다. 이 손실 함수는 표현 학습을 개선하기 위해 라벨이 없는 데이터를 훈련 단계에서 활용할 수 있게 합니다. 추가적인 라벨 없이, 우리의 시스템은 KITTI 벤치마크에서 단일 시점 RGB 기반 방법들보다 차량 검출 및 자세 추정에 있어 우수한 성능을 보이며, 입체 시스템과 비교해도 비슷한 성능을 달성합니다. 코드와 사전 학습된 모델들은 이 https URL에서 제공됩니다.