11일 전
PerspectiveNet: 1개의 RGB 이미지에서 시점 점을 통한 3D 객체 탐지
Siyuan Huang, Yixin Chen, Tao Yuan, Siyuan Qi, Yixin Zhu, Song-Chun Zhu

초록
단일 RGB 이미지에서 3D 객체를 탐지하는 것은 본질적으로 모호성이 존재하므로, 2D 이미지 평면과 3D 세계 좌표 간의 일관성을 높이고 불확실성을 줄이기 위해 적절한 사전 지식과 중간 표현 형태를 제약 조건으로 활용해야 한다. 이 문제를 해결하기 위해, 우리는 3D 객체의 위치를 식별하기 위해 로컬 맨하탄 3D 키포인트의 2D 투영점인 '투시점(perspective points)'을 새로운 중간 표현으로 제안한다. 이러한 투시점은 투시 투영에 의해 부과되는 기하학적 제약을 만족한다. 또한, 단일 RGB 이미지로부터 각 객체에 대해 2D 경계 상자, 2D 투시점, 그리고 3D 객체 경계 상자를 동시에 탐지할 수 있는 엔드투엔드 학습 가능한 모델인 PerspectiveNet을 제안한다. PerspectiveNet은 다음과 같은 세 가지 독특한 장점을 제공한다: (i) 3D 객체 경계 상자는 투시점 기반으로 추정되며, 카테고리별 3D 형태 사전 지식 없이도 2D와 3D 경계 상자 간의 격차를 극복할 수 있다. (ii) 투시점을 템플릿 기반 방법으로 예측하고, 투시 제약을 유지하기 위한 투시 손실(perspective loss)을 정의하였다. (iii) 미분 가능한 투영 함수를 통해 2D 투시점과 3D 경계 상자 간의 일관성을 유지한다. SUN RGB-D 데이터셋에서의 실험 결과, 제안하는 방법이 기존의 RGB 기반 3D 객체 탐지 방법보다 상당히 우수한 성능을 보였다.