17일 전
3D-RCNN: Render-and-Compare를 통한 인스턴스 수준의 3D 객체 재구성
{Abhijit Kundu, Yin Li, James M. Rehg}

초록
우리는 인스턴스 수준의 3D 장면 이해를 위한 빠른 역그래픽스 프레임워크를 제안한다. 우리는 이미지 영역을 이미지 내 모든 객체 인스턴스의 완전한 3D 형태와 자세로 매핑하는 데에 깊은 합성곱 네트워크를 훈련시킨다. 제안하는 방법은 장면에 대한 컴팩트한 3D 표현을 생성하며, 자율 주행과 같은 응용 분야에서 즉시 활용할 수 있다. 기존의 2D 비전 출력물인 인스턴스 세그멘테이션과 깊이 맵 등은 단순히 우리 출력 3D 장면 모델을 렌더링함으로써 얻을 수 있다. 우리는 CAD 모델의 집합으로부터 저차원 형태 공간을 학습함으로써 클래스별 형태 사전(Shape Priors)을 활용한다. 더 나은 3D 등변성(3D equivariance)과 일반화를 목표로 하는 형태와 자세에 대한 새로운 표현 방식을 제안한다. 2D 세그멘테이션과 같은 2D 애노테이션 형태의 풍부한 감독 신호를 효과적으로 활용하기 위해, 3D 형태와 자세를 2D 감독 아래에서 학습할 수 있는 미분 가능한 '렌더-비교 손실(Rendere-and-Compare loss)'을 제안한다. 우리는 Pascal3D+와 KITTI와 같은 도전적인 실세계 데이터셋에서 본 방법을 평가하였으며, 최신 기술 수준(SOTA)의 성능을 달성하였다.