2달 전

협력적 전체 장면 이해: 3D 객체, 레이아웃 및 카메라 포즈 추정의 통합

Siyuan Huang; Siyuan Qi; Yinxue Xiao; Yixin Zhu; Ying Nian Wu; Song-Chun Zhu
협력적 전체 장면 이해: 3D 객체, 레이아웃 및 카메라 포즈 추정의 통합
초록

전체적인 3D 실내 장면 이해(Holistic 3D indoor scene understanding)는 객체 경계 상자(object bounding boxes), 방 구조(room layout), 그리고 카메라 자세(camera pose)를 모두 3D로 복원하는 것을 의미합니다. 기존 방법들은 효과가 부족하거나 문제를 부분적으로만 해결하는 경우가 많습니다. 본 논문에서는 단일 RGB 이미지만으로도 이 세 가지 작업을 실시간으로 동시에 해결할 수 있는 엔드투엔드(end-to-end) 모델을 제안합니다. 제안된 방법의 핵심은 i) 대상(예: 3D 박스)을 직접 추정하는 대신 이를 매개변수화(parametrizing the targets)하고, ii) 각 모듈을 개별적으로 훈련시키는 것과 달리 서로 다른 모듈 간에 협력적으로 훈련(cooperative training across different modules)하는 것입니다. 구체적으로, 우리는 여러 모듈(예: 3D 카메라 자세와 객체 속성(object attributes))의 예측값을 통해 3D 객체 경계 상자를 매개변수화합니다. 제안된 방법은 두 가지 주요 장점을 제공합니다: i) 매개변수화는 2D 이미지와 3D 세계 사이의 일관성을 유지하는데 도움이 되어, 3D 좌표에서의 예측 변동성을 크게 줄입니다. ii) 매개변수화에 제약 조건(constraints)을 부여하여 서로 다른 모듈들을 동시에 훈련시킬 수 있습니다. 이러한 제약 조건들을 '협력적 손실(cooperative losses)'이라고 부르며, 이는 공동 훈련과 추론을 가능하게 합니다. 우리는 3D 경계 상자, 2D 투영, 물리적 제약 조건에 대해 세 가지 협력적 손실을 사용하여 기하학적으로 일관되고 물리적으로 타당한 3D 장면을 추정합니다. SUN RGB-D 데이터셋에서 수행한 실험 결과, 제안된 방법이 기존 접근법보다 3D 객체 검출(3D object detection), 3D 레이아웃 추정(3D layout estimation), 3D 카메라 자세 추정(3D camera pose estimation), 그리고 전체적인 장면 이해(holistic scene understanding)에서 유의미하게 우월함을 보였습니다.