2달 전

단일 RGB 이미지로부터 전체적인 3D 장면 해석 및 재구성

Siyuan Huang; Siyuan Qi; Yixin Zhu; Yinxue Xiao; Yuanlu Xu; Song-Chun Zhu
단일 RGB 이미지로부터 전체적인 3D 장면 해석 및 재구성
초록

우리는 단일 RGB 이미지를 공동으로 분석하고, 확률적 문법 모델을 사용하여 CAD 모델 집합으로 구성된 전체적인 3D 구성을 재구성하기 위한 계산 프레임워크를 제안합니다. 특히, 3D 장면 구조를 표현하기 위해 전반적인 장면 문법(Holistic Scene Grammar, HSG)을 도입합니다. 이 HSG는 실내 장면의 기능적 공간과 기하학적 공간에 대한 공동 분포를 특징화합니다. 제안된 HSG는 실내 장면의 세 가지 핵심적이고 종종 잠재적인 차원을 포착합니다: i) 잠재 인간 맥락, 방 배치의 용도와 기능성을 설명하며, ii) 장면 구성에 대한 기하학적 제약 조건, 그리고 iii) 물리적으로 타당한 분석과 재구성을 보장하는 물리적 제약 조건입니다.이 공동 분석 및 재구성 문제는 분석-합성 방식으로 해결되며, 입력 이미지와 우리의 3D 표현으로 생성된 렌더링 이미지 간의 깊이, 표면 법선 벡터, 객체 세분화 맵 등의 차이를 최소화하는 것을 목표로 합니다. 최적 구성을 나타내는 파싱 그래프는 Markov chain Monte Carlo (MCMC)를 사용하여 추론됩니다. MCMC는 비미분 가능한 해 공간을 효율적으로 탐색하며, 객체 위치 결정, 3D 레이아웃, 그리고 숨겨진 인간 맥락을 공동으로 최적화합니다. 실험 결과는 제안된 알고리즘이 일반화 능력을 향상시키고, 3D 레이아웃 추정, 3D 객체 감지, 전반적인 장면 이해에서 이전 방법들보다 크게 우수함을 입증하였습니다.

단일 RGB 이미지로부터 전체적인 3D 장면 해석 및 재구성 | 최신 연구 논문 | HyperAI초신경