17일 전

INFERNO: 감독 없이 객체 중심 3D 장면 표현을 추론하는 방법

{Aaron Courville, Nicolas Ballas, Lluis Castrejon}
INFERNO: 감독 없이 객체 중심 3D 장면 표현을 추론하는 방법
초록

우리는 애노테이션에 의존하지 않고 시각적 장면의 객체 중심 표현을 추론하는 방법 INFERNO를 제안한다. 본 방법은 장면을 여러 개의 객체로 분해하는 능력을 학습하며, 각 객체는 모양, 외관, 3D 자세를 분리된 구조적 표현을 갖는다. 이러한 구조를 강제하기 위해 최신의 신경망 기반 3D 렌더링 기술에 기반한다. 각 객체 표현은 국소적인 신경 레이디언스 필드(nerve radiance field)를 정의하며, 이는 미분 가능한 렌더링 과정을 통해 장면의 2D 뷰를 생성하는 데 사용된다. 이후 본 모델은 입력과 해당 렌더링된 장면 간의 재구성 오차를 최소화함으로써 학습된다. 실증적으로 INFERNO가 감독 없이 장면 내 객체를 탐지함을 보여주며, 추론된 장면을 조작함으로써 렌더링 출력에서 발생하는 변화를 확인함으로써 학습된 표현의 해석 가능성도 검증한다. 마지막으로, CATER 데이터셋을 활용한 시각적 추론 작업을 통해 본 방법이 제공하는 3D 객체 표현의 유용성을 입증한다.