단계적 맥락 피라미드를 이용한 전체 해상도 3D 의미 장면 완성

의미적 장면 완성(Semantic Scene Completion, SSC)은 3D 장면의 부피 점유 상태와 의미 범주를 동시에 예측하는 것을 목표로 합니다. 이는 지능형 기기에 주변 환경을 이해하고 상호작용할 수 있도록 도와줍니다. 그러나 높은 메모리 요구량 때문에 현재 방법들은 저해상도 완성 예측만을 생성하며, 일반적으로 객체의 세부 정보를 잃게 됩니다. 또한 이러한 방법들은 3D 추론에 중요한 역할을 하는 다중 스케일 공간 맥락을 무시합니다. 이러한 문제들을 해결하기 위해 본 연구에서는 단일 깊이 이미지에서 부피 3D 장면의 점유 상태와 의미 라벨을 공동으로 추론하는 새로운 딥러닝 프레임워크인 계단식 맥락 피라미드 네트워크(Cascaded Context Pyramid Network, CCPNet)를 제안합니다. 제안된 CCPNet은 계단식 맥락 피라미드를 통해 라벨링 일관성을 개선합니다. 한편, 저수준 특징을 기반으로 안내 잔여 정제(Guided Residual Refinement, GRR) 모듈을 사용하여 객체의 미세 구조를 단계적으로 복원합니다. 우리 제안 프레임워크는 다음과 같은 세 가지 우수한 장점을 가지고 있습니다: (1) 성능 향상을 위해 명시적으로 3D 공간 맥락을 모델링합니다; (2) 구조 보존 세부 정보가 포함된 전체 해상도 3D 볼륨을 생성합니다; (3) 낮은 메모리 요구량과 좋은 확장성을 가진 경량 모델을 캡처합니다. 광범위한 실험 결과, 단일 시점 깊이 맵만을 사용해도 제안된 프레임워크가 고품질 SSC 결과를 생성하며, 합성 SUNCG 데이터셋과 실제 NYU 데이터셋 모두에서 최신 접근법들을 능가함을 입증하였습니다.