3달 전

인스턴스와 장면을 인-더-루프로 통합한 의미론적 장면 완성

Yingjie Cai, Xuesong Chen, Chao Zhang, Kwan-Yee Lin, Xiaogang Wang, Hongsheng Li
인스턴스와 장면을 인-더-루프로 통합한 의미론적 장면 완성
초록

의미론적 장면 완성(Semantic Scene Completion)은 단일 뷰의 깊이 이미지 또는 RGBD 이미지로부터 정밀한 복셀 단위의 의미 정보를 갖춘 완전한 3D 장면을 재구성하는 것을 목표로 한다. 이는 실내 장면 이해에 있어 핵심적이지만 도전적인 문제이다. 본 연구에서는 인스턴스 수준과 장면 수준의 의미 정보를 동시에 활용하는 새로운 프레임워크인 Scene-Instance-Scene 네트워크(SISNet)를 제안한다. 제안된 방법은 의미 범주가 유사하여 혼동되기 쉬운 인접 객체뿐만 아니라 세밀한 형태 정보까지 추론할 수 있다. 핵심 아이디어는 원시 입력 이미지가 아닌, 거친 수준에서 완성된 의미론적 장면에서 인스턴스를 분리하여, 이를 통해 인스턴스와 전체 장면의 재구성을 안내하는 것이다. SISNet은 반복적인 장면-인스턴스(SI) 및 인스턴스-장면(IS) 의미 완성 과정을 수행한다. 구체적으로, SI 단계는 객체 주변의 맥락 정보를 효과적으로 인코딩하여 장면에서 인스턴스를 분리할 수 있으며, 각 인스턴스는 더 높은 해상도로 복셀화되어 세부적인 구조를 포착할 수 있다. 반면, IS 단계에서는 세밀한 인스턴스 정보를 다시 3D 장면에 통합함으로써 더 정확한 의미론적 장면 완성 결과를 도출할 수 있다. 이러한 반복적 메커니즘을 통해 장면 완성과 인스턴스 완성이 서로 보완되며, 더 높은 완성 정확도를 달성할 수 있다. 광범위한 실험 결과는 제안된 방법이 실제 데이터셋인 NYU, NYUCAD와 합성 데이터셋인 SUNCG-RGBD 모두에서 최신 기술을 일관되게 상회함을 보여준다. 코드 및 보충 자료는 \url{https://github.com/yjcaimeow/SISNet}에서 공개될 예정이다.