3 个月前

基于在环融合实例与场景的语义场景补全

Yingjie Cai, Xuesong Chen, Chao Zhang, Kwan-Yee Lin, Xiaogang Wang, Hongsheng Li
基于在环融合实例与场景的语义场景补全
摘要

语义场景补全(Semantic Scene Completion)旨在从单视角深度图或RGB-D图像中重建出具有精确体素级语义信息的完整三维场景,是室内场景理解中一项关键但极具挑战性的任务。本文提出了一种名为场景-实例-场景网络(Scene-Instance-Scene Network, SISNet)的新框架,该框架同时利用了实例级与场景级的语义信息。所提方法能够准确推断出细粒度的形状细节,以及语义类别易混淆的邻近物体。本方法的核心思想在于:不是直接从原始输入图像中分离实例,而是从粗略完成的语义场景中解耦出实例,以此指导实例与整体场景的重建过程。SISNet采用迭代式的场景到实例(Scene-to-Instance, SI)与实例到场景(Instance-to-Scene, IS)语义补全过程。具体而言,SI阶段能够编码物体周围的上下文信息,有效实现实例与场景的分离,并将每个实例体素化至更高分辨率,以捕捉更精细的几何细节;而IS阶段则将细粒度的实例语义信息重新融合回三维场景中,从而提升整体语义场景补全的准确性。通过这种迭代机制,场景补全与实例补全相互促进,显著提升了重建精度。大量实验结果表明,所提出的SISNet在真实数据集NYU、NYUCAD以及合成数据集SUNCG-RGBD上,均持续优于当前最先进的方法。代码与补充材料将公开于:https://github.com/yjcaimeow/SISNet。