6 个月前

摘要

语义场景补全（Semantic Scene Completion）旨在从单视角深度图或RGB-D图像中重建出具有精确体素级语义信息的完整三维场景，是室内场景理解中一项关键但极具挑战性的任务。本文提出了一种名为场景-实例-场景网络（Scene-Instance-Scene Network, SISNet）的新框架，该框架同时利用了实例级与场景级的语义信息。所提方法能够准确推断出细粒度的形状细节，以及语义类别易混淆的邻近物体。本方法的核心思想在于：不是直接从原始输入图像中分离实例，而是从粗略完成的语义场景中解耦出实例，以此指导实例与整体场景的重建过程。SISNet采用迭代式的场景到实例（Scene-to-Instance, SI）与实例到场景（Instance-to-Scene, IS）语义补全过程。具体而言，SI阶段能够编码物体周围的上下文信息，有效实现实例与场景的分离，并将每个实例体素化至更高分辨率，以捕捉更精细的几何细节；而IS阶段则将细粒度的实例语义信息重新融合回三维场景中，从而提升整体语义场景补全的准确性。通过这种迭代机制，场景补全与实例补全相互促进，显著提升了重建精度。大量实验结果表明，所提出的SISNet在真实数据集NYU、NYUCAD以及合成数据集SUNCG-RGBD上，均持续优于当前最先进的方法。代码与补充材料将公开于：https://github.com/yjcaimeow/SISNet。

源 PDF