7 个月前

摘要

语义场景补全（Semantic Scene Completion, SSC）旨在同时预测三维场景的体素占用情况和语义类别。这有助于智能设备理解和与周围环境互动。由于高内存需求，目前的方法仅能生成低分辨率的补全预测，通常会丢失物体细节。此外，这些方法还忽略了对三维推理至关重要的多尺度空间上下文。为了解决这些问题，本文提出了一种新的深度学习框架，命名为级联上下文金字塔网络（Cascaded Context Pyramid Network, CCPNet），该框架可以从单张深度图像中联合推断出体素化三维场景的占用情况和语义标签。所提出的CCPNet通过级联上下文金字塔提高了标签的一致性。同时，基于低层特征，它逐步利用引导残差精炼（Guided Residual Refinement, GRR）模块恢复物体的精细结构。我们提出的框架具有三个显著优势：(1) 明确建模三维空间上下文以提升性能；(2) 生成保留结构细节的全分辨率三维体素；(3) 捕获低内存需求且具有良好可扩展性的轻量级模型。大量实验表明，尽管只使用单视图深度图，我们提出的框架仍能生成高质量的SSC结果，并在合成SUNCG数据集和真实NYU数据集上均优于现有最先进方法。

源 PDF