
摘要
语义场景补全(Semantic Scene Completion, SSC)是一项具有广泛应用前景的计算机视觉挑战性任务,涵盖机器人学、辅助计算等多个领域。其目标是推断场景视场范围内的三维几何结构以及体素(voxel)的语义标签,包括被遮挡区域的结构信息。本文提出了一种名为SPAwN的新颖轻量级多模态三维深度卷积神经网络(3D CNN),该网络能够无缝融合RGB-D图像深度通道提供的结构信息与双模态二维分割网络输出的语义先验信息。该领域面临的一个关键难题是:缺乏足够大且完全标注的真实世界三维数据集,难以支撑当前对数据量高度依赖的三维深度卷积神经网络的训练需求。在二维计算机视觉任务中,已有诸多数据增强策略被提出,以提升CNN模型的泛化能力。然而,这些方法无法直接应用于SSC解决方案中的RGB-D输入与输出体数据。为此,本文首次引入了一种适用于多模态SSC网络的三维数据增强策略。我们通过全面且可复现的消融实验验证了所提方法的有效性。实验结果表明,本方法在与现有工作相近的模型复杂度下,始终能够持续超越先前最优性能。