
摘要
作为一项体素级标注任务,语义场景补全(SSC)试图从单个深度图像和/或RGB图像中同时推断场景的占据状态和语义标签。SSC的关键挑战在于如何有效地利用三维上下文来建模形状、布局和可见性存在严重变化的各种物体或物质。为了解决这些变化问题,我们提出了一种称为各向异性卷积的新模块,该模块具有灵活性和强大的建模能力,这是标准3D卷积及其某些变体所无法实现的。与受限于固定3D感受野的标准3D卷积不同,我们的模块能够在体素级别上对维度各向异性进行建模。基本思想是通过将3D卷积分解为三个连续的1D卷积来实现各向异性的3D感受野,每个1D卷积的核大小都是自适应地实时确定的。通过堆叠多个这样的各向异性卷积模块,可以在保持可控模型参数量的同时进一步增强体素级别的建模能力。在两个SSC基准数据集NYU-Depth-v2和NYUCAD上的大量实验表明了所提方法的优越性能。我们的代码可在https://waterljwant.github.io/SSC/ 获取。