6 个月前

摘要

上下文信息对于图像语义分割至关重要。特别是在室内场景中，物体尺度变化较大，空间上下文成为提升分割性能的重要因素。为此，本文提出一种新颖的变分上下文可变形（Variational Context-Deformable, VCD）模块，以结构化的方式学习自适应感受野。与传统卷积神经网络（ConvNets）对所有像素共享固定尺寸空间上下文不同，VCD模块在深度信息的引导下学习可变形的空间上下文：深度信息为识别真实的局部邻域提供了关键线索。具体而言，该模块在多模态信息的指导下学习自适应的高斯核函数。通过将学习得到的高斯核与标准卷积核相乘，VCD模块能够在卷积过程中为每个像素聚合灵活的空间上下文信息。本文的主要贡献如下：1）提出一种新型的VCD模块，利用可学习的高斯核实现具有结构化自适应上下文的特征学习；2）引入变分贝叶斯概率建模来训练VCD模块，使其具备连续性并提升训练稳定性；3）设计了一种视角感知引导模块，有效利用多模态信息（如RGB与深度信息）以增强RGB-D语义分割性能。我们在三个广泛使用的数据集上对所提方法进行了评估，实验结果表明，该方法在分割性能上显著优于现有方法，充分验证了其有效性。

源 PDF