
摘要
本文聚焦于基于RGB-D数据的室内语义分割任务。尽管目前广泛使用的反卷积网络(DeconvNet)在该任务上已取得显著成果,但我们发现其在两个方面仍存在提升空间。其一是边界分割精度问题:DeconvNet通过聚合大范围上下文信息来预测每个像素的类别标签,这种机制在本质上限制了物体边界的分割精度。其二是RGB-D模态融合方式的局限性:现有最先进方法通常采用等权重的分数融合策略整合RGB与深度网络的输出,而未考虑在不同场景下,两种模态对不同类别语义边界的贡献程度存在差异。为解决上述问题,本文首先提出一种局部敏感的反卷积网络(LS-DeconvNet),用于在各模态上精细化边界分割。LS-DeconvNet从原始RGB-D数据中引入局部视觉与几何线索,并将其融入每个DeconvNet结构中,从而能够在保留大范围上下文信息的同时,有效恢复清晰锐利的物体边界。针对RGB-D融合问题,我们进一步设计了一种门控融合层(gated fusion layer),以高效融合两个LS-DeconvNet的输出。该层能够自适应地学习每个像素上RGB与深度模态的贡献权重,实现更精准的物体识别。在大规模SUN RGB-D数据集和广泛使用的NYU-Depth v2数据集上的实验结果表明,本文方法在RGB-D室内语义分割任务上达到了新的最先进水平。