
摘要
全卷积网络(Fully Convolutional Network, FCN)已在基于RGB图像的场景语义分割任务中取得成功应用。通过引入深度通道(depth channel)增强的图像,能够提供更丰富的场景几何信息,从而提升对场景的理解能力。然而,如何有效利用这一额外信息以进一步提升分割性能,仍是一个关键问题。本文提出一种多分支神经网络结构,用于对RGB-D图像进行语义分割。我们的方法基于可用的深度信息,将图像划分为具有相似视觉特征或共同“场景分辨率”的层级,从而实现对场景结构的更精细建模。为此,我们提出一种上下文感知感受野(Context-aware Receptive Field, CaRF),能够更有效地控制所学特征的相关上下文信息。在CaRF的引导下,网络的每一分支专注于语义分割特定的、具有相似场景分辨率的区域,从而形成更聚焦的学习域,提升学习效率。此外,网络采用级联结构,前一分支的特征用于增强相邻分支的特征表达。实验表明,这种特征级联机制显著丰富了各分支的上下文信息,有效提升了整体分割性能。在两个公开数据集上的实验结果表明,所提方法的分割精度优于当前最先进的技术。