
摘要
得益于深度(Depth)数据的可用性,RGB-D语义分割可通过卷积神经网络(CNN)得到显著提升。尽管仅依靠二维外观(2D appearance)难以有效区分物体,但结合深度图中的局部像素差异与几何结构特征,在某些情况下仍可实现较好的物体分离。然而,由于CNN固有的固定网格卷积核结构,其在捕捉细节性、细粒度信息方面存在局限,因而难以实现精确的像素级语义分割。为解决上述问题,本文提出一种像素差异卷积网络(Pixel Difference Convolutional Network, PDCNet),通过在局部范围内融合深度数据的强度与梯度信息,并在全局范围内融合RGB数据的上下文信息,以捕捉更精细的内在模式。具体而言,PDCNet由深度分支与RGB分支构成。在深度分支中,我们设计了一种像素差异卷积(Pixel Difference Convolution, PDC),通过聚合局部区域内的强度与梯度信息,有效建模深度数据中的局部几何细节。在RGB分支中,我们提出一种轻量级级联大卷积核(Cascade Large Kernel, CLK),将其与PDC相结合,形成CPDC模块,从而为RGB数据引入全局上下文感知能力,进一步提升模型性能。因此,在信息传播过程中,PDCNet能够无缝融合两种模态数据的局部与全局像素差异特征。在两个具有挑战性的基准数据集NYUDv2与SUN RGB-D上的实验结果表明,所提出的PDCNet在语义分割任务中达到了当前最优(state-of-the-art)性能。