
摘要
与RGB语义分割相比,RGBD语义分割通过考虑深度信息可以实现更好的性能。然而,当前的分割器在有效利用RGBD信息方面仍存在困难,因为RGB图像和深度(D)图像在不同场景中的特征分布差异显著。本文提出了一种注意力互补网络(ACNet),该网络有选择性地从RGB分支和深度分支中收集特征。主要贡献在于注意力互补模块(ACM)和具有三个并行分支的架构。具体而言,ACM是一种基于通道注意力的模块,可以从RGB分支和深度分支中提取加权特征。该架构保留了原始RGB分支和深度分支的推理能力,同时启用了融合分支。基于上述结构,ACNet能够从不同的通道中提取更多高质量的特征。我们在SUN-RGBD和NYUDv2数据集上评估了我们的模型,并证明我们的模型优于现有最先进方法。特别是,在使用ResNet50的情况下,我们的模型在NYUDv2测试集上达到了48.3%的mIoU分数。我们将在https://github.com/anheidelonghu/ACNet发布基于PyTorch的源代码以及训练好的分割模型。