
摘要
三维场景理解在计算机视觉与机器人应用中被视为一项关键需求。三维场景理解中的高层次任务之一是RGB-D图像的语义分割。随着RGB-D相机的普及,通过结合深度信息与外观特征,有望提升场景理解的准确性。由于深度图像不受光照条件影响,其可与RGB图像协同提升语义标注的质量。综合考虑两种模态的共性特征与特异性特征,有助于进一步提升语义分割的性能。然而,RGB-D语义分割面临的一个核心挑战是如何高效融合或结合这两种模态,以充分发挥各自优势,同时保持计算效率。近年来,基于深度卷积神经网络的方法通过早期融合、晚期融合及中间融合等策略,已取得当前最先进的性能。本文提出一种高效的编码器-解码器架构,引入基于注意力机制的融合模块,用于建模两种模态特征图之间的相互影响。该模块显式地提取两种模态拼接后特征图之间的相互依赖关系,从而从RGB-D图像中挖掘出更具表达能力的特征。在NYU-V2、SUN RGB-D以及Stanford 2D-3D-Semantic三个主流且具有挑战性的数据集上进行的大量实验表明,所提出的网络在保持较低计算成本与较小模型规模的前提下,性能优于现有最先进模型。实验结果进一步验证了所提出的轻量化注意力融合机制在精度方面的有效性。