
摘要
场景深度信息有助于提升视觉信息在语义分割任务中的准确性。然而,如何有效将多模态信息融合到具有代表性的特征中,仍是当前尚未解决的关键问题。现有的大多数方法采用深度卷积神经网络(DCNN)对多模态信息进行隐式融合,但随着网络深度的增加,部分关键的区分性特征可能丢失,从而影响分割性能。为此,本文提出一种统一且高效的特征选择与融合网络(FSFNet),其核心包含一个对称的跨模态残差融合模块,用于显式地融合多模态信息。此外,网络还引入了一个精细化特征传播模块,可在网络前向传播过程中有效保留低层细节信息。实验结果表明,在两个公开数据集上,所提出的模型相较于当前最先进的方法,均取得了具有竞争力的分割性能。