摘要
理解城市场景是辅助驾驶与自动驾驶系统的基本能力要求。目前大多数城市场景理解方法依赖于可见光红-绿-蓝(RGB)图像,但在恶劣光照条件下,其分割性能容易下降。近年来,多种高效的神经网络被提出用于城市场景理解,研究发现融合RGB图像与热成像(RGB-T)图像可显著提升分割精度,即使在光照条件不佳的情况下亦能保持良好表现。然而,由于现有方法多采用简单的特征拼接或特征图平均等操作进行多模态融合,多模态特征融合的潜力尚未得到充分挖掘。为提升多模态特征融合效果及分割精度,本文提出一种具有分层多模态融合机制(多尺度融合策略)的多任务感知网络(MTANet),用于RGB-T城市场景理解。我们设计了一种分层多模态融合模块,以增强跨模态特征的融合能力,并构建了一个高层语义模块,用于提取高级语义信息,与不同抽象层级的粗粒度特征进行融合。通过多层级融合机制,我们实现了低层、中层与高层特征的协同融合,有效提升了分割性能。此外,多任务模块引入边界、二值及语义监督信号,联合优化MTANet的网络参数。在两个主流的RGB-T基准数据集上进行了大量实验,结果表明,所提出的MTANet在多种评价指标上均优于当前最先进的方法,验证了其在复杂光照条件下实现高精度城市场景理解的有效性与优越性。