
摘要
现有的RGB-D显著性目标检测(SOD)方法主要聚焦于RGB流与深度流之间的跨模态融合,而未能深入挖掘深度图本身所蕴含的潜在价值。为此,本文提出一种单流网络结构,直接利用深度图引导RGB与深度信息的早期融合与中期融合,从而省去深度流的特征编码器,实现轻量化且具备实时性能的模型。我们从两个角度巧妙地利用深度信息:(1)针对不同模态间差异较大所导致的不兼容问题,构建了单流编码器以实现早期融合,充分借助ImageNet预训练的骨干网络,提取丰富且具有判别性的特征;(2)设计了一种新颖的深度增强双注意力模块(Depth-Enhanced Dual Attention, DEDA),高效地为前景与背景分支提供空间滤波后的特征,使解码器能够更优地完成中期融合。此外,我们提出了金字塔注意力特征提取模块(Pyramidically Attended Feature Extraction, PAFE),以精准定位不同尺度的目标。大量实验表明,所提模型在多种评估指标下均优于大多数当前最先进的方法。此外,该模型相比现有最轻量级模型减轻了55.5%,在处理384×384分辨率图像时可达到32 FPS的实时运行速度。