
摘要
深度图包含有助于显著目标检测(SOD)的几何线索。本文提出一种新颖的跨模态加权(Cross-Modal Weighting, CMW)策略,旨在促进RGB与深度通道之间的全面交互,以提升RGB-D显著目标检测性能。具体而言,我们设计了三个RGB-深度交互模块,分别命名为CMW-L、CMW-M和CMW-H,用于分别处理低、中、高层的跨模态信息融合。这些模块通过深度图到RGB加权(Depth-to-RGB Weighing, DW)和RGB到RGB加权(RGB-to-RGB Weighing, RW),实现由不同网络模块生成的特征层之间丰富的跨模态与跨尺度交互。为有效训练所提出的跨模态加权网络(CMWNet),我们设计了一种复合损失函数,综合考虑在不同尺度上中间预测结果与真实标签之间的误差。得益于上述各项创新组件的协同作用,CMWNet能够高效融合RGB与深度通道的信息,同时在多尺度上探索目标的定位与细节特征。大量实验评估表明,CMWNet在七个主流基准数据集上 consistently 超越了15种当前最先进的RGB-D SOD方法,展现出卓越的性能。