
摘要
本文旨在开发一种高效且紧凑的深度网络,用于RGB-D显著目标检测,其中深度图像提供了补充信息,以在复杂场景中提升性能。我们从多尺度残差块生成的粗略初始预测开始,提出了一种逐步引导交替精炼网络来优化这一预测。不同于使用ImageNet预训练的骨干网络,我们首先通过从零学习构建了一个轻量级的深度流,该方法能够更高效地提取互补特征,并减少冗余。然后,与现有的融合方法不同,我们将RGB和深度特征交替输入到所提出的引导残差(Guided Residual, GR)块中,以减少它们之间的相互退化。通过在每个侧输出内的堆叠GR块中分配逐步引导,可以有效纠正误检和缺失部分。广泛的实验在七个基准数据集上表明,我们的模型在性能上大幅超越了现有的最先进方法,并且在效率(71帧/秒)和模型大小(64.9 MB)方面也表现出色。