
摘要
本文研究了基于RGB-D图像的显著目标检测(SOD)问题,充分利用颜色与深度信息进行检测。从RGB-D图像中实现显著目标检测的主要技术挑战在于如何充分挖掘两种互补数据源之间的潜在价值。现有方法或仅简单地从对应的深度图中提取先验知识以处理RGB图像,或盲目融合颜色与几何信息以生成粗粒度的深度感知表征,这些做法均限制了RGB-D显著性检测器的性能提升。为此,本文提出一种统一框架——级联图神经网络(Cascade Graph Neural Networks, Cas-GNN),通过一系列级联图结构,全面地挖掘并推理两种数据源之间的相互益处,从而学习到强大的特征表示,用于RGB-D显著目标检测。Cas-GNN分别处理颜色与深度两种数据源,并引入一种新颖的级联图推理(Cascade Graph Reasoning, CGR)模块,以学习具有强表达能力的密集特征嵌入,进而可直接推断出显著性图。与以往方法相比,该框架显式建模并推理互补数据源之间的高层语义关系,显著增强了对遮挡与模糊等复杂场景的应对能力。大量实验结果表明,Cas-GNN在多个广泛使用的基准数据集上均显著优于现有的所有RGB-D SOD方法。