重新思考共显著目标检测

本文对图像中的共显著对象检测(CoSOD)问题进行了全面研究。CoSOD 是显著对象检测(SOD)的一个新兴且迅速发展的扩展领域,其目标是在一组图像中检测出共同出现的显著对象。然而,现有的 CoSOD 数据集通常存在严重的数据偏差,假设每组图像包含具有相似视觉外观的显著对象。这种偏差可能导致在现实场景中,模型的有效性和理想设置受损,因为在实际情况下,相似性通常是语义或概念上的。为了解决这一问题,我们首先引入了一个新的基准数据集,称为“野生环境下的 CoSOD3k”(CoSOD3k in the wild),该数据集需要大量的语义上下文,因此比现有的 CoSOD 数据集更具挑战性。我们的 CoSOD3k 包含 3,316 张高质量、精心挑选的图像,分为 160 组,并提供了层次注释。这些图像涵盖了广泛的类别、形状、对象大小和背景。其次,我们将现有的 SOD 技术整合到一个统一且可训练的 CoSOD 框架中,这是该领域长期以来亟待解决的问题。具体而言,我们提出了一种新型的 CoEG-Net 网络,通过引入共注意力投影策略来增强我们先前的 EGNet 模型,从而实现快速的共同信息学习。CoEG-Net 充分利用了先前的大规模 SOD 数据集,并显著提高了模型的可扩展性和稳定性。第三,我们对 40 种前沿算法进行了全面总结,并在三个具有挑战性的 CoSOD 数据集(iCoSeg、CoSal2015 和我们的 CoSOD3k)上对其中 18 种算法进行了基准测试,报告了更为详细的性能分析(即组级性能分析)。最后,我们讨论了 CoSOD 领域面临的挑战及未来的研究方向。我们希望本研究能够极大地促进 CoSOD 社区的发展。基准工具箱和结果可在我们的项目页面 http://dpfan.net/CoSOD3K/ 上获取。