
摘要
共显著目标检测(Co-salient Object Detection, CoSOD)是显著目标检测(SOD)领域中一个新兴且快速发展的分支,旨在从多幅图像中识别出共同出现的显著目标。然而,现有的CoSOD数据集普遍存在严重的数据偏差,其假设通常认为每组图像中的显著目标在视觉外观上具有相似性。这一偏差导致在现有数据集上训练的模型在真实场景中的表现可能大打折扣,因为在现实应用中,显著目标之间的相似性更多体现为语义或概念层面的一致性,而非视觉外观的相似。为解决这一问题,我们首先构建了一个高质量的新数据集,命名为CoSOD3k,包含3,316张图像,划分为160个图像组,并提供多层次的标注信息,涵盖类别(category)、边界框(bounding box)、目标(object)和实例(instance)四个层级。CoSOD3k在多样性、难度和可扩展性方面实现了显著提升,为相关视觉任务的发展提供了有力支持。此外,我们系统性地总结了34种前沿的CoSOD算法,基于四个现有数据集(MSRC、iCoSeg、Image Pair和CoSal2015)以及我们提出的CoSOD3k,对其中19种算法进行了全面基准测试。整个测试涵盖总计61,000张图像,是目前规模最大的CoSOD基准评估。我们还报告了分组级别的性能分析结果,深入揭示了各方法在不同场景下的表现差异。最后,本文探讨了CoSOD领域当前面临的挑战,并展望了未来的研究方向。本研究将为CoSOD社区的持续发展注入强劲动力。相关基准测试工具包及实验结果已公开发布于我们的项目主页,供学术界和工业界参考与使用。