
摘要
我们首次系统地研究了隐蔽物体检测(COD),其目标是识别那些“完美”嵌入背景中的物体。隐蔽物体与其背景之间固有的高度相似性使得COD比传统的物体检测/分割更具挑战性。为了更好地理解这一任务,我们收集了一个大规模的数据集,称为COD10K,该数据集包含10,000张图像,涵盖了来自78个物体类别的多种现实场景中的隐蔽物体。此外,我们提供了丰富的注释,包括物体类别、物体边界、挑战属性、物体级标签和实例级注释。目前,我们的COD10K是最大的隐蔽物体检测数据集,拥有最丰富的注释,这有助于全面理解隐蔽物体,并且甚至可以用于推动其他视觉任务(如检测、分割、分类等)的发展。受动物在野外捕猎方式的启发,我们还设计了一种简单但强大的COD基线模型,称为搜索识别网络(Search Identification Network, SINet)。SINet无需任何额外的复杂技巧,在所有测试数据集上均优于12个最先进的基线模型,显示出其鲁棒性和泛化能力,可以作为未来COD研究的催化剂。最后,我们提供了一些有趣的发现,并强调了几种潜在的应用和未来的研究方向。为了激发这一新领域的研究热情,我们在项目页面上提供了代码、数据集和在线演示:http://mmcheng.net/cod。