2 个月前
Crowd-SAM:SAM作为拥挤场景中目标检测的智能标注器
Cai, Zhi ; Gao, Yingjie ; Zheng, Yaoyan ; Zhou, Nan ; Huang, Di

摘要
在计算机视觉中,目标检测是一项重要的任务,其应用广泛存在于多种场景中。然而,在拥挤的场景中获取大量标签往往具有挑战性。最近,提出了一个强大的零样本分割模型——Segment Anything Model(SAM),为实例分割任务提供了一种新颖的方法。然而,当处理拥挤和遮挡场景中的对象时,SAM及其变体的准确性和效率通常会受到影响。本文介绍了一种基于SAM的框架——Crowd-SAM,旨在通过引入少量可学习参数和最少的标注图像来提升SAM在拥挤和遮挡场景中的性能。我们引入了一个高效的提示采样器(Efficient Prompt Sampler, EPS)和一个整体-部分判别网络(Part-Whole Discrimination Network, PWD-Net),以增强在拥挤场景中的掩码选择和准确性。尽管其结构简单,但Crowd-SAM在多个基准测试中,包括CrowdHuman和CityPersons,表现与最先进的(State-of-the-Art, SOTA)全监督目标检测方法相当。我们的代码已发布在 https://github.com/FelixCaae/CrowdSAM。