
摘要
无类别目标计数旨在根据示例框或类别名称对图像中的所有目标进行计数,即实现少样本(few-shot)和零样本(zero-shot)计数。本文提出了一种基于检测的通用框架,用于统一处理少样本与零样本目标计数任务。该框架融合了两种基础模型的优越特性,同时不牺牲其零样本能力:(i)利用SAM(Segment Anything Model)生成所有可能目标的掩码提案;(ii)借助CLIP模型对这些提案进行分类,从而获得精确的目标计数结果。然而,该策略面临效率开销较大以及难以定位和区分小而密集目标的挑战。为解决上述问题,本文提出的框架PseCo(Point-based Segmentation and Counting)遵循“点提示—分割—计数”三步流程。具体而言,首先提出一种无类别目标定位方法,仅提供最少且精确的点提示给SAM,从而在显著降低计算成本的同时,有效避免遗漏小尺寸目标。此外,我们进一步提出一种广义目标分类方法,利用CLIP的图像与文本嵌入作为分类器,并通过分层知识蒸馏机制,实现对分层掩码提案之间的判别性分类。在FSC-147、COCO和LVIS等多个数据集上的大量实验结果表明,PseCo在少样本与零样本目标计数及检测任务中均达到了当前最优(state-of-the-art)性能。