
摘要
物体计数对于理解场景的组成至关重要。此前,这一任务主要由特定类别的方法主导,这些方法逐渐演变为更为灵活的类别无关策略。然而,这些策略也存在一些局限性,例如需要手动输入示例和对多个类别进行多次处理,导致显著的效率低下。本文介绍了一种更为实用的方法,通过开放词汇框架实现对多个物体类别的同时计数。我们的解决方案——OmniCount,通过利用预训练模型中的语义和几何先验知识(priors),能够在无需额外训练的情况下根据用户指定的类别进行多类别物体计数。OmniCount 的独特之处在于生成精确的物体掩码,并通过 Segment Anything 模型利用多样化的交互提示实现高效的计数。为了评估 OmniCount,我们创建了 OmniCount-191 基准数据集,这是首个包含多标签物体计数的数据集,包括点、边界框和 VQA 注解。我们在 OmniCount-191 以及其他领先基准数据集上的全面评估表明,OmniCount 的性能卓越,显著超越现有解决方案。项目网页可访问 https://mondalanindya.github.io/OmniCount。