
摘要
我们提出了CLIP-EBC,这是首个完全基于CLIP的模型,用于实现高精度的群体密度估计。尽管CLIP模型在零样本图像分类等识别任务中已展现出卓越性能,但其在计数任务中的潜力尚未得到充分探索,主要原因在于将回归问题(如计数)转化为识别任务存在固有挑战。在本研究中,我们系统地探究并提升了CLIP的计数能力,重点关注从图像中估计人群规模的任务。现有的基于分类的计数框架存在显著局限性,包括将计数值量化为相邻的实数值区间(bin),以及仅关注分类误差。这些做法导致在区间边界附近出现标签歧义,并造成计数预测不准确。因此,直接将CLIP应用于此类框架可能难以获得最优性能。为解决上述问题,我们首先提出增强型分块分类(Enhanced Blockwise Classification, EBC)框架。与以往方法不同,EBC采用整数值区间,有效降低了区间边界附近的歧义性;同时,引入基于密度图的回归损失,进一步提升计数预测的准确性。在此与骨干网络无关的EBC框架基础上,我们进一步构建了CLIP-EBC,以充分挖掘CLIP在识别任务中的强大能力,应用于人群密度估计。大量实验验证了EBC框架的有效性,以及CLIP-EBC的卓越性能。具体而言,我们的EBC框架在UCF-QNRF数据集上可使现有基于分类的方法性能提升高达44.5%;而CLIP-EBC在NWPU-Crowd测试集上达到当前最优水平,平均绝对误差(MAE)为58.2,均方根误差(RMSE)为268.5,相较于此前最佳方法STEERER,分别提升了8.6%和13.3%。相关代码与模型权重已开源,地址为:https://github.com/Yiming-M/CLIP-EBC。