
摘要
我们提出了一种用于拥挤场景识别的网络,称为CSRNet,旨在提供一种数据驱动和深度学习的方法,能够理解和分析高度拥挤的场景,并进行精确的人数估计以及生成高质量的密度图。所提出的CSRNet由两个主要组件构成:前端使用卷积神经网络(CNN)进行二维特征提取,后端则采用膨胀卷积神经网络(dilated CNN),通过使用膨胀内核来扩大感受野并替代池化操作。由于其纯卷积结构,CSRNet是一个易于训练的模型。我们在四个数据集(ShanghaiTech数据集、UCF_CC_50数据集、WorldEXPO'10数据集和UCSD数据集)上展示了CSRNet,并实现了最先进的性能。在ShanghaiTech Part_B数据集中,CSRNet的平均绝对误差(MAE)比之前最先进的方法降低了47.3%。我们将目标应用扩展到其他对象的计数,例如TRANCOS数据集中的车辆。结果表明,CSRNet显著提高了输出质量,在该数据集中MAE比之前的最先进方法低15.4%。