
摘要
在人群图像中自动计数是一项具有挑战性的任务。主要困难在于人们在不同人群场景中的表现形式存在极大的多样性。实际上,可用于区分人群的特征在很大程度上取决于人群密度,以至于在高密度场景中,人们仅被看作是模糊的团块。我们通过一个可扩展的卷积神经网络(CNN)来解决这一问题,该网络可以逐步增加其容量以应对在人群场景中观察到的广泛变化。我们的模型从一个基础的CNN密度回归器开始,该回归器对所有类型的人群图像进行等效训练。为了适应巨大的多样性,我们创建了两个子回归器,它们是基础CNN的精确复制。差异化的训练过程将数据集分为两个簇,并对子网络进行微调以适应各自的专长领域。因此,在没有人为制定形成专长的标准的情况下,子回归器成为了某些类型人群的专家。子网络再次递归地分裂,每次分裂都会产生两个专家。这种层次化的训练形成了一个CNN树,在这个树中,子回归器比其任何父节点都更加精细地成为专家。最终选择叶节点作为最终专家,并训练一个分类网络以预测给定测试图像块的正确专长领域。所提出的模型在主要的人群数据集上实现了更高的计数准确性。此外,我们还分析了由我们的方法自动挖掘出的专长领域的特征。