
摘要
人群计数或密度估计是计算机视觉领域中一项具有挑战性的任务,主要由于存在大规模尺度变化、透视畸变以及严重的遮挡等问题。现有方法普遍面临两个关键问题:其一,由于广泛采用L2回归损失,多尺度卷积神经网络(CNN)中存在模型平均效应;其二,不同尺度输入下的估计结果缺乏一致性。为明确应对上述问题,本文提出一种新型人群计数(密度估计)框架——对抗性跨尺度一致性追求(Adversarial Cross-Scale Consistency Pursuit, ACSCP)。一方面,我们设计了一种U-Net结构的网络,用于从输入图像块生成密度图,并引入对抗性损失,将解空间约束至更符合现实的子空间,从而有效抑制密度图估计中的模糊效应。另一方面,我们提出一种新颖的尺度一致性正则化项,强制要求局部小尺度图像块的计数之和与这些块区域并集的全局大尺度计数保持一致,从而提升跨尺度估计的一致性。上述损失项通过联合训练机制进行融合,进一步挖掘两个目标之间的协同作用,显著提升密度估计性能。在四个公开基准数据集上的大量实验充分验证了所提方法的优越性,证明了其在人群计数任务中的有效性,显著优于现有先进方法。