
摘要
视觉Transformer(Vision Transformer, ViT)及其变体在众多计算机视觉基准任务中表现出卓越性能,包括人群计数任务。尽管基于Transformer的模型在人群计数领域已取得突破性进展,但现有方法仍存在一些局限性。现有方法从ViT中提取的全局特征难以充分捕捉细粒度的局部空间信息,因此在包含多样人体尺度与密度变化的密集场景中容易产生误差。本文提出一种名为LoViTCrowd的新方法,其核心观点为:通过ViT的注意力机制,从相关区域中提取带有空间信息的局部特征,能够有效降低人群计数误差。为此,我们将输入图像划分为规则的单元格网格。针对每个由3×3个单元格组成的局部区域,其中心区域通常包含人体的主要部分,而周围邻近单元格则提供了有助于人群估计的重要上下文线索。我们对每个3×3区域内的单元格应用ViT结构,利用其注意力机制在局部范围内建模单元格间的关联,以估计中心单元格中的人数。最终,通过将图像中非重叠单元格的计数结果相加,得到整幅图像中的人数。在四个公开的稀疏与密集场景数据集(Mall、ShanghaiTech Part A、ShanghaiTech Part B 和 UCF-QNRF)上的大量实验表明,所提方法在人群计数任务中达到了当前最优性能。相较于TransCrowd方法,LoViTCrowd在平均意义上分别将均方根误差(RMSE)和平均绝对误差(MAE)降低了14.2%和9.7%。相关代码已开源,地址为:https://github.com/nguyen1312/LoViTCrowd。