Command Palette
Search for a command to run...
基于视觉Transformer通过相关空间信息提升局部特征用于人群计数
基于视觉Transformer通过相关空间信息提升局部特征用于人群计数
Steven Q.H. Truong Trung Bui Chanh D. Tr. Nguyen Dao Huu Hung Phan Nguyen Soan T. M. Duong Ta Duc Huy Nguyen H. Tran
摘要
视觉Transformer(Vision Transformer, ViT)及其变体在众多计算机视觉基准任务中表现出卓越性能,包括人群计数任务。尽管基于Transformer的模型在人群计数领域已取得突破性进展,但现有方法仍存在一些局限性。现有方法从ViT中提取的全局特征难以充分捕捉细粒度的局部空间信息,因此在包含多样人体尺度与密度变化的密集场景中容易产生误差。本文提出一种名为LoViTCrowd的新方法,其核心观点为:通过ViT的注意力机制,从相关区域中提取带有空间信息的局部特征,能够有效降低人群计数误差。为此,我们将输入图像划分为规则的单元格网格。针对每个由3×3个单元格组成的局部区域,其中心区域通常包含人体的主要部分,而周围邻近单元格则提供了有助于人群估计的重要上下文线索。我们对每个3×3区域内的单元格应用ViT结构,利用其注意力机制在局部范围内建模单元格间的关联,以估计中心单元格中的人数。最终,通过将图像中非重叠单元格的计数结果相加,得到整幅图像中的人数。在四个公开的稀疏与密集场景数据集(Mall、ShanghaiTech Part A、ShanghaiTech Part B 和 UCF-QNRF)上的大量实验表明,所提方法在人群计数任务中达到了当前最优性能。相较于TransCrowd方法,LoViTCrowd在平均意义上分别将均方根误差(RMSE)和平均绝对误差(MAE)降低了14.2%和9.7%。相关代码已开源,地址为:https://github.com/nguyen1312/LoViTCrowd。