11 天前
基于编码器-解码器结构的多尺度感知模块卷积神经网络用于人群计数
Pongpisit Thanasutives, Ken-ichi Fukui, Masayuki Numao, Boonserm Kijsirikul

摘要
本文提出两种基于双路径多尺度融合网络(SFANet)与SegNet的改进型神经网络,以实现高效且精确的人群计数。受SFANet启发,第一种模型命名为M-SFANet,其在原有结构基础上引入了空洞空间金字塔池化(Atrous Spatial Pyramid Pooling, ASPP)模块与上下文感知模块(Context-Aware Module, CAN)。M-SFANet的编码器通过集成具有不同采样率的并行空洞卷积层的ASPP模块,能够有效提取目标对象的多尺度特征,并融合更广泛的上下文信息。为进一步应对输入图像中尺度变化的问题,本文引入CAN模块,该模块可自适应地编码上下文信息的尺度特性。两者的结合使得该模型在密集与稀疏人群场景下均表现出优异的计数性能。基于SFANet的解码器结构,M-SFANet采用双路径设计,分别用于生成密度图与注意力图。第二种模型称为M-SegNet,其通过将SFANet中的双线性上采样替换为SegNet中使用的最大反池化(max unpooling)操作,从而在保持良好计数性能的同时显著提升模型运行速度。为满足高速监控应用的需求,M-SegNet未引入额外的多尺度感知模块,以避免增加模型复杂度。两种模型均采用编码器-解码器架构,支持端到端训练。我们在五个典型人群计数数据集及一个车辆计数数据集上进行了大量实验,结果表明,上述改进显著提升了现有最先进人群计数方法的性能。相关代码已开源,地址为:https://github.com/Pongpisit-Thanasutives/Variations-of-SFANet-for-Crowd-Counting。