
摘要
尽管航拍图像在大型活动人群监控与管理中具有诸多优势,但该领域仍缺乏高质量的航拍人群图像数据集。为此,本文提出了一种新型人群数据集——DLR航拍人群数据集(DLR Aerial Crowd Dataset, DLR-ACD),该数据集由16次飞行任务在大型活动期间获取的33幅大尺寸航拍图像构成,共标注了226,291名人员。据我们所知,DLR-ACD是首个公开发布的航拍人群数据集,具有重要的研究价值与应用意义。为解决航拍图像中人群计数与密度图估计的准确性问题,本文进一步提出了一种新型编解码结构的卷积神经网络——多分辨率人群网络(Multi-Resolution Crowd Network, MRCNet)。该网络的编码器基于VGG-16架构,解码器则由一系列双线性上采样层与卷积层组成。MRCNet通过在解码器的早期层和最终层分别引入两个损失函数,将人群计数与高分辨率人群密度图估计作为两个相互关联但独立的任务进行联合优化。此外,MRCNet借鉴特征金字塔网络(Feature Pyramid Network, FPN)的思想,通过多条横向连接融合高层语义信息与低层细节特征,有效利用了上下文信息与局部细节,提升了模型对复杂场景的适应能力。我们在所提出的DLR-ACD数据集以及基于CCTV的基准数据集ShanghaiTech上对MRCNet进行了全面评估。实验结果表明,MRCNet在航拍图像和CCTV图像两种场景下的人群计数与密度图估计任务中,均显著优于现有最先进方法,展现出卓越的性能与泛化能力。