摘要
与自然场景相比,航拍场景通常以鸟瞰视角呈现地表上密集分布的多种物体,其描述往往需要更丰富的判别性特征以及更精细的局部语义信息。然而,在应用于场景分类任务时,大多数现有的卷积神经网络(ConvNets)倾向于捕捉图像的全局语义,难以避免低层与中层特征的丢失,尤其在模型深度增加时更为显著。为应对上述挑战,本文提出一种面向航拍场景分类的多实例密集连接卷积网络(Multiple-Instance Dense-Connected ConvNet, MIDC-Net)。该方法将航拍场景分类建模为多实例学习(Multiple-Instance Learning, MIL)问题,从而进一步挖掘局部语义信息。所提出的分类模型包含三个核心组件:实例级分类器、可训练的多实例池化层以及袋级分类层。在实例级分类器中,我们设计了一种简化的密集连接结构,以有效保留来自不同网络层次的特征;提取出的卷积特征随后被转换为实例级特征向量。接着,我们提出一种基于注意力机制的可训练多实例池化方法,能够突出与场景类别相关的关键局部语义,并直接输出袋级(bag-level)分类概率。最后,通过袋级分类层,整个多实例学习框架在袋标签的直接监督下进行训练。在三个广泛使用的航拍场景基准数据集上的实验结果表明,所提出的方法在显著优于众多前沿方法的同时,仅需更少的参数量,展现出优异的性能与效率。