
摘要
航空影像场景分类仍然面临严峻挑战,主要体现在:1)决定场景类别的关键目标在图像中的尺寸差异显著;2)图像中常充斥大量与场景类别无关的冗余对象。因此,如何从多种尺度中有效感知感兴趣区域(Region of Interests, RoIs),并基于这种复杂对象分布构建更具判别性的表征,对于理解航空场景至关重要。本文提出一种全新的“全粒度、单方案”(All Grains, One Scheme, AGOS)框架,以应对上述挑战。据我们所知,这是首个将经典多实例学习(Multiple Instance Learning, MIL)拓展至多粒度(multi-grain)形式的开创性工作。该框架由三个核心模块构成:多粒度感知模块(Multi-Grain Perception, MGP)、多分支多实例表征模块(Multi-Branch Multi-Instance Representation, MBMIR)以及自对齐语义融合模块(Self-Aligned Semantic Fusion, SSF)。首先,我们的MGP保留了主干网络输出的差异化空洞卷积特征,从而增强多粒度下的判别性信息表达;其次,MBMIR在MIL框架下对多粒度表征中的关键实例进行突出,提升其在分类中的贡献;最后,SSF模块使整个框架能够从多粒度实例表征中学习统一的场景类别,并实现有效融合,从而实现端到端的整体优化。值得注意的是,AGOS框架具有高度灵活性,可无缝集成至现有CNN架构中,采用即插即用的方式进行部署。在UCM、AID和NWPU等多个公开基准数据集上的大量实验表明,所提出的AGOS在性能上可与当前最先进的方法相媲美,展现出优异的泛化能力与鲁棒性。