
摘要
鉴于深度神经网络架构在计算机视觉任务中的广泛应用,诸多新型应用如今正变得日益可行。其中,实例分割(instance segmentation)近年来受到特别关注,主要得益于基于R-CNN衍生出的两阶段网络(如Mask R-CNN或Faster R-CNN)所取得的优异性能。在这些复杂架构中,感兴趣区域(Region of Interest, RoI)提取层扮演着至关重要的角色,其功能是从附加于主干网络(backbone)之上的单一特征金字塔网络(Feature Pyramid Network, FPN)层中提取出一组具有一致性的特征。本文的研究动机源于现有RoI提取器的局限性:它们仅从FPN中选择单一最优层进行特征提取。我们提出,FPN的所有层级均保留了有价值的信息。为此,本文提出一种新型提取层——通用RoI提取器(Generic RoI Extractor, GRoIE),通过引入非局部(non-local)构建模块与注意力机制,以增强特征表示能力并提升整体性能。本文在组件层面进行了全面的消融实验,以确定GRoIE层中最佳的算法组合与参数配置。此外,GRoIE可无缝集成至各类两阶段架构中,适用于目标检测与实例分割任务。实验表明,在多个前沿架构中应用GRoIE后,均取得了显著性能提升:在边界框检测任务上最高实现1.1%的平均精度(AP)提升,在实例分割任务上最高实现1.7%的AP提升。相关代码已公开发布于GitHub仓库:https://github.com/IMPLabUniPr/mmdetection/tree/groie_dev