6 个月前

摘要

尺度置换网络（Scale-permuted networks）在目标边界框检测和实例分割任务中已展现出令人瞩目的性能。通过引入特征的尺度置换与跨尺度融合机制，这类网络能够在保留高空间分辨率的同时捕捉多尺度语义信息。在本工作中，我们将这一元架构设计应用于语义分割任务——另一项同样受益于高空间分辨率以及在不同网络阶段实现多尺度特征融合的视觉任务。在此基础上，我们进一步利用空洞卷积（dilated convolution）操作，提出了一种由神经架构搜索（NAS）发现的新型网络 SpineNet-Seg，其搜索空间源自 DeepLabv3 系统。SpineNet-Seg 在语义分割任务中采用了优化的尺度置换网络拓扑结构，并为每个模块自定义了特定的空洞率（dilation ratio），以更有效地建模多尺度上下文。在多个主流基准测试中，SpineNet-Seg 模型在不同模型规模下均显著优于 DeepLabv3 和 DeepLabv3+ 的基线模型，在推理速度与精度方面均表现出色。特别地，我们的 SpineNet-S143+ 模型在广泛使用的 Cityscapes 基准上取得了 83.04% 的 mIoU，刷新了该数据集上的最新性能纪录；同时在 PASCAL VOC2012 基准上也取得了 85.56% 的 mIoU，展现出强大的泛化能力。此外，SpineNet-Seg 模型在具有挑战性的 Street View 语义分割数据集上也取得了令人鼓舞的结果。相关代码与预训练模型权重将公开发布。

源 PDF