
摘要
空间池化(Spatial Pooling)已被证明在捕捉像素级预测任务中的长程上下文信息方面极为有效,例如场景解析(scene parsing)。本文在传统空间池化(通常采用规则的 NxN 形状)的基础上,重新思考了空间池化的建模方式,提出了一种新型池化策略——条带池化(strip pooling),该策略采用细长的核结构,即 1×N 或 N×1 的卷积核。基于条带池化,本文进一步深入研究了空间池化架构设计,主要包含以下三个方面:1)提出一种新的条带池化模块,使主干网络能够高效建模长程依赖关系;2)设计一种新型网络构建模块,其核心为多样化的空间池化结构;3)系统性地对比了所提出的条带池化与传统空间池化技术的性能表现。两种基于条带池化的新型设计均具有轻量化特性,可作为高效、即插即用的模块无缝集成至现有的场景解析网络中。在多个主流基准数据集(如 ADE20K 和 Cityscapes)上的大量实验表明,本文提出的简单方法取得了新的最先进(state-of-the-art)性能。代码已公开,地址为:https://github.com/Andrew-Qibin/SPNet。