
摘要
在全卷积网络中,特征的传播方式对于捕捉多尺度上下文信息以获得精确的分割掩码具有重要意义。本文提出一种新颖的串并联混合架构——链式上下文聚合模块(Chained Context Aggregation Module, CAM),以多样化特征传播路径。CAM通过级联连接的梯式信息流获取不同空间尺度的特征,并采用两阶段融合策略,即预融合(pre-fusion)与再融合(re-fusion),实现特征的有效整合。串行路径逐步扩大输出神经元的感受野,而并行路径则编码不同区域的上下文信息。每条信息流均设计为具有适当下采样率的浅层编码器-解码器结构,以充分捕获上下文信息。此外,CAM进一步引入注意力机制,引导特征的再融合过程。基于上述设计,本文构建了链式上下文聚合网络(Chained Context Aggregation Network, CANet),其采用非对称解码器结构,以恢复预测结果的精细空间细节。我们在六个具有挑战性的数据集上进行了大量实验,包括Pascal VOC 2012、Pascal Context、Cityscapes、CamVid、SUN-RGBD和GATECH。实验结果表明,CANet在各项指标上均达到当前最优水平,显著提升了语义分割的性能。