
摘要
视场(field-of-view)是设计语义分割模型时一个关键指标。为获得较大的视场,以往的方法通常通过快速下采样特征图分辨率来实现,一般采用平均池化或步长为2的卷积操作。本文提出一种不同的方法:在整个主干网络(backbone)中使用大膨胀率的空洞卷积(dilated convolutions),从而可通过调节膨胀率灵活控制网络的视场,且实验表明该方法在性能上可与现有方法相媲美。为了有效利用空洞卷积,我们推导出一个简单的膨胀率上界,以确保卷积核权重之间不出现间隙(即避免漏采样)。在此基础上,我们设计了一种受SE-ResNeXt启发的模块结构,该结构包含两个并行的$3\times3$卷积层,分别采用不同的膨胀率,以更好地保留局部细节信息。由于手动为每个模块调整膨胀率较为困难,我们进一步提出一种可微分的神经架构搜索方法,利用梯度下降自动优化各层的膨胀率。此外,我们还提出一种轻量级解码器结构,能够比常见方法更有效地恢复局部空间信息。为验证所提方法的有效性,我们构建的模型RegSeg在实时语义分割任务中取得了具有竞争力的性能表现。在使用T4 GPU并结合混合精度计算的条件下,RegSeg在Cityscapes测试集上达到37 FPS的推理速度,mIOU为78.3;在CamVid测试集上达到112 FPS的推理速度,mIOU为80.9,且均未使用ImageNet预训练。