6 个月前

摘要

视场（field-of-view）是设计语义分割模型时一个关键指标。为获得较大的视场，以往的方法通常通过快速下采样特征图分辨率来实现，一般采用平均池化或步长为2的卷积操作。本文提出一种不同的方法：在整个主干网络（backbone）中使用大膨胀率的空洞卷积（dilated convolutions），从而可通过调节膨胀率灵活控制网络的视场，且实验表明该方法在性能上可与现有方法相媲美。为了有效利用空洞卷积，我们推导出一个简单的膨胀率上界，以确保卷积核权重之间不出现间隙（即避免漏采样）。在此基础上，我们设计了一种受SE-ResNeXt启发的模块结构，该结构包含两个并行的 $3\times3$ 卷积层，分别采用不同的膨胀率，以更好地保留局部细节信息。由于手动为每个模块调整膨胀率较为困难，我们进一步提出一种可微分的神经架构搜索方法，利用梯度下降自动优化各层的膨胀率。此外，我们还提出一种轻量级解码器结构，能够比常见方法更有效地恢复局部空间信息。为验证所提方法的有效性，我们构建的模型RegSeg在实时语义分割任务中取得了具有竞争力的性能表现。在使用T4 GPU并结合混合精度计算的条件下，RegSeg在Cityscapes测试集上达到37 FPS的推理速度，mIOU为78.3；在CamVid测试集上达到112 FPS的推理速度，mIOU为80.9，且均未使用ImageNet预训练。