
摘要
近年来,利用深度卷积神经网络(DCNNs)在语义分割领域取得了显著进展。然而,大量的卷积层和特征通道使得语义分割成为一个计算密集型任务,这在资源有限的场景中具有不利影响。本文设计了一种高效的对称网络,称为ESNet,以解决这一问题。该网络整体上采用了近乎对称的架构,主要由一系列分解卷积单元(FCU)及其并行版本(PFCU)组成。一方面,FCU在残差层中采用了广泛使用的1D分解卷积;另一方面,并行版本在残差模块的设计中采用了变换-分裂-变换-合并策略,其中分裂分支使用不同膨胀率的膨胀卷积来扩大感受野。我们的模型参数量约为1.6M,在单个GTX 1080Ti GPU上可以实现超过62帧每秒(FPS)的性能。实验结果表明,我们的方法在CityScapes数据集上实现了实时语义分割的速度与精度之间的最佳平衡,达到了当前最先进的水平。