
摘要
我们提出了一种新颖且实用的深度全卷积神经网络架构,用于语义像素级分割,称为SegNet。该核心可训练分割引擎由一个编码器网络、一个相应的解码器网络以及一个像素级分类层组成。编码器网络的架构在拓扑上与VGG16网络中的13个卷积层完全相同。解码器网络的作用是将低分辨率的编码器特征图映射到全输入分辨率的特征图,以实现像素级分类。SegNet的新颖之处在于解码器如何对其低分辨率输入特征图进行上采样。具体而言,解码器利用对应编码器在最大池化步骤中计算出的池化索引进行非线性上采样。这消除了学习上采样的需要。上采样的特征图是稀疏的,然后通过可训练滤波器进行卷积以生成密集的特征图。我们将提出的架构与广泛采用的全卷积网络(FCN)以及知名的DeepLab-LargeFOV和DeconvNet架构进行了比较。这一比较揭示了在实现良好分割性能时所涉及的记忆与精度之间的权衡。SegNet主要受到场景理解应用的驱动,因此在推理过程中设计为高效利用内存和计算时间。与其他竞争架构相比,其可训练参数的数量也显著较少。我们还在道路场景和SUN RGB-D室内场景分割任务中对SegNet和其他架构进行了控制基准测试。结果显示,SegNet在提供良好性能的同时,具有竞争力的推理时间和更高效的内存使用。此外,我们还提供了SegNet的Caffe实现和在线演示(http://mi.eng.cam.ac.uk/projects/segnet/)。