
摘要
为了实现视觉场景理解的像素级语义分割,不仅需要保证准确性,还需要具备高效性,以便在实时应用中发挥作用。现有的算法虽然准确,但并未充分关注神经网络参数的有效利用。因此,这些算法在参数数量和运算次数上都较为庞大,导致运行速度较慢。本文提出了一种新颖的深度神经网络架构,能够在不显著增加参数数量的情况下进行学习。我们的网络仅使用1150万个参数和21.2 GFLOPs(十亿次浮点运算)来处理分辨率为3x640x360的图像。该网络在CamVid数据集上达到了最先进的性能,在Cityscapes数据集上也取得了可比的结果。我们还在不同图像分辨率下,将我们的网络在NVIDIA GPU和嵌入式系统设备上的处理时间与现有最先进架构进行了比较。