7 个月前

摘要

使用深度卷积神经网络进行语义分割对任何GPU密集型任务提出了更为复杂的挑战。由于需要计算数百万个参数，这导致了巨大的内存消耗。此外，提取更精细的特征并进行监督训练往往会增加复杂度。随着全卷积神经网络（Fully Convolutional Neural Network）的引入，该网络通过使用更细的步幅和利用反卷积层进行上采样，已成为图像分割任务的首选方法。在本文中，我们提出两种分割架构，不仅所需的参数量仅为类似架构的三分之一，而且在精度上也优于这些架构。模型权重从流行的神经网络如VGG19和VGG16转移而来，这些网络是在ImageNet分类数据集上训练的。然后我们将所有全连接层转换为卷积层，并使用膨胀卷积来减少参数量。最后，我们增加了更细的步幅，并附加了四个跳跃架构（skip architectures），这些跳跃架构在步骤中逐元素与反卷积层相加。我们在不同的稀疏和精细数据集（如Pascal VOC2012、Pascal-Context和NYUDv2）上进行了训练和测试，并展示了我们的模型在这类任务中的优越性能。另一方面，我们的模型在NVIDIA Pascal GPU上具有更快的推理时间，并且在训练和测试过程中消耗更少的内存，从而成为一种更高效且占用内存较少的像素级分割架构。

源 PDF 查看代码