
摘要
卷积网络是强大的视觉模型,能够生成特征层次结构。我们展示了仅通过端到端训练的卷积网络,从像素到像素的映射,在语义分割方面超过了现有最佳方法。我们的关键洞察是构建“全卷积”网络,该网络可以接受任意大小的输入,并高效地进行推理和学习,生成相应大小的输出。我们定义并详细描述了全卷积网络的空间,解释了它们在空间密集预测任务中的应用,并探讨了与先前模型的联系。我们将当代分类网络(如 AlexNet、VGG 网络和 GoogLeNet)转换为全卷积网络,并通过微调将这些网络学到的表示迁移到分割任务中。随后,我们设计了一种新颖的架构,该架构结合了来自深层、粗略层的语义信息和来自浅层、精细层的外观信息,以生成准确且详细的分割结果。我们的全卷积网络在 PASCAL VOC(2012 年数据集上相对提高了 20%,达到 62.2% 的平均交并比)、NYUDv2 和 SIFT Flow 数据集上的分割性能达到了现有最佳水平,而对典型图像进行推理仅需三分之一秒。