摘要

在本研究中，我们针对语义图像分割任务采用了深度学习方法，并做出了三项主要贡献，这些贡献通过实验验证具有显著的实际价值。首先，我们强调了上采样滤波器的卷积（即“空洞卷积”）作为密集预测任务中的强大工具。空洞卷积使我们能够在深度卷积神经网络（DCNN）中显式控制特征响应的计算分辨率。它还能够在不增加参数数量或计算量的情况下，有效地扩大滤波器的感受野，以纳入更大的上下文信息。其次，我们提出了空洞空间金字塔池化（Atrous Spatial Pyramid Pooling, ASPP），以实现对多尺度对象的稳健分割。ASPP通过多个采样率和有效感受野的滤波器来探测输入的卷积特征层，从而捕捉到不同尺度下的对象及其图像上下文。第三，我们通过结合深度卷积神经网络（DCNN）和概率图模型的方法来提高对象边界定位的准确性。通常使用的最大池化和下采样组合虽然能够实现不变性，但会影响定位精度。我们通过将最终DCNN层的响应与全连接条件随机场（Conditional Random Field, CRF）相结合，克服了这一问题，并且从定性和定量两个方面证明了该方法可以改善定位性能。我们提出的“DeepLab”系统在PASCAL VOC-2012语义图像分割任务中达到了新的最先进水平，在测试集上的mIOU达到了79.7%，并在其他三个数据集：PASCAL-Context、PASCAL-Person-Part和Cityscapes上取得了显著进展。我们的所有代码均已在线公开提供。

源 PDF