
摘要
在这项工作中,我们提出了一种基于卷积神经网络(CNN)的新型架构,该架构可以端到端地训练以提供无缝的场景分割结果。我们的目标是通过全景输出格式预测一致的语义分割和检测结果,超越简单组合独立训练的分割和检测模型的方法。所提出的架构利用了一个新颖的分割头,该分割头能够无缝集成由特征金字塔网络生成的多尺度特征与轻量级DeepLab模块传递的上下文信息。作为额外贡献,我们回顾了全景指标,并提出了一种替代方案,以克服其在评估非实例类别时的局限性。我们提出的网络架构在三个具有挑战性的街景数据集上取得了最先进的结果,即Cityscapes、印度驾驶数据集(Indian Driving Dataset)和Mapillary Vistas。