6 个月前

摘要

在本工作中，我们提出了Panoptic-DeepLab，这是一种简洁、高效且性能强大的全景分割系统，旨在为自底向上的方法建立一个坚实的基准。该方法在保持接近两阶段方法性能的同时，实现了极快的推理速度。具体而言，Panoptic-DeepLab分别针对语义分割和实例分割任务，采用了专为各自任务设计的双ASPP（Atrous Spatial Pyramid Pooling）结构与双解码器结构。其中，语义分割分支沿用了典型的语义分割模型架构（如DeepLab），而实例分割分支则采用类别无关（class-agnostic）的设计，仅通过简单的实例中心回归实现目标定位。得益于这一设计，我们的单模型Panoptic-DeepLab在Cityscapes数据集的全部三项评测指标上均取得第一名，创下新的最先进水平：测试集上达到84.2%的mIoU、39.0%的AP以及65.5%的PQ。此外，当与MobileNetV3结合使用时，Panoptic-DeepLab可在单张1025×2049分辨率图像上实现接近实时的推理速度（15.8帧/秒），同时在Cityscapes测试集上仍保持54.1%的PQ性能，展现出优异的实用性。在Mapillary Vistas测试集上，我们通过六模型集成的方法取得了42.7%的PQ，显著优于2018年挑战赛冠军1.5个百分点。最后，Panoptic-DeepLab在具有挑战性的COCO数据集上，其表现也与多项顶尖自顶向下方法相当。本工作首次证明，自底向上的方法同样能够实现全景分割任务的最先进性能，为该领域的发展提供了新的技术路径。

源 PDF 查看代码