7 天前
全景-DeepLab:一种简单、强大且快速的自底向上全景分割基线
Bowen Cheng, Maxwell D. Collins, Yukun Zhu, Ting Liu, Thomas S. Huang, Hartwig Adam, Liang-Chieh Chen

摘要
在本工作中,我们提出了Panoptic-DeepLab,这是一种简洁、高效且性能强大的全景分割系统,旨在为自底向上的方法建立一个坚实的基准。该方法在保持接近两阶段方法性能的同时,实现了极快的推理速度。具体而言,Panoptic-DeepLab分别针对语义分割和实例分割任务,采用了专为各自任务设计的双ASPP(Atrous Spatial Pyramid Pooling)结构与双解码器结构。其中,语义分割分支沿用了典型的语义分割模型架构(如DeepLab),而实例分割分支则采用类别无关(class-agnostic)的设计,仅通过简单的实例中心回归实现目标定位。得益于这一设计,我们的单模型Panoptic-DeepLab在Cityscapes数据集的全部三项评测指标上均取得第一名,创下新的最先进水平:测试集上达到84.2%的mIoU、39.0%的AP以及65.5%的PQ。此外,当与MobileNetV3结合使用时,Panoptic-DeepLab可在单张1025×2049分辨率图像上实现接近实时的推理速度(15.8帧/秒),同时在Cityscapes测试集上仍保持54.1%的PQ性能,展现出优异的实用性。在Mapillary Vistas测试集上,我们通过六模型集成的方法取得了42.7%的PQ,显著优于2018年挑战赛冠军1.5个百分点。最后,Panoptic-DeepLab在具有挑战性的COCO数据集上,其表现也与多项顶尖自顶向下方法相当。本工作首次证明,自底向上的方法同样能够实现全景分割任务的最先进性能,为该领域的发展提供了新的技术路径。