패ノ픽-딥랩: 바텀업 패노픽 세그멘테이션을 위한 간단하고 강력하며 빠른 베이스라인

본 연구에서는 패노픽 세그멘테이션을 위한 단순하고 강력하며 빠른 시스템인 Panoptic-DeepLab을 제안한다. 이 시스템은 두 단계형 방법과 경쟁 가능한 성능을 달성하면서도 빠른 추론 속도를 제공하는 바텀업 방식의 견고한 벤치마크를 구축하는 것을 목표로 한다. 특히 Panoptic-DeepLab은 세분화(segmentation)와 인스턴스 세그멘테이션에 각각 특화된 이중-ASPP(Atrous Spatial Pyramid Pooling) 및 이중-디코더 구조를 채택한다. 세분화 분기(branch)는 일반적인 세분화 모델(예: DeepLab)의 전형적인 설계와 동일하며, 인스턴스 세그멘테이션 분기는 클래스 무관(class-agnostic)이며 간단한 인스턴스 중심 회귀(centroid regression)를 포함한다. 그 결과, 단일 Panoptic-DeepLab 모델은 Cityscapes 벤치마크의 세 가지 평가 지표에서 모두 1위를 기록하며, 테스트 세트에서 84.2%의 mIoU, 39.0%의 AP, 65.5%의 PQ를 달성하여 새로운 최고 성능 기록을 수립하였다. 또한 MobileNetV3와 결합할 경우, 단일 1025×2049 해상도 이미지에 대해 거의 실시간으로 처리(15.8 FPS)할 수 있으며, Cityscapes 테스트 세트에서 54.1%의 PQ를 달성해 경쟁력 있는 성능을 보였다. Mapillary Vistas 테스트 세트에서는 6개 모델의 앙상블을 사용하여 42.7%의 PQ를 기록하며, 2018년 대회 우승자보다 1.5% 이상 우수한 성과를 거두었다. 마지막으로, 도전적인 COCO 데이터셋에서도 Panoptic-DeepLab은 여러 상향식(top-down) 접근법과 비슷한 성능을 보였다. 본 연구는 처음으로 바텀업 방식이 패노픽 세그멘테이션에서 최첨단 성능을 달성할 수 있음을 실험적으로 입증하였다.