MaskConver: 풀패노픽 세그멘테이션을 위한 순수 컨볼루션 모델의 재고찰

최근 몇 년간 트랜스포머 기반 모델은 그 강력한 모델링 능력과 세그멘테이션과 인스턴스 클래스를 전역 이진 마스크 형태로 통합적으로 표현할 수 있다는 장점으로 인해 팬옵틱 세그멘테이션 분야에서 주도적인 위치를 차지해왔다. 본 논문에서는 순수 컨볼루션 기반 모델을 재검토하고, 물체(Things)와 물질(Stuff)의 표현을 중심점 예측을 통해 완전히 통합하는 새로운 팬옵틱 아키텍처인 MaskConver를 제안한다. MaskConver는 동일한 위치에 다수의 중심점이 존재할 경우 이를 구분할 수 있는 경량화된 클래스 임베딩 모듈을 도입함으로써, 물체와 물질 표현의 통합을 극대화한다. 또한 본 연구는 디코더 설계가 정확한 탐지 및 세그멘테이션을 위해 충분한 컨텍스트 정보를 모델이 유지하는 데 있어 결정적인 역할을 한다는 점을 밝혀냈다. 이를 위해, 컨볼루션 기반과 트랜스포머 기반 모델 간의 성능 격차를 해소할 수 있는 강력한 ConvNeXt-UNet 디코더를 제안한다. ResNet50 백본을 사용한 MaskConver는 COCO 팬옵틱 검증 세트에서 53.6%의 PQ를 달성하며, 최신 컨볼루션 기반 모델인 Panoptic FCN보다 9.3% 높은 성능을 기록했으며, Mask2Former(+1.7% PQ), kMaX-DeepLab(+0.6% PQ)와 같은 트랜스포머 기반 모델들보다도 우수한 성능을 보였다. 또한 MobileNet 백본을 사용한 MaskConver는 동일한 FLOPs 및 지연 시간 제약 조건 하에서 Panoptic-DeepLab보다 +6.4% 높은 37.2%의 PQ를 달성하였다. 더욱 최적화된 버전의 MaskConver는 실시간으로 모바일 기기에서 실행되면서도 29.7%의 PQ 성능을 달성하였다. 코드 및 모델 가중치는 공개될 예정이다.