MaX-DeepLab: 마스크 트랜스포머를 이용한 엔드투엔드 포노픽 세그멘테이션

우리는 패노픽 세그멘테이션을 위한 최초의 엔드투엔드 모델인 MaX-DeepLab을 제안한다. 기존의 박스 탐지, 비최대 억제(non-maximum suppression), thing-stuff 병합 등과 같은 보조 하위 작업과 수작업으로 설계된 구성 요소에 크게 의존하는 기존 파이프라인을 단순화하였다. 이러한 하위 작업은 각 분야의 전문가들에 의해 다뤄지고 있지만, 여전히 목표 작업을 종합적으로 해결하지 못하고 있다. 반면, 우리의 MaX-DeepLab은 마스크 트랜스포머를 통해 클래스 레이블이 부여된 마스크를 직접 예측하며, 이중 매칭(bipartite matching)을 통해 패노픽 품질을 고려한 손실 함수를 이용해 학습한다. 이 마스크 트랜스포머는 CNN 경로 외에 글로벌 메모리 경로를 추가한 이중 경로 아키텍처를 채택하여, 어떤 CNN 계층과도 직접적인 통신이 가능하다. 그 결과, 도전적인 COCO 데이터셋에서 박스를 사용하지 않는 환경에서도 MaX-DeepLab은 7.1%의 PQ(Panoptic Quality) 향상을 기록하며, 처음으로 박스 기반과 박스 없는 방법 간의 성능 격차를 해소하였다. 파라미터와 M-Adds가 유사한 조건에서 MaX-DeepLab의 소형 버전은 DETR 대비 3.0%의 PQ 향상을 달성하였다. 또한, 테스트 시 증강 기법 없이도 MaX-DeepLab은 COCO test-dev 세트에서 새로운 최고 성능인 51.3%의 PQ를 기록하였다. 코드는 https://github.com/google-research/deeplab2 에 공개되어 있다.