
제로샷 의미 분할(ZS3)은 학습 과정에서 등장하지 않은 새로운 카테고리에 대해 분할을 수행하는 것을 목표로 한다. 기존의 연구들은 ZS3를 픽셀 수준의 제로샷 분류 문제로 포맷화하여, 텍스트만으로 사전 훈련된 언어 모델을 활용해 보이는 클래스에서 보이지 않는 클래스로 의미 지식을 전이한다. 비록 간단하지만, 픽셀 수준의 ZS3 설정은 이미지-텍스트 쌍으로 사전 훈련된 빅스케일 비전-언어 모델(예: CLIP)을 효과적으로 통합하는 데 한계를 보인다. 인간이 종종 세그먼트 수준에서 의미 레이블링을 수행한다는 관찰에 착안하여, ZS3를 두 가지 하위 과제로 분리하는 새로운 접근 방식을 제안한다. 첫 번째 과제는 카테고리에 무관한 그룹화 작업으로, 픽셀들을 세그먼트로 그룹화하는 것이며, 이 과정은 카테고리 정보를 포함하지 않으므로 보이지 않는 클래스의 픽셀 그룹화에 직접 전이 가능하다. 두 번째 과제는 세그먼트 수준에서 수행되는 제로샷 분류 작업으로, 이미지-텍스트 쌍으로 사전 훈련된 대규모 비전-언어 모델을 자연스럽게 활용할 수 있는 방법을 제공한다. 이러한 분리된 설정을 기반으로, 기존 방법 대비 상당한 성능 향상을 보이는 간단하면서도 효과적인 제로샷 의미 분할 모델인 ZegFormer을 제안한다. ZS3 기준 벤치마크에서, PASCAL VOC에서 22점, COCO-Stuff에서 3점의 mIoU 향상으로 기존 방법들을 압도한다. 코드는 https://github.com/dingjiansw101/ZegFormer 에 공개될 예정이다.