FreeSeg: 의미 분할을 위한 해석 가능한 대조적 언어-이미지 사전 학습에서의 자유 마스크

완전히 감독되는 의미 분할은 밀집된 마스크를 기반으로 학습하므로, 폐쇄세트(_CLOSED_SET) 환경에서는 높은 레이블링 비용이 요구된다. 본 논문에서는 픽셀 수준의 레이블링 없이 자연어를 활용한 감독을 통해 개방세계 분할(OPEN-WORLD SEGMENTATION)을 수행한다. 제안하는 프레임워크를 FreeSeg라고 명명하며, 사전 훈련된 모델의 원시 특징 맵에서 자유롭게 마스크를 추출할 수 있다. 기존의 제로샷 또는 오픈셋 분할과 달리 FreeSeg는 어떤 레이블링된 마스크도 필요로 하지 않으며, 클래스 무관(unseen class-agnostic) 비감독 분할을 훨씬 넓은 범위의 분류를 예측할 수 있다. 구체적으로 FreeSeg는 해석 가능한 대조적 이미지-텍스트 사전 훈련(Interpretable Contrastive Language-Image Pretraining, ICLIP)의 이미지-텍스트 유사도 맵(Image-Text Similarity Map, ITSM)에서 무료 마스크를 추출한다. 또한 본 연구의 핵심 기여는 밀집된 ICLIP에 대해 부드러운 최소 풀링(smoothed min pooling)을 도입한 점이며, 분할에 있어 부분 레이블(partial label) 및 픽셀 전략(pixel strategy)을 활용한 점이다. 더불어 FreeSeg는 그룹화, 클러스터링, 검색과 같은 복잡한 설계 없이 매우 간단한 구조를 갖추고 있다. 단순성 외에도 FreeSeg는 기존 최고 성능 모델을 크게 상회하며, 동일한 설정 하에서 VOC 데이터셋에서 mIoU 기준으로 13.4% 높은 성능을 기록하였다.