
대조적 언어-이미지 사전학습(Contrastive Language-Image Pre-training, CLIP)은 오픈 보카블러리 제로샷 이미지 인식 분야에서 놀라운 진보를 이루어냈습니다. 최근 많은 연구들은 이미지 수준의 분류와 조작을 위해 사전 학습된 CLIP 모델들을 활용하고 있습니다. 본 논문에서는 CLIP의 픽셀 수준 밀집 예측, 특히 의미 세분화(semantic segmentation)에 대한 내재적 잠재력을 검토하고자 합니다. 이를 위해 최소한의 수정만으로도 MaskCLIP가 다양한 데이터셋에서 주석과 미세 조정(fine-tuning) 없이도 강력한 세분화 결과를 제공함을 보여드립니다. 의사 라벨링(pseudo labeling)과 자기 학습(self-training)을 추가하면, MaskCLIP+는 기존 최고 수준(SOTA)의 전달 제로샷 의미 세분화 방법론보다 크게 우수한 성능을 나타냅니다. 예를 들어, PASCAL VOC/PASCAL Context/COCO Stuff에서 미확인 클래스들의 평균 교차점(mIoU)이 35.6/20.7/30.3에서 86.1/66.7/54.7로 향상되었습니다. 또한 우리는 입력 오염(input corruption) 하에서 MaskCLIP의 견고성을 시험하고, 미세한 객체와 새로운 개념을 구별하는 능력을 평가하였습니다. 우리의 연구 결과는 MaskCLIP가 주석 없이 세분화를 달성하기 위한 밀집 예측 작업의 신뢰할 수 있는 감독원으로 작용할 수 있음을 제시합니다. 소스 코드는 https://github.com/chongzhou96/MaskCLIP 에서 확인할 수 있습니다.